logologo
寻找工作
返回简章2026-02-07 更新

爬虫实习生

杭州
本科及以上
计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
数据爬虫开发实习生 岗位职责 1. 遵循robots协议,合规完成互联网公开网页、公开数据集的采集工作。 2. 参与分布式网络爬虫的设计与开发,尝试独立解决开发中的调度优化、并发控制、爬取覆盖率等问题,助力提升数据抓取效果与性能。 3. 协助开展网页信息抽取技术算法的研究与开发,探索优化数据抓取效率和质量的方法。 4. 参与爬取数据的去重、解析入库,以及爬虫系统的日常监控与异常警报处理。 任职要求 • 熟悉Python/Java/Go/C++中的至少两种编程语言,有基础编码能力。 • 了解一种及以上爬虫库(如Requests、BeautifulSoup、Scrapy等),有简单使用经验优先。 • 具备基础的网络通信知识,对HTTPS、TCP协议有初步理解。 加分项 • 接触过Playwright、Puppeteer等主流爬虫框架工具。 • 会使用正则表达式、XPath、CSS等技术进行网页信息抽取。 • 了解NLP基本技术,或实际使用过Fasttext、N-gram、Bert、GPT等算法模型。 你将获得 • 前沿技术实践:直面复杂网站结构、动态渲染、反爬机制,参与设计高可用、智能化的爬取策略。 • 核心业务影响:工作成果直接关联AI大模型的数据质量,深度影响AI的理解能力、知识广度与推理能力。 • 快速成长环境:接触大规模分布式爬虫、智能反反爬、自动化数据清洗等核心技术,在实践中积累经验。 • 清晰职业路径:可深入爬虫架构、AI数据工程领域,或转向大模型数据策略方向发展。 岗位职责: 1. 遵循robots协议,合规完成互联网公开网页、公开数据集的采集工作。 2. 参与分布式网络爬虫的设计与开发,尝试独立解决开发中的调度优化、并发控制、爬取覆盖率等问题,助力提升数据抓取效果与性能。 3. 协助开展网页信息抽取技术算法的研究与开发,探索优化数据抓取效率和质量的方法。 4. 参与爬取数据的去重、解析入库,以及爬虫系统的日常监控与异常警报处理。 任职要求: 1. 熟悉Python/Java/Go/C++中的至少两种编程语言,有基础编码能力。 2. 了解一种及以上爬虫库(如Requests、BeautifulSoup、Scrapy等),有简单使用经验优先。 3. 具备基础的网络通信知识,对HTTPS、TCP协议有初步理解。 4. 加分项:接触过Playwright、Puppeteer等主流爬虫框架工具;会使用正则表达式、XPath、CSS等技术进行网页信息抽取;了解NLP基本技术,或实际使用过Fasttext、N-gram、Bert、GPT等算法模型。 你将获得: 1. 前沿技术实践:直面复杂网站结构、动态渲染、反爬机制,参与设计高可用、智能化的爬取策略。 2. 核心业务影响:工作成果直接关联AI大模型的数据质量,深度影响AI的理解能力、知识广度与推理能力。 3. 快速成长环境:接触大规模分布式爬虫、智能反反爬、自动化数据清洗等核心技术,在实践中积累经验。 4. 清晰职业路径:可深入爬虫架构、AI数据工程领域,或转向大模型数据策略方向发展。