职位描述 |
爬虫的技术需要带服务接口破解, 网站会员限制, 账号可用资源数目限制等
岗位职责:
1.参与数码回收项目分布式网络爬虫系统的架构设计与开发;
2.主导爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量;
3.负责HTTP、AJAX等各类网络请求分析,探索和研究高效的数据抓取解决方案;
4.借助浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据;
5.利用python数据分析准备工作、利用numpy解决随机漫步案例、利用pandas完成数据汇总和描述。
任职要求:
1.有互联网数码回收行业数据处理相关岗位经验者优先考虑;
2.计算机相关专业专科及以上学历,2年及以上大数据相关工作经验;
3.熟悉Linux开发环境,熟悉Python/Java/Scala等至少1门编程语言;
4.熟悉Hadoop、Hive、Spark、Kafka、HBase等大数据相关技术及实操应用;
5.有数据可视化、Web、MySQL、Redis、 MongoDB、JS等相关经验者优先;
6.熟悉linux开发环境,熟悉C++和python,有多线程、分布式网络数据处理经验优先;
7.有扎实的数据结构和算法功底,精通网络爬虫,有着丰富的网络数据爬取工程项目经验 |