爬虫架构师/数据采集总监
【公司名称】集导购、媒体、工具、社区属性为一体的消费领域门户型网站
【年薪范围】¥30-50万
【岗位职责】
1、参与消费大数据的建设,专注于垂直领域数据爬取,进行多平台信息的抓取和分析;
2、对爬虫系统的架构设计与开发;
3、深刻理解爬虫系统架构,能对系统架构提出自己的见解和优化方案;
4、实现数据提取、清洗、结构化、入库、统计分析等需求;
5、建立爬虫监测体系,及时分析及解决爬虫在运行过程中出现的缺陷;
6、研究优化算法,提升爬虫系统的稳定性、可扩展性;
7、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
8、能独立解决实际开发过程碰到的各类问题。
【职位要求】
1、全日制本科及以上,5年以上python/java开发经验,3年以上数据抓取工作经验;
2、精通使用分布式基本知识,设计与开发爬虫系统架构;
3、精通使用爬虫相关技术,如:python, scrapy, selenium, xpath, 正则表达式 但不限于以上技术等,有app研发背景或app爬虫开发经验佳,有逆向经验尤佳;
4、精通高并发、高性能的分布式系统的设计及应用,熟悉常用数据存储,各种数据处理技术优先;
5、能够解决封账号、封IP采集等问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台;
6、熟悉Linux常用命令,独立完成日常部署更新等;
7、具备较强的团队协作精神,工作责任心强,良好的沟通、理解、执行能力。
【工作地点】北京
领取专属 10元无门槛券
私享最新 技术干货