蜜蜂采集器的使用教程 - 实现博客搬家
博客,即网络日志,是一种通过互联网发布个人或团体的观点、经验、知识等内容的方式。当前,除了传统的文字和图片形式的博客外,还出现了一些新颖和有趣的博客形式,如视频博客(Vlog)、音频博客(Podcast)、动画博客(Animation Blog)等。
博客搬家,就是将博客从一个平台或者域名迁移到另一个平台或者域名的过程。博客搬家的原因有很多,比如平台的性能、稳定性、功能、设计、商业化等方面的不满意,或者个人的喜好、需求、目标等方面的变化。
十多年前,博客市场格局基本定型,一些公司陆续退出博客领域。其中,微软的空间服务关闭,各博客运营商为争夺其用户,陆续推出了“一键搬家”功能,市场上也出现了不少“博客搬家”工具。
近年来,博客逐渐没落,更多的人倾向于自己搭建博客站点,这使得博客搬家变得更加必要和重要。
由于不便以其他博客平台作为演示站点,所以,这里以自己搭建的两个博客站点互相迁移为例。现在,我们开始从ZBlog站点迁移到WordPress站点,演示如何使用蜜蜂采集器实现博客搬家,并介绍网址采集时如何使用翻页采集功能。
先搭建一个ZBlog站点,并填充一部分测试数据,此处略去搭建过程。ZBlog站点为采集源站点。再搭建一个WordPress站点,此处略去搭建过程。WordPress站点为迁移的目标站点。为方便测试,这里不考虑栏目分类问题。实际采集时,应该考虑将源站和目标站的栏目分类一一对应。
采集规则
新建采集规则。“列表页”添加普通网址,网址为ZBlog站点首页。这里不考虑栏目分类问题。
网址采集。网址标签,区域起始为
,区域结束为
,解析方式为自动解析。翻页采集设置中,GET方法获取翻页,翻页控件的区域起始为
,翻页控件的区域结束为/div>,翻页网址的解析方式为自动解析。设置完成后,测试网址采集。
网址采集测试
内容采集。在标签列表中,点击“导入”,选择WordPress发布模块,然后导入标签列表,这些标签就是发布模块需要用到的标签。将标签别名、附件的生成方式设置为格式化生成 - 固定字符串,且内容为空。
标题:提取方法为字符串截取。起始字符串为
,结束字符串为;
发布时间:提取方法为字符串截取。起始字符串为,结束字符串为;
内容:提取方法为字符串截取。起始字符串为div class="post-body">,结束字符串为
;
领取专属 10元无门槛券
私享最新 技术干货