00:00
好,我们继续来上课,那么上节课呢,我们把我们这个正则啊也练习了一下,那么这节课呢,我们再来强化一下,也就是说我们使用正则呢,我们来做一个这个采集程序,那么在做它之前呢,我们先来看一下啊,在这里面我已经把这个PPCMS这个文件啊又拷过来一份,那么我们在第一课当中我也教过大家安装对吧,那么现在我在解压再安装一下,然后呢,这里边呢,它有一个有一套它的采集出去,那么我先用一下,先看一下这个采集到底是什么样的啊,好了,我把它这个改了个名叫PPMS,对吧,这里边。别的都去掉,然后。这个也叫做PPCMS好了,进到这里面是不是它的这个安装目录啊,对不对,那这里面安装目录CTRLX我给它剪切出来啊,这里面嵌套的太多了。来,直接拿到这层。然后。执行替换好,那么现在我们来访问他。来找找on。来下边的这个lesson不对,是ONLINE01,下边的这个LESSON15好,进来以后我们找到这个PPSMS对吧,它会给我报错,然后我们开始进行什么安装,Install n STL install。
01:14
好了,进到我们的安装目录了,那么开始点击安装啊,这个呢,咱们之前已经介绍过了,所以呢,我就不再去详细说了啊ODSN。建议设置正确,不支持采集和保存远程图片,你看在这里边,如果DNS解解析是错误的话,我是不是不好使啊,对不对,所以需要怎么办,我需要把它更改一下啊。那怎么来更改呢?就需要去改它一下这个配置文件了啊,那大家也看一下我是怎么改的,然后改完以后呢,那你只需要按照我的改就可以了啊。那来我们来找到咱们看啊,在这里边我们打开这个PPS,这里边我们来找到它的这个安装目录叫做诶。错了啊,这呢啊,这PP3S对吧,打开以后找到它的安装目录,叫做这个in install in store里边呢,有个叫做in道的PP啊,我们找到这个PP的文件好了,找到这个PP文件以后,双击打开,在这里边我们往下拉,它这里边有一个匹配的地址,因为它呢是根据它原来的这个位置去原来的这个官网的位置去去匹配的,但是它的官网已经。
02:19
这呢应该是啊,这它的官网已经被什么被这个呃停掉了啊,所以这里边我们改区别,改一个,比如说改成什么EDUW啊,或者你直接记住这里边是什么,这个文件中的这个第49行,这个文件在哪呢?这个文件在in道目录下面的in道的PP对吧?好了,要不这样吧,现在我改完以后啊,我给大家打个包啊。呃,15这里边我们先给他打包来。压缩一个文件。你只需要用我这个打包文件就可以实现安装了啊,然后呢,我会把这个原版的这个我就删掉了啊,留一个版本就可以了,好了,只留这一个版本啊,那OK,那现在我们再回过来啊。返回去上一步OK,然后我们重新刷新一下啊刷新然后点击开始安装,开始安装完以后再往下来,这回你看DN配置是不是就正确了,哎,正确以后再点击下一步。
03:12
那我们第一次安装,我就点击全新就行了,然后点击下一步。OK,再来下一步账号测试,跟我数据库相关,对吧,那数据库的所有用户名都是root,密码是没有的对吧?然后一样UT字符集,然后后台的默认账号密码,然后有个邮箱AI的a.a。OK,然后点击下一步。确定。好,告诉我正在安装好了,安装成功进入到后台,然后让我去登录,我们直接登录叫做PPSPP3S在这里边DD。边。过来验证码输入错误。皮皮三皮皮3S。7M发T吧,好了,点击登录,OK,成功进来跳转跳转这里边以后咱们来看啊,在这个内容这里边是不是有一个叫做采集管理啊,对不对?哎,在采集管理里边有一个什么呢?有一个添加采集点,那么参加采集点首先是什么?你的采集名称对吧?然后你要采集的网址对吧,然后呢。
04:14
这里面包含了什么?网址的配置,还有这个这个网址的配置对吧,以及base斯配置,现在已经没有人用用base了,所以我们不需要去管它,然后网址从哪获取到哪,看到吗?是不是这里都有啊,咱先不管它这些到底什么意思啊,我们先看你比如说我们要采集文章啊,为什么采集文章啊。比如CS top,我们进到这里边啊,去采集他的文章去啊,为什么采集完,你比如说这里边啊有100篇文章,那你老板说诶他前面的100篇文章挺好,你把这文章这个发到我们自己的这个数据库里边,对吧,发到我们自己的平台,那是不是你得存到你数据自己数据库里边,那你想啊,这里面比如说在动态里边100篇文章,那是不是前100篇,那前100篇文章的话,那你是不是得一个一个复制。对不对,一个一个复制干嘛,在管理内容里面,是不是一个一个去发布,一个一个去设置才可以,那这样的话是不是就很。浪费这个工作效率,哎,所以我们可以干嘛呢?可以利用采集批量的把这些数据都干嘛呀,都导入到我们的本地当中啊,这就叫采集,那好了,那咱们来看,那首先在第一个页面我们怎么去导入啊,最终我是不是要你看,比如这是这是什么,这是文章的列表页,对不对,那么点开这一个列表以后,是不是进入到文章的内容页。
05:20
对吧?这是不是文章的内容页,那么我是不是要找到最终要找的内容,把相当于找到这个页面,把这些内容都用什么,都用正则匹配出来,匹配出来这些内容之后干嘛,我是不是给它保存就可以了,是不是这个意思,哎,但是现在呢,我们能匹配到这个内容吗?肯定不行,为什么呢?因为我们需要干嘛一级一级的过来,比如说现在这里边,这是我们的这个列表页的第一页,对吧?它有分页,我可以到第二页,没错吧,然后再往下来还可以到第三页,你看后面后缀是不是就是3.shtl,对吧?那你比如说我要到第五页呢,我直接给个五,你看是不是到五点。SSP是吧,这是不是第五页了,哎,那也就是说我是不是先要去匹配什么,先要把这段地址全都匹配出来,这是不是都文章的地址匹配到这段地址以后,我再来打开什么呀,再打开这个地址,打开这个地址以后是不是才是什么才是我们的文档内容,然后再进行匹配内容啊,是不是这么样的一个情况。
06:12
对吧,那好了,那现在你来看啊,在这里边他要给我们的提示是什么,来点击这个采集,添加采集点,比如说这里边啊叫做什么叫做测试。测试好了,然后什么类型的呢?那你就要看你网站是什么字符级的,右键查看一下这个网页源代码,什么类字符级的,是不是UT8呀,哎,所以这里边我们也给它设置为什么?诶在这里边也给他选择为utf。八啊,选完以后你是序列网址还是多个网址还是单一网址呢?对吧,那比如说我们什么叫序列网址啊,你看这就是序列的对不对,你看这是不是带带有分页的,从第一页,第一页是不是一的sa码对吧,第二页是不是二的码,那OK,比如说我就踩这个啊,然后把它。放到这里边来,放到这里边来以后,其中这个12345是不是会变呢?哎,所以这里边你看如这样的网址后面用个中括号,用小括号加个星,这个小括号加星作为什么?作为通步通配符页码从一增加到十,每次增加一是不是就是从一页匹配到第十页,所以这里边我是不是括号一个星就可以了。
07:13
对吧,括号一个先注意也是英文的啊,英文状态下了好了,那这个写完以后你看一点测试。你看是不是这些网址对吧,那这是不是每一个网址都是我的文章列表页,那你想想我把这个CTRLC。好,随便,我就找个第七页啊,找到第七页我们在这里边来直接复制过来,七点码一打开,打开以后你看是不是我的第七页对不对,哎,这没问题吧,哎,也就是说这些网址是正确的,好了,那网址正确了以后,我要这个网址中的什么内容,我要这个网址中的是不是这段内容啊,也就是整个这个文章这块内容,文章列表这块内容对不对,其他的这些这些是不是都属于网址的范围内,这些东西我需要吗?不需要对吧?这些东西我需要吗?也不需要,我就只要这段内容。对不对,哎,那OK,那这里边人家告诉你了,你看。
08:02
这啊,你看你告诉你什么呀,他说。获取网址从哪儿到哪儿,对不对,咱有给他一个这个标志吧,所以在这里边诶。这儿啊。返回来那这个页面对吧,任意一个页面都可以,我直接右键查看网页源代码,查看完代码时候,咱们来看,我们去找到标题那块的范围,注意你直接去匹配这个A标签是不行的,这个页面中A标签太多了,对不对,这都是A标签了,所以你看这是不是它的文章列表,对吧?我是不是只要什么要这段,从这段内容中去匹配出来这个文章的链接,哎,所以在这里边我给他加,比如说。这块我看到这块是不是唯一的CTRLCCTRLV。粘贴一下看一-一是不是收不到,哎,也就是说从这开始吧,那OK,我们把它拿过来,拿到我们这里边,让他从这开始到哪结束呢?那再找到这个范围到哪结束往下来。到这到UR能到UR结束吗?不行吧,因为这个页面中UR太多了,对吧,你要是到这个UR结束的时候,那你匹配中间网子A标签,这些A标签是不是都能匹配到,那是不是就没有必要了,对不对,所以我在这里边给他到这结束。
09:11
到这结束,CTRLC。一样啊,我先在这里面粘贴一下,看看是不是唯一的。诶也是唯一的对吧,那也就是说是不是我就能精确的找到这段内容了,找到这段内容,这个里边的每一个链接是不是就是我的文章啊。对不对,哎,所以在这里边我再返回它,然后从这到这,OK,然后点击提交好了,操作成功,成功以后是不是返回到这个页面就有这么一个测试了,这是刚才我们创建的,对吧?然后接下来干嘛呢?接下来我是不是要采集这个内容啊,对不对,采集内容是我得先干嘛先修改修改内容啊,因为这个内容规则我们是不是还没做匹配呢,对不对,那你想想,当他打开了这个文章内容,比如说啊,这里边咱们看刚才我们就相当于找到这一块地址了,对吧,找到这块地址这里边任何一个连接。来CTRLC,你看好了任何一个链接。
10:00
是不是都是我们的文章来打开,打开以后你看是不是文章页对吧,那文章页我是不是要把这个标题匹配出来,把这段内容匹配出来就可以了,对吧,那右键再。检查源代码,那文章内容我要从哪到哪,你看好了啊。咱们再来找找它的内容。这是不是它的标题对吧,下面你看这块内容是不是它的内容了,正式开通到正式开通对吧,那你看这里边下边是不是正式开通到这儿,哎,往下的是不是就不要了,哎,所以这里边我要再去精确,那也就是说这玩意肯定不能拿它开头啊,我看拿它开头可不可以啊来CTRLC。搜索一下CTRLV。也是一个没问题对吧,也就是内容我从这一直可以匹配到。到哪到这块呗,对不对,那咱先往上加啊来这里边匹配标题的规则是title咱不管了啊,作者呢,咱不匹配了,然后来源咱也不匹配了,时间也不要了,咱就只做内容了啊,内容从这开始,然后你看使用什么作为通配符啊,是不是使用中国号内容,也就是说中间的这个中国号内容,诶,这是我要的东西,这是我要的东西对吧?后面到哪结束呢?那这里边到哪结束,咱说了是不是到到到。
11:12
到这块就结束,但我肯定不能给他对吧,因为页面中带P标签太多了,我到这块结束吧,来CTRLC。CT。是不是也是一个,那好那就没有问题,那也就是说在这里边我让他到这儿结束好了,那结束完以后,接下来其他的我就不用管了,对吧,然后点击提交。提交完了以后,接下来是不是就可以测试了,那么先干嘛,先去采集网址,你看他会把这些网址都给我采集完成,看到了吧,采集完成以后,接下来干嘛?我再来开始采集文章的内容,那你看这里边总共多少篇文,他200篇文章,我们是采了十页,对吧,每一页是不是就20篇了?哎,那好了,那他现在速度很快,那就让他采完吧,采到100我重新暂停吧,就够了啊。那就踩到200吧,反正他的速度也很快。
12:00
OK,采集完成对吧,采集完成以后接下来干嘛,接下来这些内容我是不是可以发布到我自己的地方了,那怎么发布啊,我是不是可以发布内容,哎,内容发布点击过来以后,然后干嘛,我点击全部。全部全选,全选完以后来看好了,我这块点击全部导入,全部导入你要导入到哪里,比如我导入到国内这个栏目里边,对吧,然后我一点击提交好了,提交以后下面告诉你标题对应的标题对吧,然后你的内容要对应的内容,因为这个内容是我们采集的,其他我们都没做是吧?好了其他的我不管了,然后直接点击提交。告诉什么专家发布方案成功。然后开始正式导入数据。好,导入100条了。
13:02
好,200条导入完成对吧,导入完成以后,这个时候你再来看我的内容管理内容这里边啊,在国内这里边我是不是200篇文章就有了,看到了吗?哎,刚才是不是咱们咱们新安装的里边是不是没有这些数据,这些是不是都是他的,哎,那好了,那接下来干嘛,比如说我这里边来更新一下缓存啊。更新完以后来生成这个首页,生成完之后我们再去干嘛?去这个站点首页,这个时候你来看我的文章是不是有了,而且这些文章你看是不是都来自哪,都来自3TOP对不对?哎,因为这都是通过引进获取的那一样点过来,点过来以后你看刚这篇文章是不是就是刚才我们看的那个第一篇文章啊。看到了吧,哎,然后同样我还能什么,比如说在这里边上一篇。对吧,这是不是都拿过来了,再上一天是不是都拿过来了哈,再上是不是都拿过来了,哎,那这样的话,我是不是就快速的把人家的这个。文章是不是都匹配到我自己这里边,存到我自己这里面来了,哎,这是通过什么,通过CM这个PPCMS给我们提供的什么,提供的这个采集程序,我们进行采集了,那么大家也要想一下啊,按照刚才我们采集的思路,那么如果我们自己去采集一篇,我们要怎么做呢?对不对?哎,那好,那这节课我们到就到这里,下节课我带着大家一起去采集这个文章去啊。
我来说两句