00:00
这是我用Python开发的YouTube的采集软件,那最后是根据搜索关键词采集搜索到的视频数据。我们首先打开这个软件,看一下这个界面效果。那这个软件上啊,首先提示了一些说明啊,第一是打开这个网络啊,这个不多说了,第二就是在config文件中填写好apik,那也就是这个config文件,那这个是我自己申请的K啊,大家换成自己的就行了。我们再回到这个软件界面啊,填写搜索关键词啊,这里支持多个关键词同时采集,这里我设定一下关键词,比如说music,嗯,Movie star, 那个live show啊,我随便找了几个关键词啊,中间以竖线为分隔符啊,中间不要留空格,那起始日期我这里设定2024年1月1号啊,结束日期我设定为1月的16号吧啊扒取最大页啊,我这里设定为呃,三页排序方式,那这里支持这几种啊,Relevance根据相关性排序,Date根据发布日期排序,Will count根据观看数排序,RA根据评分排序,那这里我选择,比如说根据这个will count观看数排序啊,点击开始执行。
01:33
那这个时候软件就开始爬取搜索结果了啊,我们看到这个进度1/3的关键词啊,也就是music这个关键词啊,第一页本页数量25啊,我这里也提示了每页有25条。那现在爬到的是第一个关键词的第一页的第11条数据。我们可以从这个日志上看到这个爬取进度,那大概它的爬取速度呢,就是每条数据呃,1秒左右的时间啊,因为我这里结合了搜索接口和详情接口两个接口结合起来啊,每条数每个数据每个视频都要采集一遍详情接口,那所以它的速度就是每个视频大概1秒左右的时间。好,这里开始采集了music的第二页。
02:25
那由于时间的关系,我这里就不再等待,进行一个视频加速,好的,经过漫长的等待,这个软件终于是扒取完毕了,这个时候上面已经提示全部关键词已扒取完毕,请检查当前目录,Youtube search 20244821结尾的这个CSV,那也就是这个CSV,我们打开来看一下这个结果。好,我调整一下这个格式,那我们看刚才软件界面上是排序方式,是根据will count, 也就是播放数啊,从高到低的排序,那我们来看一下这一列啊,就是从高到低的一个排序,那这是第二个关,第三个关键词啊,所以用从高到低的排序,好这个页码呢,就是一二三前三页啊,也就是对应。
03:27
这个八九前三页,那这个呃起始日期呃,发布时间,我们来看一下,筛选一下,那我这里设定的起始日期是2024年1月1号到1月16号,那我们来看一下这个日期范围,1月的1号到15号啊,到16号啊,这个日期范围也是对的啊,我们来看一下这个字段关键词,刚才设设计的三个关键词页码是一二三页啊视频标题视频ID啊,那这个视频ID就是YouTube的这个视频ID,根据视频ID拼接出这个视频链接啊视频的发布时间,视频的时长,那这里S代表秒,M代表分钟,H代表小时啊啊频道的名称就是视频作者的频道名称。
04:21
啊,视频作者的频道ID,以及根据频道ID可以拼接出频道的链接,那后面是播放数,点赞数,评论数啊,最后一个是视频简介啊,这个视频简介就比较长了,所以我放到了最后一列,那我们来随便抽一个视频,比如说第一个视频,我们把这个视频链接放到浏览器里。我看一下他的作者频道名称MYMY开头的这个啊,频道名称发布时间2024年1月4号啊,2024年1月5号啊,这时区可能不太一样啊,那这个播放数7。
05:23
7100万啊,7100万啊,点赞数152万,点赞数啊150,呃一点五百万,然后评论数3604,评论数3604,那视频简介啊,这个比较长啊,我们来对照着看一下啊,这个都能对照上。那然后我们再来看一下。
06:01
这个。日志文件,在同级目录上有一个log文件,那这个里面演示的是刚才软件运行的整个过程啊,方便问题的定位。好,这个软件就是这样的,谢谢大家,我们下次见。
我来说两句