【采集软件】python开发的youtube搜索采集软件原创

2024-07-032024-07-03 13:30:08播放5.5K

点赞1 收藏 0

用python开发的基于youtube api的爬虫软件，可以指定任意关键词爬取搜索结果数据。

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
这是我用Python开发的YouTube的采集软件，那最后是根据搜索关键词采集搜索到的视频数据。我们首先打开这个软件，看一下这个界面效果。那这个软件上啊，首先提示了一些说明啊，第一是打开这个网络啊，这个不多说了，第二就是在config文件中填写好apik，那也就是这个config文件，那这个是我自己申请的K啊，大家换成自己的就行了。我们再回到这个软件界面啊，填写搜索关键词啊，这里支持多个关键词同时采集，这里我设定一下关键词，比如说music，嗯，Movie star, 那个live show啊，我随便找了几个关键词啊，中间以竖线为分隔符啊，中间不要留空格，那起始日期我这里设定2024年1月1号啊，结束日期我设定为1月的16号吧啊扒取最大页啊，我这里设定为呃，三页排序方式，那这里支持这几种啊，Relevance根据相关性排序，Date根据发布日期排序，Will count根据观看数排序，RA根据评分排序，那这里我选择，比如说根据这个will count观看数排序啊，点击开始执行。
01:33
那这个时候软件就开始爬取搜索结果了啊，我们看到这个进度1/3的关键词啊，也就是music这个关键词啊，第一页本页数量25啊，我这里也提示了每页有25条。那现在爬到的是第一个关键词的第一页的第11条数据。我们可以从这个日志上看到这个爬取进度，那大概它的爬取速度呢，就是每条数据呃，1秒左右的时间啊，因为我这里结合了搜索接口和详情接口两个接口结合起来啊，每条数每个数据每个视频都要采集一遍详情接口，那所以它的速度就是每个视频大概1秒左右的时间。好，这里开始采集了music的第二页。
02:25
那由于时间的关系，我这里就不再等待，进行一个视频加速，好的，经过漫长的等待，这个软件终于是扒取完毕了，这个时候上面已经提示全部关键词已扒取完毕，请检查当前目录，Youtube search 20244821结尾的这个CSV，那也就是这个CSV，我们打开来看一下这个结果。好，我调整一下这个格式，那我们看刚才软件界面上是排序方式，是根据will count, 也就是播放数啊，从高到低的排序，那我们来看一下这一列啊，就是从高到低的一个排序，那这是第二个关，第三个关键词啊，所以用从高到低的排序，好这个页码呢，就是一二三前三页啊，也就是对应。
03:27
这个八九前三页，那这个呃起始日期呃，发布时间，我们来看一下，筛选一下，那我这里设定的起始日期是2024年1月1号到1月16号，那我们来看一下这个日期范围，1月的1号到15号啊，到16号啊，这个日期范围也是对的啊，我们来看一下这个字段关键词，刚才设设计的三个关键词页码是一二三页啊视频标题视频ID啊，那这个视频ID就是YouTube的这个视频ID，根据视频ID拼接出这个视频链接啊视频的发布时间，视频的时长，那这里S代表秒，M代表分钟，H代表小时啊啊频道的名称就是视频作者的频道名称。
04:21
啊，视频作者的频道ID，以及根据频道ID可以拼接出频道的链接，那后面是播放数，点赞数，评论数啊，最后一个是视频简介啊，这个视频简介就比较长了，所以我放到了最后一列，那我们来随便抽一个视频，比如说第一个视频，我们把这个视频链接放到浏览器里。我看一下他的作者频道名称MYMY开头的这个啊，频道名称发布时间2024年1月4号啊，2024年1月5号啊，这时区可能不太一样啊，那这个播放数7。
05:23
7100万啊，7100万啊，点赞数152万，点赞数啊150，呃一点五百万，然后评论数3604，评论数3604，那视频简介啊，这个比较长啊，我们来对照着看一下啊，这个都能对照上。那然后我们再来看一下。
06:01
这个。日志文件，在同级目录上有一个log文件，那这个里面演示的是刚才软件运行的整个过程啊，方便问题的定位。好，这个软件就是这样的，谢谢大家，我们下次见。

展开

我来说两句

0 条评论

登录后参与评论

作者

马哥小迷弟132

【采集软件】python开发的youtube搜索采集软件原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐