前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PHP使用swoole实现多线程爬虫

PHP使用swoole实现多线程爬虫

作者头像
码农编程进阶笔记
发布于 2021-07-20 08:47:36
发布于 2021-07-20 08:47:36
85500
代码可运行
举报
运行总次数:0
代码可运行

在swoole中,php可以借助其启动子进程的方式,实现php的多进程:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?php
$s_time = time();
echo '开始时间:'.date('H:i:s',$s_time).PHP_EOL;
//进程数
$work_number=6;
 
//
$worker=[];
 
//模拟地址
$curl=[
    'https://blog.csdn.net/feiwutudou',
    'https://wiki.swoole.com/wiki/page/215.html',
    'http://fanyi.baidu.com/?aldtype=16047#en/zh/manager',
    'http://wanguo.net/Salecar/index.html',
    'http://o.ngking.com/themes/mskin/login/login.jsp',
    'https://blog.csdn.net/marksinoberg/article/details/77816991'
];
 
//单线程模式
// foreach ($curl as $v) {
// 	echo curldeta($v);
// }
 
//创建进程
for ($i=0; $i < $work_number; $i++) {
    //创建多线程
    $pro=new swoole_process(function(swoole_process $work) use($i,$curl){
        //获取html文件
        $content=curldeta($curl[$i]);
        //写入管道
        $work->write($content.PHP_EOL);
    },true);
    $pro_id=$pro->start();
    $worker[$pro_id]=$pro;
}
//读取管道内容
foreach ($worker as $v) {
    echo $v->read().PHP_EOL;
}
 
//模拟爬虫
function curldeta($curl_arr)
{	//file_get_contents
    echo $curl_arr.PHP_EOL;
    file_get_contents($curl_arr);
}
 
//进程回收
swoole_process::wait();
 
$e_time = time();
echo '结束时间:'.date('H:i:s',$e_time).PHP_EOL;
 
echo '所用时间:'.($e_time-$s_time).'秒'.PHP_EOL;
?>

多线程执行结果:

作为对比,单线程结果:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 码农编程进阶笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
PHP使用swoole实现多线程爬虫[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/111933.html原文链接:https://javaforall.cn
全栈程序员站长
2022/07/11
6420
PHP使用swoole实现多线程爬虫[通俗易懂]
2018年swoole实战7-进程详解创建子进程调用外部程序查看进程树多进程的实战案例
如果用php去抓取网页内容,传统的方式是用一个for循环,将url逐个遍历,假设每个url耗时1秒,6个url就需要耗时6s,这种方式效率太低了。通过swoole的进程管理模块,我们可以实现多进程抓取内容,每个进程对应负责一个url,从而实现1秒完成抓取任务
章鱼喵
2018/08/02
6230
Swoole入门到实战(二):进程,内存和协程、Swoole完美支持ThinkPHP5
以树状图显示进程间的关系:pstree -p 进程id 启动成功后会创建worker_num+2个进程。Master进程+Manager进程+serv->worker_num个Worker进程
唐成勇
2019/05/26
1.4K0
《六》Swoole 整合成一个小框架
写了关于 Swoole 入门的 5 篇文章后,增加了不少的关注者,也得到了一些大佬的鼓励和建议,也有很多关注者都加了微信好友,交流之后发现一些朋友比我优秀还比我努力。
新亮
2019/05/28
6340
《六》Swoole 整合成一个小框架
swoole_proces实现多进程
简介 swoole_process 是swoole提供的进程管理模块,用来替代PHP的pcntl扩展。
猿哥
2019/07/25
7530
【Swoole系列4.5】协程并发调度
在学习了协程的通信功能 Channel 之后,我们紧接着就讲了一个 WaitGroup 功能。其实,它本身就是一个协程调度工具。关于它的作用我们不再赘述了,毕竟上一篇文章已经讲得很清楚明白了。今天我们再接着 WaitGroup 的话题,继续讲讲协程并发调度相关的内容。
硬核项目经理
2023/03/03
5080
【Swoole系列4.5】协程并发调度
PHP Swoole学习笔记,持续记录
匿名函数(Anonymous functions),也叫闭包函数(closures),允许 临时创建一个没有指定名称的函数。最经常用作回调函数 callable参数的值。
房东的狗丶
2023/02/17
2.5K0
【Swoole系列3.3】单进程管理Process
既然我们的服务应用已经提供了多进程的运行模式,那么我们可以直接自己来操作进程吗?答案当然是没问题的。今天我们来看到的就是在 Swoole 中如何操作单个进程,其实也就是学习一个 Process 对象的使用。
硬核项目经理
2023/03/03
7880
【Swoole系列3.3】单进程管理Process
详解PHP swoole process的使用方法
引入背景:假如我们每天有10000个订单生成,需要同步到仓储系统中去,以前做法是开启一个crontab去跑这些任务,但是发现总有感觉同步效率低,间隔时间都是分钟级别的。 解决方案测试:我们将同步订单的任务表添加一个hash作为key,作为分发条件,因为mysql中select如果做mod函数是用不到索引的,所以我们自己做随机hash,但是务必不需要范围太大,以免服务器资源不够,方法是根据hashkey投放到不同的进程中进行同步,测试代码如下
用户2323866
2021/07/02
4580
《二》Swoole Task 的应用
Swoole 的实现方式是 worker 进程处理数据请求,分配给 task 进程执行。
新亮
2019/05/28
7040
《二》Swoole Task 的应用
Swoole 启动一个服务,开启了哪些进程和线程?
上面的代码简单说下,创建了一个 TCP 服务器,启动了 3 个 worker 进程, 3 个 task 进程,因为启用了 task 功能,所以必须注册 onTask、onFinish 2 个事件的回调函数。
新亮
2019/06/19
1K0
Swoole 启动一个服务,开启了哪些进程和线程?
Swoole的多进程模块
Swoole是有自己的一个进程管理模块,用来替代PHP的pcntl扩展,需要注意Process进程在系统是非常昂贵的资源,创建进程消耗很大,另外创建的进程过多会导致进程切换开销大幅上升。
码农编程进阶笔记
2021/07/20
8100
Swoole 协程学习
第一次接触协程这个概念,是在学习Swoole时,那时看官方文档并不能完全理解协程到底是个什么东西以及该如何正确的使用它。
用户8094775
2020/12/15
5920
【Swoole系列3.6】进程同步与共享内存
通过前面几篇的学习,相信你已经对 Swoole 的进程有了一定的了解。不管是单进程还是进程池,我们都着重讲了进程间的通讯问题。毕竟对于进程来说,它们是内存隔离的,通讯相对来说就是一个很大的问题。而我们之前讲的内容其实都是不使用第三方工具来进行通信的,但其实更方便的方式是直接使用一些第三方工具做为中间的存储媒介,让不同的进程直接去读取这里的内容就可以实现通信的能力了。比如说我们最常见的就是使用 Redis ,不过即使是 Redis ,甚至是使用了连接池,也会有连接建立的过程,所以也并不是最高效的。今天,我们要学习的一个共享内存表格,是 Swoole 提供的一种更高效的数据同步方式。除此之外,我们还要学习另外两个非常常用的进程间同步功能,一个是无锁计数器,另一个就是进程锁。
硬核项目经理
2023/03/03
6810
【Swoole系列3.6】进程同步与共享内存
《五》Swoole 多协议 多端口 的应用
Swoole 支持了2种类型的自定义网络通信协议 :EOF结束符协议、固定包头+包体协议。
新亮
2019/05/28
9270
《五》Swoole 多协议 多端口 的应用
Swoole入门到实战(一):PHP7&Swoole源码安装、玩转网络通信引擎、异步非堵塞IO场景
source FileName 作用:在当前bash环境下读取并执行FileName中的命令。 用于重新执行刚修改的初始化文档,如 .bash_profile 和 .profile 等等 注:该命令通常用命令“.”来替代 如:source /etc/profile 与 . /etc/profile是等效的
唐成勇
2019/05/26
1.7K0
swoole 学习第二章 Event Io 与 process
刚刚才说了,子进程当复制一个父进程的时候会复制它的内存以及它的上下文环境,除了这些之外,子进程会复制父进程的io句柄(fd描述符)
Marco爱吃红烧肉
2021/07/23
4870
swoole学习笔记
swoole是面向生产环境的 PHP 异步网络通信引擎,本笔记是本人在学习完慕课网的课程《Swoole入门到实战打造高性能赛事直播平台》后的笔记,是对学习的代码整理的补充,学习过程中整理的github代码地址:
CS逍遥剑仙
2019/03/03
1.1K0
【Swoole系列2.2】Http、TCP、UDP服务
其实在上篇文章中,我们就已经运行起来了一个 Http 服务,也简单地说明了一下使用 Swoole 运行起来的服务与普通的 PHP 开发有什么区别。想必你现在会说这没什么大不了的呀,这些我们的传统开发又不是做不到,而且还更方便一些。在基础篇章中,我们还不会看到 Swoole 在性能上的优势,毕竟最基础的一些服务搭建还是要先了解清楚的。因此,今天我们将继续再深入的讲一下 Http 相关的内容以及了解一下 TCP、UDP 服务在 Swoole 中如何运行。
硬核项目经理
2023/03/03
5360
【Swoole系列2.2】Http、TCP、UDP服务
workerman5.0篇〡Fiber、Swoole、Swow三协程并行运行
Fiber协程,在webman框架安装后,直接启动webman,事件驱动默认会切换到revolt/event-loop事件驱动。
Tinywan
2025/01/07
3030
workerman5.0篇〡Fiber、Swoole、Swow三协程并行运行
相关推荐
PHP使用swoole实现多线程爬虫[通俗易懂]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验