首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    由于 HTTP request 不规范导致的被防火墙拦截

    一段程序在本地调试正常后,放到网上却时断时续,最后确认问题如下 1. HTTP request 中的 Host: 段是 HTTP 1.1 规范,在 1.0 中没有这个 2....但是目前通常环境中(我用的 Ubuntu,不过其他发行版应该也有这问题),PHP 中的一些函数如 file_get_contents 会发送错误的 request 例如只是这么简单的一行 file_get_contents...一样),我觉得不要使用 file_get_contents 获取远程数据(在该函数的官方页评论里,你会看到各种各样的相同功能的 封装 ) 、弃用 PECL OAuth 比较好,虽然随着时间的流逝这个问题最终会被修正...with-curlwrappers ,确认发的是 HTTP 1.1 了,但 with-curlwrappers 参数的解释是 EXPERIMENTAL : Use cURL for url streams 第一次见如何用...tcpdump,在调试这个问题时,可以用 sudo tcpdump -A host www.163.com and 'tcp[20:4] = 0x47455420' 前者是监听的域名,“and”后面的大概可以理解为条件

    2K10

    网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索

    获取并采集百度网盘用户 要想获取到分享列表,首先要先把百度的用户信息收集下来,现在我来介绍如何找到一大批百度的用户。...上面的参数含义分别是:query_uk (我自己的id编号,百度都是以uk来命名的) ; limit (分页时每页显示的条数) ; start (分页起始编号) ; 剩下的参数全都并无任何卵用。...每页显示24个用户,那么就会分100页,则先看如何生成这个100个url。 <?...query_uk=3317165372&limit=24&start=120 使用CURL请求接口地址 请求接口地址时,可以直接使用file_get_contents()函数,但是我这里使用的是PHP的..., PRIMARY KEY (`id`), UNIQUE KEY `uk_2` (`uk`), KEY `uk` (`uk`) ) 先存入一批,然后再根据这批继续找订阅盘主,不停的循环,里面的重要字段是

    5.7K30

    PPT无素材?教你批量抓取免费、高清、无版权图片!

    那么,如何将网站中的图片存储到本地呢(例如比较关心跟数据相关的素材)?如果做到了,就可以在没有网络的情况下,随心所欲的选择精美图片制作PPT,随时随地的查看自己的图片库。...顶层页:是指通过网站主页的搜索栏,搜索出感兴趣的图片方向,便进入到的图片列表页,它的样子是这样的: ? 次层页:是指点击图片列表页中的某张图片,转而对应到的图片详情页,它的样子是这样的: ?...sec_urls = [i.find('a')['href'] for i in fst_soup.findAll(name = 'div', attrs = {'class':'card'}...fst_soup.findAll(name = 'div', attrs = {'class':'card'})] # 对每一个次层链接做循环 for sec_url,pic_name in zip(sec_urls...还不赶快去测试一下这里的代码哦(如果你对某个方面感兴趣,如商务、建筑、植物等,通过搜索,找到顶层页链接,替换代码中的fst_url值即可)。

    2.6K20

    PPT无素材?教你批量抓取免费、高清、无版权图片!

    那么,如何将网站中的图片存储到本地呢(例如比较关心跟数据相关的素材)?如果做到了,就可以在没有网络的情况下,随心所欲的选择精美图片制作PPT,随时随地的查看自己的图片库。...顶层页:是指通过网站主页的搜索栏,搜索出感兴趣的图片方向,便进入到的图片列表页,它的样子是这样的: ? 次层页:是指点击图片列表页中的某张图片,转而对应到的图片详情页,它的样子是这样的: ?...sec_urls = [i.find('a')['href'] for i in fst_soup.findAll(name = 'div', attrs = {'class':'card'}...fst_soup.findAll(name = 'div', attrs = {'class':'card'})] # 对每一个次层链接做循环 for sec_url,pic_name in zip(sec_urls...还不赶快去测试一下这里的代码哦(如果你对某个方面感兴趣,如商务、建筑、植物等,通过搜索,找到顶层页链接,替换代码中的fst_url值即可)。

    2.8K20

    hexo-butterfly-SEO优化

    sitemap配置网站地图(在hexo站的_config.yml文件添加配置) sitemap: path: sitemap.xml # 索引地图路径 tag: false # 标签页不添加到网站地图中...category: false # 分类页不添加到网站地图中 ​ 配置完成执行hexo g后会在站点根目录/public生成相应的sitemap.xml,部署网站后,提交到百度/谷歌 #...插件,主配置文件_config.yml中引入配置 引入插件 npm install --save hexo-submit-urls-to-search-engine _config本地配置 CI方式配置...…… hexo deploy hexo clean && hexo generate && hexo deploy自动推送 注意事项 ​ 如果使用CI自动部署,则必须在每个页面的...Win10 可在 设置->代理处查看 replace:URL替换 ​ 针对域名解析的情况可将生成的github.io类型的url替换为对应的自定义域名,或者将中文域名替换成转码后的域名 replace

    2.4K20

    跟我学爬虫,看大神不到30行代码做的一个简单爬虫!

    本篇目标 1.抓取校花网美女图片 2.学会正则表达式及其简单应用 3.实现一次爬取多张、多页美女图片并保存到本地。...:img_urls = re.findall(r'/d/file/.*?....jpg',html),这行代码通俗点讲就是查找html(就是上面的源代码)中的所有'/d/file/.*?.jpg',并把其中(.*?)部分的内容赋值给img_urls。 符号的含义如下: “.”...我们继续下面的内容,上面呢,我们用正则表达式获取到了图片地址,后面在加一个for循环来获取多个图片地址,并将所有的图片下载到本地(py文件所在目录) 然后运行下看看(很多小姐姐就要来小编的硬盘了,很鸡冻哦...^_^) 替换高清大图 完全木有问题,在看看目录 ?

    1.1K20

    WordPress发布文章主动推送到百度,加快收录保护原创

    最近公司额外交待了一些网站 SEO 方面的优化任务让我关注(这就是啥都要会、啥都要做的苦逼运维的真实写照了...)。...于是,我额外写了一个普遍支持的 file_get_contents 方式,代码如下: /** * WordPress发布文章主动推送到百度,加快收录保护原创【file_get_contents方式】 *...如果你使用第一种方式没有成功,那么就试试 file_get_contents 方式吧!...③、代码部署 从上面选好合适的代码后(推荐①),先打开百度官方页面:http://zhanzhang.baidu.com/linksubmit/index,获取你网站的专属的 token 值,替换到代码中的...如果一个网站经常推送一些老的、垃圾页面的链接,百度会很生气的,会认为网站辜负了他的信任,直接后果是百度不再信任这个网站的推送,导致工具失效,是否有其它更恶劣的后果,比如降低网站评价,这个还有待进一步观察

    2.3K60

    PHP采集工具之Querylist

    find('img')->attrs('src');//打印结果print_r($data->all());//采集某页面所有的超链接和超链接文本内容//可以先手动获取要采集的页面源码$html = file_get_contents...->getData();//打印结果print_r($data->all());/** * 在线测试采集并查看采集结果:http://querylist.cc/querylist-test */进阶上面的采集结果有很多...php/** * 下面来完整的演示采集一篇文章页的文章标题、发布日期和文章内容并实现图片本地化 */ //引入自动加载文件require 'vendor/autoload.php';use QL\QueryList...($page)->rules($reg)->range($rang)->query();$data = $ql->getData(function($item){ //利用回调函数下载文章中的图片并替换图片路径为本地路径...$img->src; $localSrc = 'image/'.md5($src).'.jpg'; $stream = file_get_contents($src); file_put_contents

    2.4K30

    PHP采集工具之Querylist

    img')->attrs('src'); //打印结果 print_r($data->all()); //采集某页面所有的超链接和超链接文本内容 //可以先手动获取要采集的页面源码 $html = file_get_contents...getData(); //打印结果 print_r($data->all()); /** * 在线测试采集并查看采集结果:http://querylist.cc/querylist-test */ 进阶 上面的采集结果有很多...php /** * 下面来完整的演示采集一篇文章页的文章标题、发布日期和文章内容并实现图片本地化 */ //引入自动加载文件 require 'vendor/autoload.php'; use...page)->rules($reg)->range($rang)->query(); $data = $ql->getData(function($item){ //利用回调函数下载文章中的图片并替换图片路径为本地路径...$img->src; $localSrc = 'image/'.md5($src).'.jpg'; $stream = file_get_contents($src);

    1.5K51

    博客文章详情页

    现在让我们来开发博客的详情页面,有了前面的基础,开发流程都是一样的了:首先配置 URL,即把相关的 URL 和视图函数绑定在一起,然后实现视图函数,编写模板并让视图函数渲染模板。...设计文章详情页的 URL 回顾一下我们首页视图的 URL,在 blog\urls.py 文件里,我们写了: blog/urls.py from django.conf.urls import url...方法就是通过 app_name 来指定命名空间,命名空间具体如何使用将在下面介绍。如果你忘了在 blog\urls.py 中添加这一句,接下来你可能会得到一个 NoMatchReversed 异常。...">第 6 页 / 共 11 页 下一页 --> ...不过目前的目录只是占位数据,我们在以后会实现如何从文章中自动摘取目录。

    1.9K70
    领券