腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
滚动您自己的web
爬虫
来抓取一个有多个条目的特定网站。
、
什么样的语言能够处理编写自己的
网页
爬虫
?但是如果我需要的话,我想有一个很好的理由去学习一门新的语言。
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
5
回答
如何在
Java
中
设计
一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在
Java
中
设计
一个网络
爬虫
,可以采取用户查询一个特定的新闻主题,然后访问不同的新闻网站,然后从这些
网页
提取新闻内容,并将其存储在一些文件/数据库中。现在我有代码从单个页面提取新闻内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同的页面提取内容。有没有人可以提供一些好的
Java
教程或实现的链接,我可以根据需要使用或修改这些链接?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
2
回答
Regex:匹配重复的未知组?
、
我试图为
爬虫
创建一个通用的regex模式,以避免所谓的“
爬虫
陷阱”(只添加url参数并引用相同页面的链接,这会导致大量无用的数据)。很多时候,这些链接只是一次又一次地将相同的部分添加到URL中。我可以使用正则表达式缩小
爬虫
的范围,并且我希望有一个模式,它告诉
爬虫
忽略所有有重复部分的内容。用正则表达式可以吗?谢谢你提前给我一些提示!我只想澄清:
爬虫
陷阱的
设计
并不是为了防止爬行,而是由于
网页
设计
不佳。我们正在爬行的所有页面都明确地允许我们这样做!
浏览 4
提问于2015-09-28
得票数 1
回答已采纳
3
回答
网络
爬虫
反馈?
、
、
、
无论如何,作为对我上一个问题的跟进,我写了一个小的网络
爬虫
,可以访问网站。 - Main.
java
- HTMLUtils.
java
浏览 12
提问于2010-05-29
得票数 2
回答已采纳
1
回答
使用javascript对SEO友好的条件加载
、
、
、
、
我计划做一个responsive+mobile的第一个
网页
设计
。所以我的计划是: 不过,我在这里有个问题。
浏览 6
提问于2012-10-18
得票数 4
回答已采纳
1
回答
识别搜索爬行器
、
、
、
我有一个网站,统计有多少人访问了这个特定的
网页
,但我不想计数什么时候搜索
爬虫
访问他们。
java
是否有任何方法来识别它是
爬虫
还是真正的用户?使用
Java
7和tomcat 谢谢
浏览 2
提问于2015-10-21
得票数 1
回答已采纳
1
回答
Web Crawler的功能
、
、
网络
爬虫
是否只从
网页
中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源
Java
网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
2
回答
Web Crawler与Html解析器
、
、
、
web
爬虫
和解析器有什么区别? 他们的目的是一样的吗?
浏览 3
提问于2018-11-14
得票数 2
回答已采纳
1
回答
在某个网站中搜索的
java
程序
、
我想写一个
Java
代码来解析某个网站。网站中的每个结果都出现在指定的URL中。我该怎么开始呢?有没有好的库可以使用?我能从你在这个领域的经验中受益吗?
浏览 0
提问于2011-07-26
得票数 2
回答已采纳
1
回答
利用JSoup浏览
网页
、
、
、
我制作了一个网络刮刀,在IMDB上抓取一些信息。它通过将url中的数字更改为不同的随机数字来遍历每个页面,然后在这个新页面上重复web抓取过程。我怎样才能在BFI网站上做到这一点?我看不到从一部电影到另一部电影的路。
浏览 2
提问于2013-10-25
得票数 0
回答已采纳
1
回答
如何用C++点击网站上的按钮
、
我正在用C++
设计
一个网络
爬虫
,但是有一个
网页
问我:“你至少18岁吗?”当我第一次使用URLDownloadToFileW获取
网页
时,当然我必须单击“是”。
浏览 1
提问于2016-10-01
得票数 0
1
回答
将Nutch web爬行功能集成到
Java
应用程序中
、
、
我会在我的
Java
应用程序中使用Apache从一个或多个网站抓取
网页
。基本上,为了处理页面内容(文本等),我需要为web
爬虫
找到的每个
网页
调用我的
Java
应用程序的方法。如何做到这一点?
浏览 7
提问于2016-06-01
得票数 2
回答已采纳
1
回答
从
Java
获取带有javascript链接的
网页
、
、
、
、
我在
Java
中有一个web
爬虫
应用程序,需要访问
网页
中的所有链接。问题是,在某些页面中,链接是由javascript函数生成的。其他远程
网页
花费了更多的时间。 我希望找到
网页
中所有链接的最简单/最快的方法,甚至是
Java
中的javascript链接。(欢迎使用C/C++解决方案)。我也知道 (
爬虫
)有一个来自Javascript的链接提取器,但我不确定该代码是否可以从Nutch中“提取”出来,用于另一个上下文中。
浏览 4
提问于2010-11-09
得票数 0
1
回答
为什么nutch总是创建链接it,即使它不需要获取内容?
我是通过哈多普的nutch一章阅读的,这是权威的指南。我理解使用反向链接对页面进行排序的概念。然而,当你只想爬几个网站的时候,我看不出你在扮演什么角色。由于linkdb的创建是一个地图减少作业,它必然会占用大量的计算资源。我只是想知道为什么linkdb总是在大多数nutch用例只是获取指定urls的web内容时生成的。
浏览 2
提问于2015-04-16
得票数 0
回答已采纳
1
回答
搜索引擎如何唯一地识别web上的每个页面
、
、
、
、
如果我写了一篇文章,他的链接是'example.com/abc.php‘&这篇文章在搜索引擎中排名靠前。 几天后,我更新了这篇文章,包括它的内容和'xyz.php‘的永久链接。 现在,之前URL为'example.com/abc.php‘的帖子被更新为'example.com/xyz.php’。 那么搜索引擎将如何知道这是与URL example.com/abc.php排名相同的页面/帖子。并且需要将搜索结果中的链接更新为“example.com/xyz.php”,而不影响排名。 在更新固定链接之前和之后,在为搜索引擎创建一个唯一标识页面的新帖子时,有
浏览 35
提问于2021-01-25
得票数 0
2
回答
为了布局目的,通过CSS插入隐藏的虚拟文本会伤害SEO吗?
、
、
、
、
事实上,它不仅需要有内容,而且至少要有足够的内容来达到与相邻div一样高的水平,这样
设计
才能正确地对齐。 我想出的方法是使用一个css::after伪元素,并将其填充几段内容。我知道这是一个丑陋的黑客,但我不擅长CSS (我们没有专业的
设计
师),网站真的很复杂,项目已经晚了。
浏览 0
提问于2014-09-30
得票数 0
4
回答
如何在
java
中创建网络
爬虫
?
、
嗨,我想创建一个网络
爬虫
在
java
中,我想检索一些数据,如标题,从
网页
描述,并存储在数据库中的数据
浏览 1
提问于2010-11-09
得票数 0
2
回答
有哪些好的
java
库可以用来搜索和抓取
网页
中的数据。
、
、
、
、
有哪些好的开源
java
库可以搜索和抓取
网页
中的数据并将其放入数据库中。
浏览 1
提问于2011-07-29
得票数 1
1
回答
如何在
java
中创建文档预览
、
、
、
、
我有一个要求,我必须读取一个文件(pdf,text,doc,docx,ppt),并在
java
/javascript中的文档链接上显示其预览(与Google
网页
预览或
爬虫
相同)。有没有可能用
java
来达到这个要求。提前谢谢。
浏览 8
提问于2012-06-12
得票数 0
1
回答
谷歌网站
爬虫
如何找到我的网站,如果我没有张贴网址任何地方?
、
想知道谷歌网站
爬虫
是如何找到我的网站。假设我没有在谷歌索引的任何其他地方发布网址。 有人能解释一下吗?
浏览 2
提问于2016-04-22
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用Python做网页爬虫
开源网页爬虫抓取工具 [Crawl4AI]:专为大型语言模型设计
Python爬虫实现网页截图的方法
Java毕业设计基于网络爬虫的网络新闻分析参考
Java和JavaScript在网页设计中的区别,了解一下吧
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券