JAVA正则抓取图片_java抓取网页图片_正则抓取 - 腾讯云开发者社区

、、

使用python，你将如何从网站上抓取图片和文本。例如，假设我想同时抓取图片和文本，我应该使用什么python工具/库呢？有什么教程吗？

浏览 2提问于2014-01-12得票数 1

2回答

抓取背景-使用木偶操纵者的图像

、、

有没有人能解释一下我如何使用Puppeteer从网页上抓取背景图片？图像位于image-background类中，但其中没有存储任何内容。jpg URL位于 element.style {背景图像: url('') 如何抓取网址''？谢谢

浏览 1提问于2020-06-05得票数 0

1回答

嗨，我想从网上抓取一个代理列表，并搜索它，以找到工作的代理号和端口。我的问题是，当我抓取网站时，我如何搜索它，只识别ips和poorts，并抱怨其余的？到目前为止，我得到的所有工作是，我如何只识别代理号而不识别其他？很抱歉，如果有任何帮助，我将不胜感激，但我是新手：) package proxytester; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java

浏览 3提问于2013-03-11得票数 0

回答已采纳

1回答

删除重复出现的文本字符串

、

我是R的新手，我已经在论坛上搜索了近2个小时，但我并没有得到它的工作。我的问题:我有一个很长的文本字符串从互联网上刮下来。当我抓取代码的时候，图片也被包括在内。它们的编码方式是以"Embed from Getty Images"开头，以"false })});\n"结尾。我想删除这些字符串之间的所有内容。我已经尝试了gsub()，如下所示： AmericanTexts3 <- gsub("Embed.*})});\n", "", AmericanTexts) 但接下来发生的是，他们删除了第一张图片和最后一张图片之间的所有内

浏览 0提问于2018-11-16得票数 0

2回答

从超文本标记语言创建jQuery对象时如何防止浏览器下载图片？

、、

用户在我的网站，他们可以从任何其他网站复制整个页面(通过Ctrl+A)，并粘贴到特殊的文本区，从html抓取一些有用的数据。但现在我看到了一些问题。当我用jQuery包装粘贴的html代码时： var page = $(html); 我的浏览器(Chrome)开始下载此html中的所有图片(可能不仅仅是图片)。这对我来说很糟糕，因为我使用安全的SSL连接，并从另一个网站下载图片，取消浏览器安全锁图标。我可以关闭图片下载吗?或者如果我不能-我可以使用哪个库来解析html，而不需要下载不必要的内容？

浏览 2提问于2012-07-12得票数 1

1回答

上传非持久性PHP文件--最安全的方式？

、、

我正在尝试写一个脚本，允许上传php文件进行解析。我在Google上能找到的大多数教程和安全信息都假设你只允许上传图片(所以使用getimagesize等)。如何在不依赖头文件的情况下确认上传的文件是PHP文件？还有--我不打算以任何方式存储文件，我只想抓取内容，解析它，并转储信息--有没有一种非常安全的方法来抓取内容，而不是真正将文件保存到temp？如果我必须将其保存到temp，如果我只是抓取内容，然后快速删除它，我是否仍然面临安全威胁，如果是，我如何抑制它们？我需要对PHP文件内容进行什么样的清理，以防止系统被滥用？基本上，如果我只是将内容解析为文本，有没有办法让恶意用户“注入”正在运

浏览 1提问于2014-05-19得票数 0

6回答

正则表达式不能捕获IE中的报价

、、

我很难让IE和我的正则表达式玩得很好。我正在尝试抓取背景图片，并在网站的其他地方使用它。它可以在除IE以外的所有浏览器中运行(当然)。代码如下： var bgImg = body.css('background-image').replace(/^url$['"]*(.+)['"]*$.*/, '$1'); 它真的应该可以工作，但由于某些原因，IE没有捕捉到最后一个引用，并返回以下内容： “ 如果没有replace，它将返回以下内容： url(") 我的正则表达式不应该处理最后的双引号吗？我怎样才能让IE变得更好？

浏览 5提问于2012-04-07得票数 0

回答已采纳

2回答

如何通过json api获取html数据？

、、、

我在khanacademy上抓取资料页。我使用他们的API (json文件格式)来做这件事。这是我想要抓取的个人资料链接：https://www.khanacademy.org/profile/Viruslala/ 这是它的接口链接：https://www.khanacademy.org/api/internal/user/kaid_896965538702696832878421/profile/widgets?lang=en&_=190427-0731-8941ef3f07bd_1556382106890 我的问题是:大多数数据都显示在json文件(API)上。但是我想要抓取的一

浏览 1提问于2019-04-28得票数 1

1回答

返回null (数据抓取)的Google脚本regex (google )

、、

目标：--目标是从这个网站抓取shiller，并将其放入每24小时更新一次的google。网址：解决方案尝试： =IMPORTXML("URL"，"XPATH") 尝试在电子表格中使用此功能，但由于网站太慢，它无法抓取该网站。 Google应用程序脚本使用此脚本获取数据的HTML并返回能源部门的shiller值： function energyFinder() { var url = "https://www.gurufocus.com/sector_shiller_pe.php"; const html

浏览 3提问于2020-09-15得票数 1

1回答

使用python试图匹配HTML网页中的确切字符串

、、

试图通过找到精确的字符串匹配来自动替换试图在shopify、woocommerce和magento等平台上的珠宝网站上抓取图片链接及其独特的产品编号。对于每个珠宝网站，当尝试webscape时，div标签的类名会改变，但是链接和sku。字符串的开始和结束方式几乎是一样的。因此，我必须在整个HTML文档的字符串中找到一个匹配项，并找到索引位置，并在上述索引位置之后基本移动某个位置，然后抓取字符串。我面临在整个HYML网页中匹配精确字符串的问题，并匹配一个字符串并准确地得到相应的索引位置。这是字符串必须找到匹配的第一组字符和最后3个字符是相同的，所以我需要找到一个匹配的相同，并试图提取这个链接

浏览 12提问于2021-12-18得票数 0

1回答

如何在java中优化"replaceFirst“方法

、、

我使用httpclient抓取htmls。在我的代码中，我发现 html = html.replaceFirst("[cC][hH][aA][rR][sS][eE][tT]\\s*?=\\s*?([gG][bB]2312|[gG][bB][kK]|[gG][bB]18030)","charset=utf-8"); 上面的代码导致了java.lang.OutOfMemoryError。整个程序使用251MB，replaceFirst方法使用64.8%，157MB，并且还在增长。我怎么才能避免这种情况，我需要一些帮助。这~

浏览 2提问于2013-08-12得票数 0

2回答

使用PHP从twitter页面抓取图片url

、、、、

我正在尝试用php从twitter上抓取一个图片url，比如'‘。我找到了以下php代码，file_get_contents可以正常工作，但我认为正则表达式与url不匹配。你能帮助调试这段代码吗？提前谢谢。这是twitter上的一个片段，其中包含了这个图片： <div class="media-gallery-image-wrapper"> <img class="large media-slideshow-image" alt="" src="https://pbs.twimg.com/media/

浏览 4提问于2013-03-28得票数 1

回答已采纳

4回答

在java中字符串拆分/标记化而不编译正则表达式？

、、

有没有一个标准的Java API允许我用一行代码从字符串1^2^3^4中抓取一个令牌？我想把第三个元素"3“提取出来。我不想要任何编译正则表达式的东西。在预编译的正则表达式中传递它是很好的，但是每次调用一个方法时不断地编译一个正则表达式会损害CPU。

浏览 1提问于2013-04-06得票数 0

回答已采纳

2回答

word转html时，丢失特殊符号样式？

、、、

当使用java将word转html时，docx中的特殊符号，比如：着重号，在生成的html中丢失了该符号。如下图为docx中待转换的内容：图片

浏览 302提问于2023-07-23

1回答

按html标记值计算的刮取链接提取器

、、

我使用抓取来抓取隐私政策，从它的主页抓取一个网站，我想智能地抓取包含特定关键字的页面中的特定链接(隐私、数据、保护等)。我看到了scrapy的CrawlSpider和对象只允许这样做，但是，我希望不仅对已发现的链接应用正则表达式，而且还要应用到<a></a>标记中的文本例如，为了更好地查明以下情况： <a href="http://example.com/legal">Check out our privacy policy</a> 其中，URL可能不是一个完美的匹配，但是HTML标记中的文本更有帮助。我看到scrapy的L

浏览 0提问于2019-06-05得票数 0

回答已采纳

1回答

将HTML div转换为Java/JSON对象？

、、、、

有没有一种方法可以在我的代码中读取整个HTML格式的网站，然后将HTML转换成java或json对象？抓取一个站点并从某些div中提取文本是很酷的。有没有什么方法可以使用编组程序来做这件事？

浏览 97提问于2021-07-30得票数 0

4回答

如何更改此正则表达式以正确提取标记属性-应该很简单

、

我需要“抓取”一个自定义HTML标记的属性。我知道这样的问题以前已经被问过很多次了，但是正则表达式真的把我搞糊涂了，而且我似乎不能让它工作。我需要使用的一个XML示例是  - content goes here -  我希望能够获取name属性的值，在本例中是nameValue。下面显示了我所拥有的内容，但它返回了一个空值。我的正则表达式字符串(对于Java应用程序，因此使用\来转义")是： "(.)

浏览 1提问于2009-06-17得票数 2

回答已采纳

1回答

组：“”NoneType“”对象没有具有BeautifulSoup4的属性“”AttributeError“”

、

您好，社区，我有一个问题，我不知道如何解决它我的问题是，我写了一个脚本，以抓取图片的网页与BeautifuleSoup4，但我得到了错误(AttributeError：'NoneType‘对象没有属性’组‘) import re import requests from bs4 import BeautifulSoup site = 'https://www.fotocommunity.de/natur/wolken/3144?sort=new' response = requests.get(site) soup = BeautifulSoup(respons

浏览 16提问于2019-09-25得票数 0

回答已采纳

1回答

如何重复一个Regex 10次

我在一个web抓取程序中使用以下正则表达式。它正在抓取html中的项目符号列表，但它只是抓住了第一颗子弹，而剩下的9颗却落在后面。我怎么能修改它来抓取所有的10颗子弹呢？ <li>\s*<span\s+class=\"a-list-item\">(.*?)<\/span>\s*<\/li> 谢谢你的帮助。

浏览 2提问于2014-12-05得票数 0

回答已采纳

1回答

HTML敏捷包vs正则表达式

、

如果我正在创建一个简单的网页抓取器(从根url，抓取所有链接，然后从这些链接抓取所有电子邮件)，是否值得使用HTML Agility Pack？我实际上并不是在寻找HTML标签，我只是在寻找整个文档中的电子邮件。使用HTML敏捷包会更有效吗？我是严格剥离他们，因为这是必要的，我有这些电子邮件，有大约100个链接。只有大约500封电子邮件会被抓取。别担心，我会牢记道德规范的。

浏览 3提问于2010-02-10得票数 2

回答已采纳

2回答

在我自己的网站上抓取显示缩略图(Rails)的图像的页面

、、

我有一个有帖子和帖子评论的rails应用程序。在帖子页面的顶部，我想要显示包含在帖子和帖子评论中的所有图像的缩略图(自动)。当用户添加带有图片的帖子评论时，顶部的缩略图将更新以反映新图片。脑海中浮现出两种选择，但似乎没有一种是完美的： 1)使用ScrAPI或类似工具抓取页面 2)在post和post_comment模型中创建扫描图像内容的方法，这需要某种图像正则表达式和数据库查询似乎应该有一种更好的方式，使用一些Javascript魔法或其他什么。有什么想法吗？

浏览 0提问于2011-03-28得票数 0

回答已采纳

2回答

“.jpg”模式的preg_match不准确

、、、

我正在使用带有模式$pattern = '/src="http:\/\/(.*?).jpg"/s';的preg_match从网页上抓取jpeg图像的urls。然而，这还不够准确，因为它还抓取了http://www.domain.com/image.png"> Yadayada <img src="anotherpic.jpg。其他时候，它抓取像这样的东西 http://maps.google.com/maps/api/staticmap?center=42.34,-71.18&path=weight:4|42.338

浏览 3提问于2011-10-19得票数 0

回答已采纳

2回答

rvest html_nodes返回{xml_nodeset (0)}

、、、

我一直在尝试使用rvest和selectorGadge来抓取this page。我可以抓取产品描述，但当我尝试获取图片中所示的值时： ? 但是，当我运行代码时： library(dplyr) library(rvest) read_html("https://www.dicasanet.com.br/material-de-construcao") %>% html_nodes(".product-payment") 我一直得到结果"{xml_nodeset (0)}“。我注意到，与其他值(如产品名称)不同，这不是一个div.a，而

浏览 90提问于2021-04-29得票数 0

回答已采纳

1回答

在php中抓取图片

、

问题是如何获得ajax调用的源代码？这不是抓取的，例如如何抓取像这样的链接上的图片？如果您确实检查了元素，那么它将在图片所在的中间显示正确的代码。但是如何抓取它呢？如果您点击下一页，那么它将在源中包含其他图像。如何获取所有图片的源码？

浏览 0提问于2014-03-05得票数 1

1回答

使用正则表达式解析使用Nokogiri抓取的图像src中的换行和美元符号

、、、、

我在我的rails 4应用程序中使用nokogiri从网站上抓取图片，其中一些在出现'‘错误后给了我意想不到的'$’。例如，下面是一个示例图像url输出： <img src="http://x.example.com/images/detail/ln9502/1_ln-9502--- grh_375.jpg" alt="" style="display: block;"> 我怀疑是换行符给我带来了麻烦？下面是另一个： <img class="abc" src="http:

浏览 0提问于2014-05-23得票数 1

1回答

如何使用Htmlunit对财务表格进行数据挖掘？

、、

使用java/htmlunit，我想要挖掘(网络抓取)一堆对冲基金SEC 13F文件。我不知道如何从证券交易委员会的等.txt文件中提取数据。表布局看起来很整洁和结构化，但是如何获取具有相应< S >和< C >的< Table >呢？此外，如何才能仅获取公司名称和Amt值(在第3列)和< C >股票金额(在第4列)。不确定我是否在正确的轨道上，但是我使用了Bufferedreader，不确定下一步做什么来获取< Table >中的数据……这是我到目前为止所知道的： import java.io.BufferedReader; im

浏览 1提问于2012-06-07得票数 0

2回答

在像Facebook这样的jomsocial的墙上添加href

、、、、

在Facebook中，如果您添加了一个href链接或网站的URL，Facebook将抓取该特定链接的图片和描述并显示在帖子上。如何在Jomsocial中实现这一点？至少告诉您如何使用普通的PHP和Javascript或Jquery来实现。

浏览 6提问于2012-09-09得票数 1

回答已采纳

1回答

简单术语的MySql字段类型

、

我正在设置一个脚本，它将从几个网站抓取某些术语，并将它们放入我的数据库中，比如说flickr图像标题，所以一行将是 0(索引)，apple ( flickr图片标题)，date (我抓取图片的日期)，flickr.com (抓取图片的网站) 我想知道在mysql表中我需要什么样的文件类型？我只知道date会得到DATETIME，但我不确定其他的，我甚至需要索引吗？

浏览 5提问于2011-12-13得票数 0

回答已采纳

2回答

如何在java中从一个文件中抓取并显示两个字符串(模式)之间的多行

我想使用java从一个文件中抓取并显示两个所需字符串(模式)之间的多行字符串(其中包含超过20,000行文本例如:我要抓取的file.txt(超过20,000行文本) pattern1字符串pattern2 我想抓取并显示这两个模式(pattern1和pattern2)之间的文本，在本例中是"string /n that I /n want /n to grab“我该怎么做呢?我尝试了Bufferreader、文件、字符串和其他一些东西，但都不起作用对不起，我是菜鸟

浏览 25提问于2020-04-30得票数 0

回答已采纳

1回答

禁止对某个url进行抓取

、

由于某些原因，某个移动url正在被抓取，而产生的url在被抓取时给出了一个错误。我想让scrapy忽略url，并且不调用parse方法或者其他任何东西。 class MySpider(scrapy.Spider): # name, allowed_domains etc rules = Rule(LxmlLinkExtractor(deny=r'/m/.+') # deny http://example.com/m/anything-here.html 但这并不起作用，这样的链接仍在被爬行。

浏览 2提问于2014-12-11得票数 0

1回答

带有opencv的棒棒糖上的原生活动摄像头

、、、、

看起来opencv不能在Android 5.+ (棒棒糖)上使用本地摄像头。cf：有没有其他方法可以从原生活动中抓取图片，然后转换成cv::mat？或者，也许我可以使用jni从我的c++活动中调用java中的grab函数？谢谢你的帮助查尔斯

浏览 2提问于2015-06-19得票数 3

3回答

如何让Scrapy爬虫拒绝国家域名

、、

我正在尝试让我的抓取蜘蛛拒绝.com域名。传递给deny_domains的正确字符串是什么？我试过"*.com“，但它不起作用。问题更新:我如何才能反过来做呢？例如，如果我只想抓取.com域 import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from myproject.items import MyprojectItem class pformSpider(CrawlS

浏览 3提问于2016-05-21得票数 0

2回答

替换从javascript获得的字符

、、、、

我正在制作一个程序，从闪烁集中提取所有的图片。我在代码中发现了一个包含每个图片链接的大字符串，问题是：链接有下一种格式： https:\/\/c2.staticflickr.com\/4\/3925\/14562233192_3fe2b8fe1b_s.jpg 但我无法删除'\‘字符，尽管使用了"\“转义序列。我的替换代码如下，ret包含许多由‘\n’分隔的链接： ret =ret.replaceAll("\\", ""); 我忘了什么？我的错误stackTrace是： Exception in thread "AWT-EventQ

浏览 2提问于2014-09-17得票数 0

回答已采纳

1回答

基于jQuery的图像条形分页模块扩展

、、、

我在我的网站上有一个jQuery函数，它在Facebook按钮上添加了一个共享，这个功能非常好。问题是，现在我已经在我的服务器上安装了Google的Pagespeed模块，以使事情变得更快一些。就像一种魅力，除了一件事：图片现在得到了分页扩展，而Facebook似乎并不喜欢它。因此，我要寻找的是一个函数来获取图像src (这已经到位了)，去掉添加的分页扩展，并将“原始”图像src发回。我是这样抓取src图像的： img = $(this).attr('src'); 我没有的是在这个函数之后去掉分页扩展的函数。 google页面显示的图片如下所示：问题是，有两部分需要

浏览 1提问于2015-01-17得票数 0

回答已采纳

1回答

如何使用Google上的IMPORTXML从站点中随机获取图像？

、、

我想从一个使用谷歌页面上的网站上随机抓取图片。这是我目前的代码： =IMPORTXML(CONCAT("https://unsplash.com/s/photos/", query(SPLIT(AA2, ">"), "SELECT Col2")), "(//img)[9]/@src") 目前，它只抓取了第9张图片的代码："(//img)[9]/@src"。我怎么做才能让它随意地抓取图像？

浏览 3提问于2021-12-20得票数 0

3回答

为什么部署腾讯云CDN加速以后，百度蜘蛛就抓取不了了？

[图片] 为什么部署腾讯云CDN加速以后，百度蜘蛛就抓取不了了？但是用户可以正常访问，用其他模拟蜘蛛均可正常抓取…求大神指导 seo优化配置单独解析配置都尝试过，也联系过客服，还有源站也确定没有对百度做屏蔽，源站抓取正常（有跳转） [图片]

浏览 1658提问于2018-02-27

1回答

Python:编写脚本从HTTPS URL数据库中抓取图像

、、

昨天我在python 3.x上胡闹，我想把一个HTTPS网站上的所有图片都刮掉。这是我到目前为止所拥有的代码 import urllib import urllib.request idnum = 190154 ur = 'https://skystorage.iscorp.com/pictures/IL/Lincolnway//%d' % idnum url = ur + '.JPG?rev=0' filename = str(idnum) + '.JPG' idnum = idnum + 1 try: urllib.request.u

浏览 17提问于2017-03-16得票数 1

3回答

HTML页面抓取

、、、

抓取具有AJAX/动态数据加载功能的网页的最佳方式是什么？例如:抓取一个网页，该网页加载了20张图片，但当用户向下滚动页面时，它会加载更多的图片(有点像Facebook)。在这种情况下，如何抓取所有图像，而不仅仅是前20个图像？

浏览 0提问于2012-12-06得票数 3

1回答

无法为php抓取获取特定的<p>标记

、、

我正在学习php抓取，我刚开始刮下面的网站： **[URL]="http://www.youramazingplaces.com/"** 到目前为止，我已经抓取了每个帖子的所有标题、图片来源和链接地址。刮掉<p>标签一点也不困惑，因为我需要对每个标题进行描述，说明在2或3<p>标记中，该页面上的所有图像也都在<p>标记中。我在用regex兄弟。我想从每个帖子中创建一个regex表达式，该表达式应该从页面中提取每个描述，除了包含图像或其他类的段标记之外。现在，我的REGEX提取了所有的段落标记，但我不想全部取消它们，我只需要那些只包含描述的标

浏览 1提问于2014-08-24得票数 0

回答已采纳

1回答

选择字符串中除匹配正则表达式的最后一个单词之外的所有内容

、

我想从网站上抓取一个品牌。有时这个名字有一个我不想捕获的额外单词。例如，我想抓取Kitchen Aid，但是站点有Kitchen Aid Appliances。另一个例子是Maytag Appliance -请注意，第一个有带's'的Appliances，第二个有没有's'的Appliance。我有一个正则表达式，我认为它可以工作，但它不是。我不确定原因是什么。 ^(\w.+)(\sAppliances?)?$ ?应与Appliance(s)上的's'中的零个或一个匹配。第一组应该是Appliance(s)之前的所有单词。所以它应该抓取Kitc

浏览 0提问于2017-06-01得票数 0

1回答

一个很好的开源网络爬虫，用于索引特定网站的特定内容？

、、、

请给我推荐一个很好的C++，JAVA或PHP语言编写的开源网络爬虫。我只需要抓取/索引一些特定的网站的特定内容(图像，文本，视频)。我知道他们在这个网站上已经有很多关于这个话题的问答了。但看完后我有点迷惑了。因此，如果我再次重复同样的问题，我很抱歉。提前使用-Thanks

浏览 0提问于2011-01-10得票数 0

2回答

正则表达式替换斜杠或忽略

、

我有一个特殊的文本，看起来像下面这样： CLIA ID: Rapid Strep Test w/reflex culture 我的正则表达式抓取"Rapid Strep Test w/ regex“看起来像这样 (?<=CLIA\s*ID:\s*\n)[a-zA-Z_0-9 /]{1,30} 这就是我的问题，我的程序实际上抓取文本，然后使用文本，它用抓取的内容重命名输入文件。不好的是，发送系统不能发送/，而且我们都知道，在Windows中，我不能命名带有斜杠的文件。有没有办法让我抓取前30个字符，如果它在任何地方找到/，就用空格替换它？？我甚至可以在REGEX中找到/以将其保

浏览 0提问于2014-06-26得票数 0

1回答

如何制定特定的正则表达式

、、

我正在找一个正则表达式来抓取聊天室里发布的gif图片。Gifs使用冒号后跟文本和/或数字来描述图像。聊天室是这样设置的 user1:hello i'm user1 :hi user2::heythere1 hi user1 本例中的gif是:hi和:heythere1。到目前为止，我得到的正则表达式是grep -oE ':[a-zA-Z0-9]+'，但它也返回:hello，因为每个用户名后面也跟着一个冒号。本例中的:hello不是gif。只是有人打个招呼而已。有没有办法修改这个正则表达式，使其只返回:hi和:heythere1

浏览 3提问于2017-02-21得票数 2

回答已采纳

2回答

带正则表达式的Java String.split()

、、、、

我有一个解析问题。我的句子被储存成字符串。我想抓取每个句子中的每个单词，但是我想过滤我抓取的单词。例如，假设我有如下句子： Hell0 3v3ryb0dy @ stackoverflow $people \意味着皇后$= ~queen -> ~people。/#logic 我要做以下几点：抓取“H3ll0” 抓取3v3ryb0dy 扔掉@ 从'$people‘抓取'people’ 抓取‘暗示’从‘\暗示’ 从‘皇后$’抓取‘皇后’ 抓住‘等价物’ 从“~皇后”抓取“女王” 扔掉-> 从“~人”抓取“人” 从‘/#

浏览 1提问于2012-11-05得票数 1

回答已采纳

2回答

正则表达式href解析

、

java中的正则表达式问题。我正在从元素href属性中抓取Id号。我在字符串中有一堆这样的链接： <a href="http://www.someplacelol.com/pdf/14669/Whatever/Doesntmatter">Whatever</a> 在'pdf‘和斜杠后面是一个Id号，这是我感兴趣的。所以我必须从字符串中这种url的多次出现中获得所有的Id。最好的正则表达式是什么？提前谢谢。

浏览 0提问于2012-08-04得票数 0

回答已采纳

1回答

我怎样才能在我的程序中从网站上获得图片？

下午好。有一个网站托管公告，我需要在页面上获得一个电话号码--任何通知，例如 --电话号码表示为图片。我想要获得到图片的链接，保存这张图片，并识别这张图片。但是当我开始在程序中获得图片链接时，我看到这张图片生成了java脚本。下面是我试图获取到程序中图片的链接的代码： ..... HtmlNode bodyNode7 = doc.DocumentNode.SelectSingleNode(@".//*//table[6][@class='objectView']//tr[2]//td"); Console.WriteLine(bodyNode7.InnerTex

浏览 2提问于2013-01-20得票数 3

回答已采纳

3回答

模式中对"(?<name>pattern)“的Java支持

、、

我想知道Java是否有一个等同于C#的命名模式匹配的东西。例如，在C#中，我可以这样做： var pattern = @";(?<foo>\d{6});(?<bar>\d{6});"; var regex = new Regex(pattern , RegexOptions.None); var match = regex.Match(";123456;123456;"); var foo = match.Groups["foo"].Success ? match.Groups["foo"].Value

浏览 0提问于2012-06-23得票数 12

回答已采纳

1回答

基于Java的NFA仿真

、、、

我被指派在Java中模拟一个NFA。现在，我必须模拟NFA的以下正则表达式是 ab*((b|d)|c*) 我想我的电子符号太多了。我只是想知道下面的图片是否正确。

浏览 2提问于2011-11-30得票数 7

回答已采纳

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

抓取oddsportal信息

、、、、

我使用的是Python3.5，实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5抓取我只是想用Python代码抓取我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome的网络选项卡，并在XHR选项下查看出现的HTTPrequest。它通常会给我从JS生成的html代码，在这种情况下，我可以继续使用正则表达式，用BS4抓取它。但实际上我正在做一个关于从www.oddsportal.com中抓取赔率的新项目，在这种情况下，我真的很困惑如何继续进行，因为

浏览 2提问于2016-01-14得票数 1