架构概述:
语言:使用类库执行爬虫任务的C# Windows项目
我目前正在编写一个接口(UI),用于“调试”我编写的爬虫(或一组爬虫器)。每个爬虫都是一个.dll。
在接口中,我将调用.dlls,我不想等待它们结束任务(在内部爬行、解析和构建元素列表)来在接口上显示结果。
问题:
我是否可以以某种方式从.dll向界面发送反馈信息?
也许是一个进度条,或者在读取元素之后,在界面上显示它们,然后再爬行下一个元素?
我想要的是这样的东西在界面上实时显示(网格视图或其他东西)。
Finished Crawling College X
Finished Crawling College Y
Probl
我想找到正确的方法来为我的爬虫设置接受语言头吗?我读到了其他相关的答案,如和,但它们对我不起作用(我得到了这个错误:“方法未定义为类型连接”,这里是代码的一部分:
String baseUrl = "http://www.imdb.com/search/title?at=0&count=250";
org.jsoup.Connection con = Jsoup.connect(baseUrl).userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) C
我目前被指派创建一个网络爬虫来自动执行我所做的一些报告任务。这个网络爬虫必须使用我的凭证登录,在不同的字段中搜索特定的东西(一些关于当前日期),如果有任何可用的数据,则下载包含数据的CSV,快速解析CSV以获得快速计数,创建带有CSV附件的电子邮件并发送它。
我目前对C++和Python非常了解,我正在学习C语言,但有人告诉我Ruby或Ruby on Rails是一个很好的方法。Ruby on Rails是否只用于创建web应用程序,如果是这样,我的任务是否符合web应用程序的描述,或者我是否可以只创建一个独立的程序来运行并完成所有这些工作?
我想知道哪种语言最容易编码(有易于使用的模块),有
我正在学习爬虫,在一些基本的爬虫之后,我尝试从github下载谷歌学者爬虫大师,看看它是如何运行的,在几个我可以修复的错误之后,我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件,from proxy import PROXIES行是问题)。
这段代码有一些问题,其中包含python 3.x版本中不再支持/建议的解决方案,包括后来被重命名/移动的模块,但我无法确定这是否也是这种情况,希望能得到帮助。
我已经在C++中建立了一个网络爬虫。我正在使用一个名为URLdownloadToFile()的API。
还有其他可以使用的API吗?
API URLdownloadToFile()对于某些URL运行良好,而对于其他URL却不能正常工作吗?请提出一些我能克服这个问题的方法?
谢谢,Dnyaneshwari C.