我有一个爬虫的基本结构。现在我在一些php驱动的网站上发布了它,它就像一个护身符。不过,现在我想让它从ajax内容构建数据表。目前,我正在使用Mechanize for PYTHON和perl来构建我的爬虫。虽然机械化模块不执行AJAX。如何访问由异步ajax构建的内容?我知道有一种叫做Selenium的东西,一种真正的自动化浏览器。但这是我唯一的选择吗?
我正在使用web.response方法作为网络爬虫来收集信息。我将其收集为一个字符串,然后将其保存到一个文本文件中,然后使用正则表达式.Then搜索该文本文件。现在的问题是,当我使用正则表达式搜索文本文件时,我不能正确地执行它,因为文本文件中有许多随机的换行符。我的问题是“有没有一种方法可以让我通过web.response方法得到的XML ( HTML )文档在保存到文本文件之前能够正确地格式化,这样文本中就不会有随机的空格和换行符。