我有一个卷曲页面抓取与卷曲,并希望抓住所有的链接与一定的id。据我所知,最好的方法是使用dom和xpath。下面的代码抓取了大量的url,但删除了其中的许多,并抓取了不是url的文本。$curl_scraped_page是用卷曲抓取的页面。$dom = new DOMDocument();$xpath = new DOMXPath($dom);
$hrefs =$xpath</em
我正在尝试抓取位于页面的<script>部分中的一些特定内容(位于页面底部的标签之前)。据我所知,普通的XPath不能做到这一点,所以我将通过SEOTools for Excel插件使用PhantomJs cloud。<script> window.:{"list":{"SEOTest":{"joined":"2016-04-17T22:00:31.000Z","threshold":[],&qu