将格式不正确的文档转换为格式良好的 HTML 文档。
《Web Content Information Extraction Based on DOM Tree and Statistical Information》
CommonAncestor
ViNT
的方法
针对搜索引擎的界面(比如百度页面和谷歌界面),需要同个搜索引擎下的多张页面。
ViNT
利用了由搜索引擎动态生成的结果页面上的可视内容特征,结合 HTML 标记路径,通过对多个候选页面提取内容行和块结构,提出了一种完全自动化的生成包装器的技术。rExtractor
针对查询结果页面,获取数据记录之间的可视化信息和内容的相似性《Deep web data extraction based on visual information processing》
主要的步骤是