首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

搜索引擎的技术架构

元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎   全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。   从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天), 蜘蛛搜索引擎搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。   当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。 ■ 目录索引 虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。(更简单说就是网址导航网站)

02

什么是垂直搜索引擎(之二)

垂直搜索引擎的三个特点: 1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:     比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等;           股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点; 2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据:     比如:我们找工作关注的:         职位信息: 软件工程师;         公司名称,行业名称:软件公司,外包行业等;         地点:北京,海淀; 3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:         比如: 找:海淀 软件工程师 的工作等。 垂直搜索引擎站点的8条准则: 1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和 Yahoo,Google等通用搜索的的抓取方向重叠。     目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点; 2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况:     我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。 3、深入分析垂直搜索引擎的索引数据特点:     垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁 垒太高,很可能出师未杰身先死。 4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。 5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。 6、垂直搜索引擎的web 2.0 需求:     垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积 分等机制,使搜索结果更加“垂直”。 7、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息:     这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是 让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创 的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途 径是一个关键部分。 8、垂直搜索引擎的社区化特征:     这一条和第9条是相关的。     俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。     相关连接:什么是垂直搜索引擎

05
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
    领券