由于金融危机影响,极大的推动了搜索引擎市场,都说今年是搜索引擎年。垂直搜索的概念一度被抄的很火。对于新旧交替,不少垂直引擎已经挂了。我们对于衡量一个垂直搜索引擎的好坏根据以往用户需求整理主要有以下几个标准:
A.数据的更新频率
顾名思义,就是爬虫从目标网站上爬取数据的频率。
B.所在行业信息数量是否全面
信息来源是广泛,针对行业是否深入及专注。
C.查询信息速度
查询速度的衡量是针对搜索后搜索结果的速度,获取目的信息时间。
D.信息抽取完整率和准确率
此项指标的重要度不言而喻。信息的准确率和完整率直接关系到整个搜索引擎搜索结果的质量。
经过发展现有垂直搜索爬虫分为2种基本模式:
一、定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。
优势:基于模版的信息提取技术,能提供更加精准的信息以及垃圾信息比较少。比如价格,房屋面积,时间,职位,公司名等等。
劣势:目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。
二、语义爬虫全网爬取,爬虫根据语义识别,自动进行信息格式化分析,并存储。
优势:
1、全网非定向抓取目标网站,有效的保证信息数量。
2、不需要人工参与定制和维护模板,有效的保证了自身的人力和维护成本。
劣势:
相对于第一种模板匹配,根据语义来进行数据抓取,准确率略有下降、垃圾信息及重复信息比较多。
本文地址:http://www.31dc.com/sousuojieshao/241.html