61阅读

google搜索引擎原理-Google以外的17个搜索引擎的创新

发布时间:2017-07-30 所属栏目:google搜索引擎原理

一 : Google以外的17个搜索引擎的创新

有许多新的搜索引擎(最新统计有100多个)都在开创一些搜索技术的创新。下面是一份17大搜索创新清单,我们认为,这些创新将来会是破坏性的(译者:关于破坏性创新,请参见这里点此在新窗口中查看原始图片)。这些创新分为4类:查询预处理;信息来源;算法改进;结果可视化和后处理。

[其中的某些创新也在Google的存在各种产品中,但是,正如下文所述,Google的主搜索页中不是缺失了这些功能,就是功能还很有限。]

查询预处理

  点此在新窗口中查看原始图片 

这类改进的主要目的是应用逻辑来尽量预测用户的意图,并由此改进查询的输入。

1. 自然语言处理

这一功能最初是由Ask.com开创的。同期最著名的例子是Hakia点此在新窗口中查看原始图片 和 Powerset点此在新窗口中查看原始图片,二者以不同的方式试图理解用户查询背后的语义或意思。这些搜索引擎与Google的很大的不同,是他们认为“忽略词”(stopwords点此在新窗口中查看原始图片)非常重要,如次要的连词,像by, for, about, of, in等,Google通常会忽略它们。

2. 个人相关性(亦称“个性化”)

长久以来,大家认为按某特定用户的兴趣和要求处理查询,能获得更高相关性的搜索结果。 Google已在其搜索引擎中支持这一功能,但需要登陆才能使用。很多用户理所当然地不情愿这样做,因为这样可能会给Google提供追踪其特殊的搜索内容的条件。 [即使John Battelle也认为这个想法有点可怕点此在新窗口中查看原始图片,尽管Google的Matt Cutts并不同意这个看法点此在新窗口中查看原始图片。] 所需要的就是一种虽然是匿名方式,但能提供个性化的搜索方式。从更广泛的角度来说,提供多个网站上的个性化会更加有用。 Collarity点此在新窗口中查看原始图片就是拥有这一功能的搜索引擎。

3. 定制的、专门的搜索

这是一个简单但强大的功能。这一应用的典型代表是SimplyHired,一个求职招聘的垂直搜索引擎,能提供强大的、预设的搜索,比如“适合年纪大的员工的雇主”、“允许上班带狗的雇主”等。

信息来源


点此在新窗口中查看原始图片
这些改进着重于潜在的数据来源:额外的内容类型和对数据来源的限制,提高了搜索结果的可靠性(减少垃圾信息)。

4. 新的内容类型


今天的年轻人正像交流文字信息一样,在手机上舒服地交流照片和视频,成为这个时代的标记。在网上,富媒体内容-图片、音频、视频、电视等,及与其内容有关的语义信息一起正在爆炸性地增长。搜索引擎也愈加需要相应地支持这些内容类型。一些支持丰富内容的搜索引擎的示例如下:

-富媒体搜索:音频 (odeo点此在新窗口中查看原始图片, podzinger点此在新窗口中查看原始图片 ),视频(Youtube点此在新窗口中查看原始图片, truveo点此在新窗口中查看原始图片),电视 (Blinkx点此在新窗口中查看原始图片 ),图片 (Picsearch点此在新窗口中查看原始图片, Netvue点此在新窗口中查看原始图片 )

-专业化内容搜索:博客 (Technorati点此在新窗口中查看原始图片 ),新闻(Topix点此在新窗口中查看原始图片 ),分类广告 (oodle点此在新窗口中查看原始图片 )

当然,Google在这一领域也非常活跃,如Google Blogsearch点此在新窗口中查看原始图片(博客),Searchmash点此在新窗口中查看原始图片 (图片), Google视频, Google新闻等,因此,也许将这一项放在这个清单里不大公平。尽管如此,理想的情况是,将不同的媒体结果集合在一个搜索里,正如Searchmash已经做的那样(Retrevo点此在新窗口中查看原始图片是另外一个好例子)。

5. 限定的数据来源


最使搜索用户烦心的问题之一是垃圾信息。由于营销商们更加聪明,正日益使用更多侵略性的SEO(搜索引擎优化)技巧,搜索结果的质量就又下降了。 (Google,作为最流行的搜索引擎,更是众矢之的。) 对一系列受信任站点的限制性搜索排除了这一问题,尽管它也缩小了搜索内容的领域—它为某些类型的搜索很好地提供了真实的、优质的结果,比如,当为一个小学项目研究火山时,搜索维基百科(Wikipedia)、国家地理(National Geographic)和科学/教育站点。

这一应用最好的例子来自A9.com点此在新窗口中查看原始图片,它能从多种数据来源中提供内容,并允许用户对每一个搜索作出清楚的选择。Google Co-op点此在新窗口中查看原始图片 和 Yahoo! Search Builder点此在新窗口中查看原始图片 能使第三方可以创建这种解决方案;Rollyo点此在新窗口中查看原始图片早已经是这一领域的先行者!

6. 特定领域的搜索(垂直搜索)


通过聚焦一个单一的垂直方向,搜索引擎能提供更好的用户体验,它对某一特定领域更加全面、简明。针对不同的领域有令人难以置信的大量的垂直搜索引擎,更多资料请查看Alex Iskold在读写网(Read/WriteWeb)点此在新窗口中查看原始图片上的文章或在Software Abstractions博客上的概述点此在新窗口中查看原始图片。 [要更全面地了解这方面的信息,Sramana Mitra的在线旅游服务概述点此在新窗口中查看原始图片介绍了垂直搜索与通用搜索的关系。]

算法改进


点此在新窗口中查看原始图片

这些改进着重于提高潜在的搜索算法以提高搜索结果的相关性并提供新的搜索能力。

7. 参数搜索


这类搜索更接近于数据库查询,而不象文本搜索。它回答的问题从本质上不同。参数搜索有助于发现问题解决方案,而不是文本文档。比如,Shopping.com点此在新窗口中查看原始图片允许你用材料、品牌、风格或价格不同来限定衣服搜索;像indeed点此在新窗口中查看原始图片 这样的招聘搜索网站让你限定搜索匹配的邮政编码;GlobalSpec点此在新窗口中查看原始图片让你搜索工程部件时指定多种参数(如搜索工业管道时输入各种参数点此在新窗口中查看原始图片)。参数搜索是垂直搜索引擎的天然特性。

Google已在通用层面上组合了这一特性,比如在高级搜索页面上的参数,但是冲淡了它的有用性。当你深入进标准的搜索结果,或当你限定搜索某一特定垂直领域时,附加参数的强大功能最能充分体现出来。

8. 社会化信息输入


Yahoo! 的Bradley Horowitz相信社会化输入点此在新窗口中查看原始图片未来将是搜索技术一个重要的分水岭(微软也有同样看法点此在新窗口中查看原始图片)。来自大量用户的聚集信息输入使搜索引擎受益于群众的智慧而提供优质的搜索结果。当然,如果某些个别的输入缺乏独立性或可能是故意捣乱,搜索结果可能会无效。 在这一领域中提供的不同的服务中,del.icio.us 是根据这一方法提供优质搜索能力的典范。[在我较早发布的文章中,作了一个基于“外包给群众(crowd-sourcing)”的不同解决方案的可搜索性能的对比点此在新窗口中查看原始图片。] 其他基于用户评价的系统包括StumbleUpon点此在新窗口中查看原始图片, Squidoo点此在新窗口中查看原始图片, About.com,当然也有Wikipedia。尽管严格来说,它们不是搜索引擎,它们都可以归结于可搜索性的总体框架之内。

当然,Google那功勋卓著的网页排名(PageRank)算法也隐含地根据社会化输入。由于网页排名(PageRank)的一个重要组成部分是基于不同网站的外部链接的数量和特点,那些外部链接担当了收集群体智慧点此在新窗口中查看原始图片的隐含投票。

9. 人工输入


为了有一个完整的认识,把这一类包括进来。像ChaCha点此在新窗口中查看原始图片这样的搜索引擎正在试验用人工操作员来回答搜索查询。 值得讨论,Yahoo! Answers点此在新窗口中查看原始图片是否也是这一领域中的另一种解决方案,尽管这些答案由其他用户,而不是为搜索引擎工作的人来提供。

很难看出ChaCha这类方法怎样扩大规模,除非它设法利用社区资源。

10. 语义搜索


最近搜索领域一些令人激动的新发展与从整个网络中提取智能信息有关。 这些应用刚刚开始,他们表达了语义网络的巨大潜能。这一领域早期的先行者包括:Monitor110点此在新窗口中查看原始图片,它试图从网络上提取可作为行动参考的金融信息,金融机构投资者们可能对这些信息有兴趣;Spock点此在新窗口中查看原始图片,“搜人”引擎(现在正处于封闭测试阶段),它计划在启动时数据库中有1亿份档案;Riya,点此在新窗口中查看原始图片一个视觉搜索引擎,其技术能提供照片的面部和文本识别。

11. 对发现的支持


与个性化和代理技术并肩的是发现技术,这是搜索的圣杯。尽管即时需求的搜索现在是最流行的,但大部分用户在长时间内有相当稳定的兴趣。如果你能发现新的数据源,特别是当优质的feed出现时,岂不是很爽?

在这一方向上已经有了一些试探性的尝试,将搜索与RSS的力量联合起来,比如你已经能建立一个RSS feed来输出许多 Google 和 Yahoo!中的搜索内容。Bloglines点此在新窗口中查看原始图片已经支持“特荐Feed”的功能--很明显,feed读者很适合在你感兴趣的领域推荐新的博客和feed(基于你的OPML文档的内容)。这一领域中还有Aggregate Knowledge点此在新窗口中查看原始图片,它通过从多处网站匿名收集信息来为零售和媒体提供专业化服务。总体而言,这将来会是一个令人激动的领域!

结果显示和后处理


点此在新窗口中查看原始图片

这些改进着重于改善结果显示和为查询后提供的“下一步”功能。

12. 分类、标签云和聚类


像Quintura点此在新窗口中查看原始图片和Clusty点此在新窗口中查看原始图片这样的搜索引擎根据标签和关键词提供结果的聚类。它不仅让用户看到结果本身,也使结果的聚类及结果之间的关系可视化。这一元信息(-information)能帮助用户领会结果并发现相关主题点此在新窗口中查看原始图片的新信息。

13. 结果可视化


图片比文本结果更容易让人的大脑理解和记忆。在比聚类更普遍的水平上,用专门的图形用户界面来显示搜索结果及结果之间的关系,能传达给用户更多的意义并使用户感觉到“大方向”。在某一特定的上下文中,这一方法效果特别好,比如垂直搜索引擎。 Thinkmap的Visual Thesaurus点此在新窗口中查看原始图片,Inxight Software点此在新窗口中查看原始图片的VizServer和房地产搜索引擎Trulia点此在新窗口中查看原始图片的HeatMaps点此在新窗口中查看原始图片都是使信息可视化的新方法的例子,尽管在这一领域的研究还处于早期阶段。更简单的一个应用,HousingMaps点此在新窗口中查看原始图片是一个显示可租/售房屋位置的聚合。

14. 结果提炼与过滤


搜索后下一步经常是通过进一步的对结果的提炼并“深入进”结果里去。这不同于我们在Google已经用到的“关键词修改”,它不仅仅是用关键词组合来试验提交新的查询,而是试图确实地提炼结果[等于是在SQL查询的“where”子句中增加更多的条件],这将使用户收缩其结果并趋近于想要的答案。

查询提炼是搜索处理的重要部分,尽管它还没有引起应有的注意。一个好例子是医疗搜索引擎Healia点此在新窗口中查看原始图片,它允许用户通过使用人口特质过滤器来改动卫生保健搜索结果。这很重要,因为人口特质,比如年龄、种族和性别可能对症状、疾病和治疗用药的搜索结果有很大的影响;还有基于发现结果的复杂性、来源和类型的过滤器。

Google最近在其结果页面底端引入了一个新按钮:“在结果中搜索”,这是正确的一步;结果还可以通过现有的 OneBox插件点此在新窗口中查看原始图片和相关的Plusbox点此在新窗口中查看原始图片新功能来提炼。随着时间的过去,我们可以期待这一功能会日益成熟。

15. 结果输出平台


由于社会化媒体和在线内容变得更加流行,用户数字信息可选择的数量继续增加;相应地,搜索引擎必须支持多种输出平台,包括:网络搜索,移动设备,RIA(丰富互联网应用程序 Rich Internet Applications),RSS,电子邮件等。随着从不同设备接入网络更加普遍,未来的用户很可能会将更加非传统的资源来连接搜索引擎,比如:用TiVo(译者:一种可以录制数字电视节目的系统。)系统来搜索感兴趣的电影或节目,用Nintendo(任天堂)系统搜索在线游戏,甚至用冰箱的触摸屏来搜索菜谱。

现在的一些搜索引擎已经支持标准的网络浏览器和移动设备之外的附加的平台。网络搜索引擎Plazoo点此在新窗口中查看原始图片提供RSS feed 已经很长时间了;Quintura点此在新窗口中查看原始图片起初根本就是一个可下载的RIA应用,现在这个搜索引擎刚刚开始提供网络界面。

为许多不同的结果类型提供支持的最简单的方法是提供开放的API,使第三方开发人员能为专业化的目标平台创建定制的用户界面。Alexa网络搜索平台点此在新窗口中查看原始图片是最先提供开放的API的平台之一(尽管你自己承担使用该API的风险点此在新窗口中查看原始图片),其他可用的API包括oodle点此在新窗口中查看原始图片, zillow点此在新窗口中查看原始图片 和 trulia点此在新窗口中查看原始图片

当然,Google也为几种不同的产品提供API,比如Google Base, Google Maps 和 AJAX 搜索API,尽管不是为主搜索引擎提供。手持设备能通过Google Mobile获得支持;Google Base 和 Blogsearch已经提供了RSS输出。

16. 相关服务


严格来讲,这并不是搜索功能本身的一部分。但是,一旦你完成一个查询,经常下一步自然地就是跟随这一搜索的结果。比如,你搜索工作机会以后,你就会想申请你发现的招聘岗位。从最终用户的有用性来看,这是搜索引擎全部功能的内在部分。

令人吃惊的是,这一特征除了显示与上下文相关的广告外,还没有被许多搜索引擎重点开发。这一方法的完美的例子是这个有一个有趣的名字的搜索引擎: the web's too big点此在新窗口中查看原始图片(互联网太大了),它能使用户搜索英国的公共关系机构的网站上的信息。他们提供一个有趣的附加功能点此在新窗口中查看原始图片:用户能输入他们的想查询的有关公关的详细情况,点击一下就可以直接提交给多个公关机构。类似地,房地产搜索引擎Zillow提供Zestimate点此在新窗口中查看原始图片(Zillow计算的房产的估计价值)的概念,以及房产问答点此在新窗口中查看原始图片的功能。这些类型的附加服务增加了提供给用户的搜索结果的价值,也使这个网站更有“粘性”。

Google在它的一些产品上也提供附加服务,比如Qollar是一款网站主和浏览者双方都无须安装软件就可以在网页上即时聊天的工具。使用Qollar,网站主不仅可以从网站后台实时“看见”和“跟踪”网站上每一位访客的访问情况和信息(如对方所在的城市、正在浏览的网页等),从而分析出最有价值的潜在客户,还可以向访客弹出聊天窗口,与访客进行实时对话,获取对方的采购意向、联系方式等重要的商业信息。并且还可以监测搜索引擎竞价广告的无效、欺诈或恶意点击 (防恶意点击功能介绍 ),可用作网站接待、在线客服、在线洽谈、在线沟通、在线导购、在线咨询和受理、在线售后服务、网页聊天、客户监控、网站统计、监测欺诈、恶意或无效点击。

17. 搜索代理


搜索代理与持久兴趣的搜索和把搜索结果作为feed输出这两个方向密切相关。设想某个软件有一种定期搜索查询的功能,监控网上感兴趣主题的更新信息,收集并整理结果,移除重复信息并以汇总的形式定期报告给用户。这对某些类型的、重要的但并不立刻需要结果的连续性搜索非常有用:比如,监控感兴趣的招聘、按特定参数设定的在售新房、降到某特定价格的衣服等。

Copernic点此在新窗口中查看原始图片是这一领域的有趣的服务—Copernic搜索代理能自动运行已存储的搜索,提供新结果的汇总,还能跟踪网页的变化。来自Connotate Technologies点此在新窗口中查看原始图片的Information Agent Suite挖掘“深层网络”并自动进行变化探测。更多搜索代理的例子,详见读写网(Read/WriteWeb)的一篇文章点此在新窗口中查看原始图片,介绍了Allth.at点此在新窗口中查看原始图片及Swamii点此在新窗口中查看原始图片 和Searchbots.net点此在新窗口中查看原始图片

结论

很明显,Google不会坐以待毙的。正像它把个性化搜索引入到它主要的搜索引擎上,当这些其他的方法成功时,Google将继续把这些方法集成到其主搜索引擎上。比如,垂直专业化搜索是Google肯定会用的强大工具。

将来很可能在Google首页上简单的“搜索框”后面会隐藏着多种专业化搜索引擎。另一方面,试图勉强加入这些数量日益增加的复杂特性,将可能使Google或任何其他主流网络搜索引擎的整体结构非常复杂而难以改变,因此如何取舍将是越来越困难的挑战。在Software Abstractions博客的一篇文章中,我们看一看集成了上述大部分功能的主流搜索引擎点此在新窗口中查看原始图片的概念结构。

二 : 推荐一款Google代理搜索引擎

很久没发文章了,先用这个短篇练练手吧。[www.61k.com]<( ̄︶ ̄)>
经常用chrome的童鞋们都应该知道,如果默认的搜索引擎设置成谷歌的话,那么就要做好经常碰到页面挂掉的准备。

代理搜索 推荐一款Google代理搜索引擎

杯具。。。。

为了这个灰常贰鼻的问题,可能不少童鞋都试过各种方法,比如最开始用到的HTTPS直接绕过,还有用hosts文件绕过的、IPv6曲线救国的,种种方法就不再一一列举了。(因为就算列举出来也没人发稿费。。。::>_<::)我这次说的是另外一种方法,是我无意偶然发现的。
chrome的网上应用商店有一个应用,叫做“搜索拐杖”,还是官方推荐的,作用就是当谷歌被河蟹挡道时,能顺利切换到其它引擎接着搜去。

代理搜索 推荐一款Google代理搜索引擎

就是这个小东西。

开始的时候,我总是习惯性的用必应,因为相对于五毒老祖,它的结果还算可以接受吧。。。后来有一天偶尔试用了一下那个“I'm Google”,我擦嘞惊喜啊~~~~~

代理搜索 推荐一款Google代理搜索引擎

除了这个域名有些别扭之外,其它的都可以接受。。。。

www.61k.com 是嘛?跟地址栏输入以后,跳转出的是一个叫做“浩浩玩世界”的博客。在这个博客里比较显著的位置,有个链接叫做“谷歌复原,疾速体验!”,好吧,继续跟踪打开~~~~~~~~~嗯?前方豁然开朗!

代理搜索 推荐一款Google代理搜索引擎

这就是“谷歌复原”。。。。。

突然想起了点什么,于是,在这个搜索引擎中随便输入了点什么,点搜索,然后打开选项,在“基本设置”的“搜索”中,点击“管理搜索引擎”,

代理搜索 推荐一款Google代理搜索引擎

接着,在弹出的“搜索引擎”窗口中,会发现在“其它搜索引擎”中,多出来一个名为“ www.61k.com ”的搜索引擎,

代理搜索 推荐一款Google代理搜索引擎

就是这个。

鼠标移上去之后,会出现一个“设为默认值”的按钮,点击,它会直接跳到“默认搜索选项”中,好了,关闭所有设置项,随便搜个神马试试吧。效果怎么样?反正“拐杖”短时间内是用不到了~~~

三 : 各大搜索引擎圣诞涂鸦大比拼:还是Google的赞

又是一年圣诞节,到处都是浓浓的节日气氛,各大搜索引擎也纷纷换上了圣诞涂鸦,有趣的是均为动态图。

作为Doodle涂鸦的鼻祖,Google今年圣诞节玩的是萌萌哒主题,而且一口气做了三个,组成了一个系列,还有个彩蛋。 

街头合唱:小L拿着三角铁在等什么?

窗棂雾画:调皮的小E跑到了小L的地盘

围炉夜话:多么温馨的一家子

还有彩蛋:小L终于等到了属于他的表演时刻

百度:独自卖力演奏的圣诞老人

搜狗:圣诞老人开着雪橇飞艇

360:袜子里边有什么?

Bing:微软的最为不同,一堆圣诞水晶球,最中间的在飘雪

四 : 其它搜索引擎没法取代Google的原因

其它搜索引擎没法取代Google的原因- -
                                       

网络服务里没有比搜索更简单的应用了,但结果有时是你想要的,有时却杂草丛生,可难道这是消费者的错吗?


在我忙着试验各种知识工具的时候,Google在4月1日也推出了它的知识饮品(Google Gulp)。这是一款带有4种口味的、能够加快你吸收知识效率的饮料—当你接触它的瓶口时,Google的专利技术Auto-DrinkTM能在瞬间扫描你的30亿个基因数据,通过神经元重组使得你对知识的饥渴在某种程度上得以解除。

这个玩笑的背后隐喻在于,当事物逐渐被数字化之后,我们的需求更加博古通今了。我花了一个晚上,同时装了百度硬盘搜索和Google桌面搜索,Google找到了32569个文件,而百度则找到了54642个文件;显然百度的挖掘能力更令人满意,但Google的反应速度却更快,当我的硬盘资料更新时,它很快便记录了。

消费者是懒惰和好奇的,但这并不是他们的过错。从一个搜索引擎切换到另一个搜索引擎非常费事,然而我们感兴趣的功能却从不出现在相同的软件里。Google推出了视频搜索,还把美国前副总统戈尔也牵扯了进来,摆出一幅讨好DV爱好者的架势,这很好,可是目前还只能望梅解渴;百度跟着就来了(movie.baidu.com),据说那1000个测试帐号甚至被人在拍卖,可是我弄不懂他们到底要做视频搜索还是做电影下载。新浪的iKan视频搜索服务倒是没设置什么障碍,下载色情小电影更容易了。

这是一种消费品位的差别。Google这样的品牌逐渐扩展为人类知识领域数字化的代言人,而国内的追随者们只知道哗众取宠。但Google进入当地市场时还是会和文明正面相撞,他们最新的卫星地图搜索只能覆盖北美,否则那种清晰到街道和建筑物并且页面速度极快的卫星照片很快就会挤占Go2map的市场了。同样,Google将世界五大图书馆藏书数码化的计划也激起了法国总统希拉克的民族自尊心。市场留下的空隙还是很大的,只要厂商们在正确的时候干正确的事。

这些看起来给互联网添油加醋的小玩意其实野心不小。不管是宽带、3G、数字电视还是IPTV,最后的产品都是视频内容。如何把视频内容带到懒惰的消费者面前,这可是继图形界面、鼠标和WWW发明以来的最大挑战之一。据说中国网通要和英国的智能搜索引擎Autonomy合作,这就变得容易理解了,何况Autonomy下的blinkx看起来挺令人心动,我搜索"Yaoming"这个词时,它居然可以找到视频中那些涉及"Yaoming"的关键帧,同时还在网页中流畅的显示出帧的片断,这是真家伙。

从消费者的角度看,"垂直搜索"这种单词没有什么意义,用户感兴趣的只是找到需要的东西,有的时候可以大吃一惊或者乐一乐。商业巨子们盯住的是衍生品市场,盛大泡泡糖可能适合具有粘性的网游顾客,而Google汽水更适合大汗淋漓的知识冲浪者,前者需要点卡,后者要凭原装瓶盖或者推荐才能换取下一瓶。对于这样的逐渐进入大众领域的娱乐品牌来说,技术并不重要,关键是态度。上一年的愚人节,Google推出了1GB的Gmail邮箱,由此引发了互联网业的邮箱大战,东施效颦层出不穷,但这些只抓到了消费的皮毛。这次Google在大开愚人节玩笑的同时,把Gmail悄悄扩充到了2G,但真髓却在这里:Google的目标是提供不受限制的邮箱,它可能是"无穷大+1"—隐喻则是,Google会给你想要的,同时你在Google的国度是自由、不作恶、好奇满足和没有障碍的。
本文标题:google搜索引擎原理-Google以外的17个搜索引擎的创新
本文地址: http://www.61k.com/1058257.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1