61阅读

不让搜索引擎抓取-优化网站让搜索引擎能容易的抓取与收录内容

发布时间:2017-12-04 所属栏目:搜索引擎如何抓取网页

一 : 优化网站让搜索引擎能容易的抓取与收录内容

很多有关于网站结构、抓取与收录、甚至是排名的问题都可以被归结为一个中心问题,那就是:搜索引擎能够多么容易的抓取您的网站?我们在最近的几次活动上都谈到过这个话题,下面您将会看到我们关于这个问题的演讲内容以及要点概括。

网络世界极其庞大;每时每刻都在产生新的内容。Google 本身的资源是有限的,当面对几近无穷无尽的网络内容的时候,Googlebot 只能找到和抓取其中一定比例的内容。然后,在我们已经抓取到的内容中,我们也只能索引其中的一部分。

URLs 就像网站和搜索引擎抓取工具之间的桥梁: 为了能够抓取到您网站的内容,抓取工具需要能够找到并跨越这些桥梁(也就是找到并抓取您的URLs)。如果您的URLs很复杂或冗长,抓取工具不得不需要反复花时间去跟踪这些网址;如果您的URLs很规整并且直接指向您的独特内容,抓取工具就可以把精力放在了解您的内容上,而不是白白花在抓取空网页或被不同的URLs指引却最终只是抓取到了相同的重复内容。

在上面的幻灯片上,您可以看到一些我们应当避免的反例--这些都是现实中存在的URL例子(尽管他们的名称由于保护隐私的原因已经被替换了),这些例子包括被黑的URL和编码,冗余的参数伪装成URL路径的一部分,无限的抓取空间,等等。您还可以找到帮助您理顺这些网址迷宫和帮助抓取工具更快更好地找到您的内容的一些建议,主要包括:

去除URL中的用户相关参数。那些不会对网页内容产生影响的URL中的参数——例如session ID或者排序参数——是可以从URL中去除的,并被cookie记录的。通过将这些信息加入cookie,然后301重定向至一个“干净”的URL,你可以保持原有的内容,并减少多个URL指向同一内容的情况。

控制无限空间。你的网站上是否有一个日历表,上面的链接指向无数个过去和将来的日期(每一个链接地址都独一无二)?你的网页地址是否在加入一个&page=3563的参数之后,仍然可以返回200代码,哪怕根本没有这么多页?如果是这样的话,你的网站上就出现了所谓的“无限空间”,这种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”,参考这里的一些技巧吧。

阻止Google爬虫抓取他们不能处理的页面。通过使用你的robots.txt 文件,你可以阻止你的登录页面,联系方式,购物车以及其他一些爬虫不能处理的页面被抓取。(爬虫是以他的吝啬和害羞而著名,所以一般他们不会自己 “往购物车里添加货物” 或者 “联系我们”)。通过这种方式,你可以让爬虫花费更多的时间抓取你的网站上他们能够处理的内容。

一人一票。 一个 URL, 一段内容。在理想的世界里,URL和内容之间有着一对一的对应:每一个URL会对应一段独特的内容,而每一段内容只能通过唯一的一个URL访问。越接近这样的理想状况,你的网站会越容易被抓取和收录。如果你的内容管理系统或者目前的网站建立让它实现起来比较困难,你可以尝试使用rel=canonical元素去设定你想用的URL去指示某个特定的内容。

原文: Optimize your crawling & indexing

注:相关网站建设技巧阅读请移步到建站教程频道。

二 : 让你的wordpress博客备受搜索引擎青睐

第一个 wordpress SEO 技巧:给你的 RSS 加上 nofollow 标签。

一般而言,我们并不需要蜘蛛去抓取 RSS。google 已经会自动停止抓取,但其他的搜索引擎则未必。

第二个 wordpress SEO 技巧:给你的存档页和标签加上加上 nofollow 标签。

存档页和标签都会让同一篇文章出现在很多个地方,这可能会给搜索引擎造成重复内容的错觉。因此,有必要给他们加上 nofollow 标签。

第三个 wordpress SEO 技巧:把文章标题的标签换成 H1。

一般而言,很多 wordpress 模板都习惯于把博客的标题标签设为 H1,而把文章的标题设为H2。但对于博客而言,文章的标题更多时候应该要重于博客标题。

第四个 wordpress SEO 技巧:给小图片加上 Title 和 ALT 标签。

大图我们可能会注意,一些缩略图可能会经常忘记加上 Title 和 ALT 标签,为了让搜索引擎更好的了解这张图片的内容,同时也是为了增加整个文章的关键字密度,还是有必要加上的。

第五个 wordpress SEO 技巧:测试载入速度,控制在三秒以内。

当然,博客的载入速度很多时候取决与服务器的性能和代码的结构。你应该尽可能的优化你的网页,让你的网页载入速度越快越好。

对于wordpress 而言,更多的时候可能是实现模板的静态化以及使用一些缓存插件。

第六个 wordpress SEO 技巧:去除标题里面任何多余的符号。

wordpress 默认的标题是 博客标题 >> archives >> 文章标题,应去除他们。

第七个 wordpress SEO 技巧:把博客名的标签从 H2 改为 H2 甚至更低一级的 H3。

一般的wordpress 模板都是把博客名的标签定为 H1,而且是在任何一个页面都如此。我们需要把它的重要性调低,标签设为 H2 或者 H3。记得同时修改CSS,让整个页面看起来协调一些。

第八个 wordpress SEO 技巧:优化 404 错误页。

默认的404错误页一般比较简单,而且比较糟糕,我们可以自定义 404 页面。博客联盟比较喜欢在 404 页面添加一些排行榜性质的内容,例如博客联盟上面访问量最多的文章,评论最多的文章,或者是自己认为值得推荐他们一读的文章,尽可能的把进入 404 页面的读者引导到其他的一些页面,而不是直接关闭。

当然,最好的办法就是尽可能减少死链和坏链,不给404页面露脸的机会。

第九个 wordpress SEO 技巧:确保你的 meta 描述是独一无二的,而不仅仅是简单复制正文里面的内容。

这一点很多 blogger 都会忽略,如果你使用了 All In One SEO 插件的话,你摘要里面的内容会自动列为 meta 描述内容。摘要部分尽可能的简单,而且使用一些总结性的内容。

三 : 搜索引擎诱饵:怎么让度娘狠抓网站内容

  做SEO就是为了关键词有排名,关键词是承载在网页里面的,所以如果网页没有被搜索引擎收录,一切都 无从谈起。因此,收录是一个最重要的基础。网上关于如何提高网站收录量的文章一定是铺天盖地的。

  关于提升收录量的技巧,网上已经说得够多了。今天不打算谈这方面的内容,倒想说说关于收录的理论 性的东西。

  首先,我们需要摸清搜索引擎的大体习性,大概了解它们喜欢什么样的内容。很多人都会说现在的搜索 引擎最喜欢原创内容,对原创的渴求到了嗜血的程度。其实这只是一种片面的理解。网上原创的内容很 多,尤其越来越多的开放社交平台兴起之后,原创内容就像洪水猛兽一般在互联网上泛滥。但是这些信 息大部分都是不能得到百度的展现的,因为它们没有媒体属性,不是对大众有用的信息。

  比如,一个人某天失恋了,非常伤心,在自己的个人博客上发表了一篇非常抒情的日志,即使写得很动 人,也是纯原创,但是只有主人公圈子的人才会看得懂,圈子之外的人,根本看不懂,除非你是一个名 人。这种内容每天在互联网上泛滥成灾,纯原创,但是由于没有大众影响价值,不会被搜索引擎抓取进 而展现出来。当然也有些平台是使用了robots协议屏蔽百度的,但是更多的可能是百度自己选择不抓取 的。

  因此,百度喜欢的不是单纯的原创,它最喜欢的是那种原创并且有大众影响力的东西。原创体现的是信 息的稀缺性,只有信息稀缺,百度才会觉得新鲜,那些已经被说烂的东西百度是非常反感的。在保证原 创的基础上,近一步就是追求信息的大众影响力。

  具有大众影响力的内容说白了就是大家都喜欢看甚至参与讨论的话题,这就要求内容要有一定的流行度 。名人明星、国家大事、电影电视等具有大众讨论价值的新闻就符合这种要求。这些东西都是大众一直 关注的,从他们衍生出来的新闻事件非常容易流传开来。比如前面的李开复老师得癌症的事情,传得沸 沸扬扬的,就是大家关注并且热议的事情。

  对于这种热点信息,大家不要以为它们传播得很快就觉得达到了饱和,搜索引擎不再感兴趣。相反,这 种信息搜索引擎是欲求不止的,刚出来的热点信息并没有经过大量的筛选和沉淀,无论怎么改造,都处 于“新鲜滚热辣”的状态,可塑性很强,搜索引擎会像新闻记者一样集中注意力盯紧这部分信息,一旦 有不同的版本出来,哪怕是稍微有点改动的,都会马上收集起来,经过自己后台处理之后再展现在大众 面前。说白了,这样的内容就容易收录。

  因此,要想自己的内容容易被收录,首要考虑的原则就是围绕热点来写。当下大众关注什么,你就把你 的内容跟热点话题结合起来。这种结合,哪怕是文章里面提到,都会被搜索引擎注意。当然在标题、首 段等关键位置提到就更容易引起注意了。结合热点的内容是不需要太多改造的,轻微改动都可能被百度 判定为新版本,因为热点内容没有经过信息筛选和沉淀,搜索引擎就没有参考了。

  结合热点发布网站内容,不需要吐血写原创都容易被搜索引擎狠狠抓取,这是值得大家参考的方法。至 于怎么改造热点信息,可能是最考验大家的地方。

  文章版权:数据酷:www.shujucool.com 最酷的信息图就在这里。

四 : 让搜索引擎算法更新见鬼去吧

  作为英文网站推广员,我们在不断努力跟上多变的搜索引擎算法更新。

  英文网站推广员需要不断更新自我知识体系,才能持续创造价值,这已经成为一个传统。之前百度宣布绿萝更新、星火计划、谷歌熊猫更新和企鹅更新,很多朋友眼睁睁看着自己的网站排名下跌,却无计可施。这个时候如果想通过某种优化方法,一下子扭转乾坤,明显是不可能的。多年来,海外推广的方式包括目录提交,文章营销,博客,和社会化媒体宣传,都各有所长,并且在很长一段时间内都将继续发挥作用。但新形势同样需要新变化,既然是靠搜索引擎和互联网混饭吃,就不得不适应变化,纠正过时的陈旧推广策略,尤其是要逐步放弃以前一些似乎是真理的东西。这是很痛苦,但却是必须的。

  我们是不是应该思考一个问题:如果外贸企业仅仅依靠搜索引擎排名,那么每次更新到来都会受伤。这种提心吊胆的日子,是不是一个英文网站推广员不能承受的生命之重呢?

  ——事实是,你不必要这么被动。不必变成一株随着搜索引擎算法更新东倒西歪的墙头草。你只需要做到一点——不理会搜索引擎更新。听起来很奇怪,不是么?其实问题的本质在于:搜索引擎不等于互联网。

  刚刚我提到,不要理会算法更新,不是说你已经脱离了搜索引擎。要知道,事物总是否定之否定曲折中前进的,迟早有一天,钟摆会晃动到你这一侧,搜索引擎会重新青睐你的网站,因为你提供了有价值的内容,好的排名会慢慢回到你身边。我们设想一下一个没有搜索引擎的世界,难道我们就不用做生意了么?难道我们就不去推广业务了么?海外网络推广专家珍妮弗·莱科克说:“我认为,如果没有谷歌这根拐杖,你可能会更专注于完善你的业务模式,找到更强有力的营销方法。这意味着,搜索引擎是用来帮助你提升业务的,而不应该成为你的业务风险。”

  更加重视网站内容、网站更新、用户体验,从而增加用户粘性,提升品牌知名度,鼓励访客互动,改善转化率,这些才是实实在在的网站资产。一个或有或无的排名,实际上只是成功的一小部分。一个是本,一个是末,孰重孰轻,相信大多数英文网站推广员都有清晰的人士。排名是一个KPI,但绝对不是最重要的KPI。因为网站流量有多种获取方式,甚至是关键词广告都可以带来很多优质的点击,不能仅仅依靠搜索引擎排名,好排名只是一个副产品。

  国外的珍妮弗·莱科克做过一个实验,看看完全摒弃搜索引擎,是否能够通过网络成功销售。结论非常鼓舞人心:在没有搜索引擎的情况下,小企业能够更好的专注于业务本身,并有效的利用互联网赚到钱。在这个实验中:珍妮弗的业务模式是通过网络卖日本便当,这是一个简单的业务模式,竞争也很大,搜索引擎上有很多类似的公司。首先珍妮弗建立一个wordprss博客。然后她干了一件让所有搜索优化人员都瞋目结舌的事情——屏蔽了Google、bing等蜘蛛,是的,封闭了所有的蜘蛛。

  让国内的众多SEOer看来,这简直就是疯了。但珍妮弗不这么想,她有一个明确的经营理念,该理念就是“不干一锤子买卖、赚一笔就跑的事情”。珍妮弗觉得办公社区中,有很多人喜欢吃日本便当,这是他们喜欢并愿意付出金钱的产品,她提供优质的日本便当,但不是最便宜的产品。所以珍妮弗的博客非常简洁,她在博客中鼓励客户参与讨论,使网站看起来有一定程度的更新。她到社区参与讨论,在社区中她非常谨慎的提供自己网站的链接,吸引别人通过社会化媒体来到她的网店,虽然有些社区不欢迎这样,但足够的谦卑和谨慎,让她的小站访问量逐步变大。

  珍妮弗不满足于此,她很快发现单一的提供产品销售,是无法留住用户的,必须找到增加用户粘性的东西。她扩充了博客的内容,在博客上提供便当制作方法、精美的图片以及其他有价值的饮食信息。她的网站内容开始产生价值,更多人关注她的小站,进而关注她提供的服务。当她在社区做软文广告的时候,即使有人指出这是广告,马上一大堆朋友自发的跑出来维护她,大家自动自觉的帮她宣传,这一切都说明了用户忠诚度已经到了很高的地步。

  那么这个生意珍妮弗做了多长时间呢?————六年,整整六年,现在还在做。2007年,珍妮弗使用flikr,和LiveJournal来提升自己的生意。Titter和Facebook一出现,她也紧随其后,在上面建立了自己的营销网络。所以,内容营销强大而有效,即使没有外链没有搜索引擎排名,一样可以通过网络赚钱。

  所以专注于你的生意以及相关人群社区,而不是排名和链接,你也会成功。你的圈子是你成功的条件,而不是一个简单的关键词排名。今天我们提到的内容营销,其实不是什么新概念。从历史上的BBS、到博客、到SNS、到微博、到微信都提供了内容营销的阵地。当你每天苦逼的发外链、查看收录数量的时候,是不是已经逐渐偏离了生意的初衷?偏离了为用户提供价值的核心理念。你要关注的是人——活生生有思想的人,而不是简单的排名和外链。

  最后总结一下:排名不等于利润,客户才等于利润。通过优质的内容与互动,吸引用户,创造业绩。让一切算法更新见鬼去吧。本文首发于亿推推广 http://www.tuiguang123.com ,欢迎转载。如能保留链接的话,叩谢顿首。

五 : 英媒:搜索引擎让人高估自己的智力

QQ截图20150401170809

英媒:搜索引擎让人高估自己的智力

【TechWeb报道】4月1日消息,据国外媒体报道,耶鲁大学的心理学家研究发现,谷歌,雅虎之类的搜索引擎会让人高估自己的智力,让人产生世界上的知识尽在自己指尖的幻觉。

为了判断估测网络搜索给人带来的心理影响,有1000多名学生参加了一系列实验。

在一项实验中,一拨学生通过互联网获取信息学习某一课题,另一拨学生通过看书,请教老师之类的传统方法学习同一课题,但是通过互联网学习的学生觉得自己的知识水平要远远高于后者。他们觉得自己的脑袋更灵光。

在另一项测验中,两拨学生先是分别通过网络和传统方法学习同一课题,之后测试的是另一个完全不相关的课题。但是,通过互联网学习的学生还是认为自己的知识水平要高得多,即使他们不被允许搜索答案。

耶鲁大学的心理学家Matthew Fisher表示,网络搜索会让人混淆自己的知识水平和外部资源提供的信息,当人断开互联网后,会发现自己的认知有许多是不准确的。

本文标题:不让搜索引擎抓取-优化网站让搜索引擎能容易的抓取与收录内容
本文地址: http://www.61k.com/1062704.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1