61阅读

禁止搜索引擎收录-搜索引擎收录规则解密:站点为什么被丢弃

发布时间:2018-02-13 所属栏目:禁止搜索引擎抓取

一 : 搜索引擎收录规则解密:站点为什么被丢弃

  排名大幅度波动,时而靠前又时而翻都翻不到,这其中又意味着什么呢?可能是网站被封杀的前兆。那么,为什么会被百度丢弃呢?本文做以下论述:百度收录规则解密。

  1、标题中堆砌与正文无关关键字

  比较常见的问题,搜索引擎强调标题和网站内容的遥相呼应,在标题中涉及到的关键字,而在内容中却并不存在这样相关的关键字,那么可能会被搜索引擎认为是在作弊。反应了比较严格的规则制度,值得思考的是搜索引擎通过什么样的手段来判断内容与标题的相关性呢?难道标题出现的关键字,内容必须要出现吗?如一个例子:“父亲、爸爸、爹爹”可能相近词性全部被归为同类索引,所以才会判断出相关性吧。所以,虽然强调内容与标题的呼应,但是也并非生搬硬套还是有很大变通余地的。

  2、使用自动跳转页面

  主要是针对一些作弊行为所做的恶意跳转,即所打开的页面并非内容希望看到的页面,而是近一步自动转向了其他页面非用户点击的页面行为。

  3、优化过度影响用户体验

  页面中做了过多针对搜索引擎的优化而影响到用户的正常体验所带来负面的效应,那么网站很有可能被百度丢弃。什么事过度的优化呢,如:语意书写完全靠拢搜索引擎,用户却很难读的通。这便是典型的为搜索引擎优化而优化。如何在做优化的同时又不会造成优化过度呢?把自己当做一个网民来看,从用户角度出发,什么样的页面不会引起你的厌恶,却又愿意去接受就对了。但是不同的人可能有不同的看法,比如我觉得网页就不该存在广告,难道站长就应该将广告删除掉吗?以大局出发,分析大众的可认可度进行优化。

  4、已经重复了千百遍的内容

  这一点不做过多重复,多寻找一些赋有心意的东西蜘蛛会更喜欢尝鲜。

  5、内页同页面链接不易过多

  在同一个页面上不要存在过多的链接,在网站地图上把重要的东西列出来,而不是将所有的一些无关紧要的细枝末节全部加进去。链接太多的话,可能导致的结果就是无法被正常收录。

  6、友情链接交换有量无质

  与一些垃圾网站交换友情链接,最后导致的结果就是你自己的站点同样受到负面的影响。有句话说的比较到位“近朱者赤,近墨者黑”就是这个道理,物以群分必然会被“诛灭”。因此,在当有人很人情的时候需要交换友情链接,或者自己交换友情链接的时候要注意审视以下两点:

  A:对方站点在所属领域是否属于高质量站点,不要过度执着的相信一些流量排名,很多都是可以通过作弊获得的,通过自身的分析来做判断。

  B:对方要求友情链接所显示的名称是否与网站名称相称,用一个非常广泛的关键字来做一个内容本就局限的网站超链,很有可能为自身的网站带来不好的负面影响。如:对方网站为“素材网,要求你链的标题为“站长资源”,很明显的不相称”,就要求站长斟酌考虑了,有时候链接必须遵循一个原则:宁缺毋滥!

  在友情链接上不要给搜索引擎一个抛弃你的理由,搜索引擎本就没有许诺过什么样的站点不会被抛弃,即使你做的够好,但是就因为几条外链同样会被丢弃!

  7、结构复杂不合理

  导航导航又导航,为了追寻网站PV,链接层出不穷。蜘蛛都找不到回家的路,又让他如何喜欢上你呢?

  8、搜索引擎并没有承诺过会收录所有的站点,封杀你或者不封杀完全都是搜索引擎自由的选择,我们没理由去干涉。所以,靠人还不如靠自己,站长同志们发展自己最忠实的用户才是出路。

  9、内容高度重复

  如果一个网站大部分的内容都是来自互联网上的高度重复的内容,又怎么不会被搜索引擎所抛弃掉呢?可见以上第4点,第四点论述虽然并非是高度重复,但是无心意的重复着同样的话题,依然会被搜索引擎抛弃。

  本文由二进制网络原创,版权信息(http://www.microimage.com.cn/mall/)搜索引擎严格的规则制定要求站长更严格的遵守网络环境去建站,但是弊端即为“搜索引擎收录规则为自身意志出发,封不封你不由站长说了算。”要做大做广,不免更要思索除搜索引擎之外的出路,目前来看就是培养忠实客户为主要手段。

二 : 网站搜索引擎不收录 解决的方法竟是这个

一、更新维护信息的重要性

更新维护信息的重要性:平时要注意平台的更新,持续有规律的更新,新的信息也要持续不间断的更新,这个对这个平台站点来说,是非常好的,能持续增加百度权重,增加其对搜索引擎的友好度。这样百度蜘蛛也就离不开你的站点了,信息排名就自然得到提升。

二、提升信息被搜索引擎收录技巧小结

1、 标题一定要修改,跟其他网站不同,标题中出现一次主关键词;

2、 内容中自然出现关键词,其中内容第一段和最后一段各出现一次关键词;

3、 文章内容中如果插入图片,图片的旁注出现一次关键词,图片的ALT属性出现关键词;

4、 原创的内容最佳,切忌被多次转载的内容,与其他页面至少30%互异;

5、 最好每个信息配一个图片,信息内容每段开头和结尾一定要修改;

6、 内容描述详细,文字尽量在500字以上,合理分段;

7、 有规律更新,最好是每天;

8、 内容围绕页面关键词展开,与公司主营产品相关;

9、文章中主关键词合理加粗1-3个,突出主关键词;

三、关键词如何选择

1)关键词这块根据经验总结出来。如下:

第1:关键词单发。如:SEO博客

第2:姓名+关键词。如:曾庆平+SEO博客

第3:地区 + 关键词。如:江西+SEO博客

第4:机构 + 关键词。如:江西+SEO小组

第5:品牌 + 关键词。如:月光光+SEO博客

第6:性能 + 关键词。如:培训+SEO博客

第7:用途 + 关键词。如:找工作+SEO博客

下面讲解几个典型组合的特点。

1、地区+关键词

设置这类关键词,首先要知道优化原则上很重要的一条:匹配度原则。比方,你在江西,但是你想信息在深圳的客户也能看到,做深圳+关键词显然能得到更好的排名。(百度搜索会将地方位置考虑在内)市场在哪里?就用那个地区+关键词,使劲的做信息。这样能得到事半功倍效果。此外,这类关键词可以做做本地+关键词之类的组合,本地来的客户意向挺大的,容易成单。

2、型号+关键词

这类关键词一般在工业产品(比如:机械、化工等等)上使用比较多,专业性强。客户表现形式订购意向强,购买量大。

3、品牌+关键词

这类关键词对陌生客户来说,显然没吸引力的,但是对老客户,会起到增加客户黏度的作用。对企业认识提升一个层次,增加企业知名度。

4、性能,材料,用途+关键词

这类关键词是从客户需求角度出发的。想象的空间很大,尽量做,这类关键词很抽象,设置好的话,懂销售心理的话,往往可以卖个好价钱。说不定还可以把白菜的价钱卖成肉价呢!

5、口语式关键词

这类关键词使用搜索很少,但属于精准关键词系列。既然用这类关键词去搜索,本身代表着这类人有需求。设置一些地方需求比较大的当地口语式关键词,相当于设置了黄金关键词(竞争小,购买意向大)。

6、疑问式关键词句子和肯定式关键词句子。

这类关键词是从需求者角度出发,更加贴近客户心理,容易成单。

7、通过工具筛选出来的关键词。

这类关键词本身代表一定的搜索量,是用工具测试出来,比较客观,相对于主观经验设置而言,更加科学,只要多做科学统计,筛选测试。慢慢会整理成一个系统。时间长了的话,对哪类行业关键词重要性就了如指掌了。

作者:江西SEO曾庆平(www.qingpingseo.com)

版权所有。转载时必须以链接形式注明作者和原始出处。请大家尊重原创,珍惜别人的汗水!

三 : 禁止搜索引擎收录网站内容的几种方法

第一种、robots.txt方法

搜索引擎默认的遵守robots.txt协议,创建robots.txt文本文件放至网站根目录下,编辑代码如下:

User-agent: *
Disallow: /

通过以上代码,即可告诉搜索引擎不要抓取采取收录本网站,注意慎用如上代码:这将禁止所有搜索引擎访问网站的任何部分。

如何只禁止百度搜索引擎收录抓取网页

1、编辑robots.txt文件,设计标记为:

User-agent: Baiduspider
Disallow: /

以上robots文件将实现禁止所有来自百度的抓取。

这里说一下百度的user-agent,Baiduspider的user-agent是什么?
百度各个产品使用不同的user-agent:
产品名称 对应user-agent
无线搜索 Baiduspider
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
商务搜索 Baiduspider-ads
网页以及其他搜索 Baiduspider

你可以根据各产品不同的user-agent设置不同的抓取规则,以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/

请注意:Baiduspider-cpro和Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,这个就需要和百度的人联系才能解决了。

如何只禁止Google搜索引擎收录抓取网页,方法如下:

编辑robots.txt文件,设计标记为:

User-agent: googlebot
Disallow: /

编辑robots.txt文件

搜索引擎默认的遵守robots.txt协议

robots.txt文件放在网站根目录下。

举例来说,当搜索引擎访问一个网站时,首先会检查该网站根目录中是否存在robots.txt这个文件,如果搜索引擎找到这个文件,它就会根据这个文件里的内容,来确定它抓取的权限的范围。

User-agent:
该项的值用于描述搜索引擎robot的名字,在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。

Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如”Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow:/help/”则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。


下面举几个robots.txt用法的例子:

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的所有部分

User-agent: Baiduspider
Disallow: /

禁止百度收录全站
User-agent: Googlebot
Disallow: /

禁止Google收录全站

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止除Google外的一切搜索引擎收录全站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
禁止除百度外的一切搜索引擎收录全站

User-agent: *
Disallow: /css/
Disallow: /admin/
禁止所有搜索引擎访问某个目录
(例如禁止根目录下的admin和css)

第二种、网页代码方法


在网站首页代码<head>与</head>之间,加入<meta name="robots" content="noarchive">代码,此标记禁止搜索引擎抓取网站并显示网页快照。
在网站首页代码<head>与</head>之间,加入<meta name="Baiduspider" content="noarchive">即可禁止百度搜索引擎抓取网站并显示网页快照。
在网站首页代码<head>与</head>之间,加入<meta name="googlebot" content="noarchive">即可禁止谷歌搜索引擎抓取网站并显示网页快照。

另外当我们的需求很怪异的时候,比如下面这几种情况:

1. 网站已经加了robots.txt,还能在百度搜索出来?

因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。如果您的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。

2. 希望网站内容被百度索引但不被保存快照,我该怎么做?

Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

希望被百度索引,但是不保存网站快照,如下代码解决:

<meta name="Baiduspider" content="noarchive">
如果要禁止所有的搜索引擎保存你网页的快照,那么代码就是下面的:
<meta name="robots" content="noarchive">

常用的一些代码组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接

本文标题:禁止搜索引擎收录-搜索引擎收录规则解密:站点为什么被丢弃
本文地址: http://www.61k.com/1132584.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1