禁止搜索引擎收录-人肉搜索被立法禁止合理否？

发布时间：2018-02-04 所属栏目：IT业界

一 : 人肉搜索被立法禁止合理否？

　　得去年那个因为在摄影镜头前抽了包天价烟、戴着个高价表而被网民人肉搜索、最终搞到被免职的南京江宁区房产局局长周久耕吗?记得那个吓哭带路去洗手间的小女孩，随后又口吐狂言，最终被人肉搜索而免职的深圳海事局局长林嘉祥吗?有多少人能通过人肉搜索这个号称为“网络世界暴政”的检验?“他成名了，他出事了，因为他被人肉搜索上了。”这是过去几年的经验。

　　然而，在江苏徐州，这种行为今后要受到法律追究了。前天，《徐州市计算机信息系统安全保护条例》经江苏省十一届人大常委会第七次会议通过，将于今年6月1日起生效。该条例对计算机安全等级管理、保护措施、禁止性的行为、法律责任等，作出了详尽规定，特别是对近来社会广泛关注的“人肉搜索”，该条例明确“说不”。

　　人肉搜索威力无穷，从最初搜索那个炸死猫的大学生，到不久前搜索为房市托市的周久耕，网络再一次扮演了道德审判的作用。然而，由于人肉搜索通常都是在网上提供或公开他人或单位信息的行为，而这些信息往往又涉及到个人隐私，所以呼吁禁止的声音也越来越多。去年，全国人大常委会委员朱志刚就提出，人肉搜索泄露公民姓名、家庭住址、个人电话等基本信息，是严重侵犯公民基本权益的行为，建议将人肉搜索行为在刑法中予以规范。

　　诚然，正如江苏省人大法工委有关负责人所说，个人隐私包括个人尤其是女性的年龄，个人或家庭财产及构成，收入状况，住所，任职单位的待遇，特别是人际交往等等，都受法律保护。可是这里的个人通常指向非公共人物，也就是普通老百姓。作为公共人物，比如官员，其个人信息恰恰是要公开的。而由于我们缺少对公共人物的信息公开，像官员财产申报制度迟迟不见动静，在这种背景下，网友不得不借助人肉搜索，对周久耕式官员进行民间的网络式公开。这种公开既是公共利益的需要，因为公共人物往往与公共利益、政治生活联系密切，其个人隐私范畴要比普通老百姓小得多;同时还可以起到网络监督的作用，国家预防腐败局每天都有专人搜集网上舆情，处理核实线索，很多时候也是借助于网民的人肉搜索力量。

　　人肉搜索的泛滥从另一个方面也折射出个人信息保护法的缺位。网民之所以能在网络上搜索到个人隐私类信息，很大程度上缘于国家机或者金融、电信、交通、教育、医疗等单位的信息泄露。一项调查显示，88.8%的人有过信息被泄露的经历。其中，泄露个人信息的前三位机构是电信机构、招聘网站和猎头公司、各类中介机构。因而，与其立法禁止人肉搜索，倒不如让《个人信息保护法》尽快出台，只要从源头堵住个人信息的泄露，所谓人肉搜索也就自然失去威力。

　　其实，徐州市立法禁止人肉搜索也犯了低级的网络知识错误。在徐州不可以人肉搜索，可是如果在徐州以外的其他地方人肉搜索徐州的官员，算不算违法?如果不算，那就根本禁止不了人肉搜索。无可否认，人肉搜索虽然可恶，但这种可恶是建立在公共人物信息不公开、非公共人物信息缺乏保护的基础上。从这个角度而言，立法禁止人肉搜索还须三思而后行，否则它很容易为某些不法之徒、某些贪官提供一个合法的保护伞，让周久耕、林嘉祥之流逃脱正义的监督。

二 : 搜索引擎收录网页的四个阶段分析

网页收录第一阶段：大小通吃
搜索引擎的网页抓取都是采取「大小通吃」的策略，也就是把网页中能发现的链接逐一加入到待抓取URL中，机械性的将新抓取的网页中的URL提取出来，这种方式虽然比较古老，但效果很好，这就是为什么很多站长反应蜘蛛来访问了，但没有收录的原因，这仅仅是第一阶段。

网页收录第二阶段：网页评级
而第二阶段则是对网页的重要性进行评级，PageRank是一种著名的链接分析算法，可以用来衡量网页的重要性，很自然的，站长可以用PageRank的思路来对URL进行排序，这就是各位热衷的「发外链」，据一位朋友了解，在中国「发外链」这个市场每年有上亿元的规模。

爬虫的目的就是去下载网页，但PageRank是个全局性算法，也就是当所有网页有下载完成后，其计算结果才是可靠的。对于中小网站来讲，服务器如果质量不好，如果在抓取过程中，只看到部分内容，在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段：OCIP策略
OCIP策略更像是PageRank算法的改进。在算法开始之前，每个网页都给予相同的「现金」，每当下载某个页面A后，A将自己的「现金」平均分给页面中包含的链接页面，把自己的「现金」清空。这就是为什么导出的链接越少，权重会越高的原因之一。

而对于待抓取的网页，会根据手头拥有的现金多少排序，优先下载现金最充裕的网页，OCIP大致与PageRank思路一致，区别在于：PageRank每次要迭代计算，而OCIP则不需要，所以计算速度远远快于PageRank，适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段：大站优先策略
大站优先的思路很直接，以网站为单位来衡量网页的重要性，对于待抓取的URL队列中的网页，根据所述网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站，其网页质量一般较高，所以这个思路虽然简单，但有一定依据。

实验表明这个算法虽然简单粗暴，但却能收录高质量网页，很有效果。这也是为什么许多网站的内容被转载后，大站却能排到你前面的最重要原因之一。

三 : 防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

下面的这些方法是可以标本兼治的：
1、限制IP地址单位时间的访问次数
分析：没有哪个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这种喜好的，就剩下搜索引擎爬虫和讨厌的采集器了。
弊端：一刀切，这同样会阻止搜索引擎对网站的收录
适用网站：不太依靠搜索引擎的网站
采集器会怎么做：减少单位时间的访问次数，减低采集效率

2、屏蔽ip
分析：通过后台计数器，记录来访者ip和访问频率，人为分析来访记录，屏蔽可疑Ip。
弊端：似乎没什么弊端，就是站长忙了点
适用网站：所有网站，且站长能够知道哪些是google或者百度的机器人
采集器会怎么做：打游击战呗！利用ip代理采集一次换一次，不过会降低采集器的效率和网速(用代理嘛)。

3、利用js加密网页内容
Note:这个方法我没接触过，只是从别处看来
分析：不用分析了，搜索引擎爬虫和采集器通杀
适用网站：极度讨厌搜索引擎和采集器的网站
采集器会这么做：你那么牛，都豁出去了，他就不来采你了

4、网页里隐藏网站版权或者一些随机垃圾文字，这些文字风格写在css文件中
分析：虽然不能防止采集，但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字，因为一般采集器不会同时采集你的css文件，那些文字没了风格，就显示出来了。
适用网站：所有网站
采集器会怎么做：对于版权文字，好办，替换掉。对于随机的垃圾文字，没办法，勤快点了。

5、用户登录才能访问网站内容 *
分析：搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站：极度讨厌搜索引擎，且想阻止大部分采集器的网站
采集器会怎么做：制作拟用户登录提交表单行为的模块

6、利用脚本语言做分页(隐藏分页)
分析：还是那句，搜索引擎爬虫不会针对各种网站的隐藏分页进行分析，这影响搜索引擎对其收录。但是，采集者在编写采集规则时，要分析目标网页代码，懂点脚本知识的人，就会知道分页的真实链接地址。
适用网站：对搜索引擎依赖度不高的网站，还有，采集你的人不懂脚本知识
采集器会怎么做：应该说采集者会怎么做，他反正都要分析你的网页代码，顺便分析你的分页脚本，花不了多少额外时间。

7、防盗链措施 (只允许通过本站页面连接查看，如：Request.ServerVariables(“HTTP_REFERER“) )
分析：asp和php可以通过读取请求的HTTP_REFERER属性，来判断该请求是否来自本网站，从而来限制采集器，同样也限制了搜索引擎爬虫，严重影响搜索引擎对网站部分防盗链内容的收录。
适用网站：不太考虑搜索引擎收录的网站
采集器会怎么做：伪装HTTP_REFERER嘛，不难。

8、全flash、图片或者pdf来呈现网站内容
分析：对搜索引擎爬虫和采集器支持性不好，这个很多懂点seo的人都知道
适用网站：媒体设计类并且不在意搜索引擎收录的网站
采集器会怎么做：不采了，走人

9、网站随机采用不同模版
分析：因为采集器是根据网页结构来定位所需要的内容，一旦先后两次模版更换，采集规则就失效，不错。而且这样对搜索引擎爬虫没影响。
适用网站：动态网站，并且不考虑用户体验。
采集器会怎么做：一个网站模版不可能多于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。如果多于10个模版了，既然目标网站都那么费劲的更换模版，成全他，撤。

10、采用动态不规则的html标签
分析：这个比较变态。考虑到html标签内含空格和不含空格效果是一样的，所以< div >和< div >对于页面显示效果一样，但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机，那么
采集规则就失效了。但是，这对搜索引擎爬虫没多大影响。
适合网站：所有动态且不想遵守网页设计规范的网站。
采集器会怎么做：还是有对策的，现在html cleaner还是很多的，先清理了html标签，然后再写采集规则；应该用采集规则前先清理html标签，还是能够拿到所需数据。

本文标题：禁止搜索引擎收录-人肉搜索被立法禁止合理否？
本文地址： http://www.61k.com/1134581.html

61阅读

禁止搜索引擎收录-人肉搜索被立法禁止合理否？

禁止所有搜索引擎收录

禁止搜索引擎收录

搜索引擎收录店铺