搜索引擎如何抓取网页-Elyn：搜索引擎如何像蜜蜂般选择网站抓取网页

发布时间：2017-08-09 所属栏目：搜索引擎抓取原理

一 : Elyn：搜索引擎如何像蜜蜂般选择网站抓取网页

　　看到一张图片，是一只蜜蜂在一朵盛开的花上采蜜。那么在大自然中蜜蜂采蜜跟搜索引擎抓取网页又有着什么样的关联呢?

　　蜜蜂在采集花蜜时，对花朵是有选择的，一般的含苞或者是那些刚刚开放的花，蜜蜂是不进行采集的，它的采摘对象一般都是一些盛开的花蜜或者分泌物含量比较高的花朵。而搜索引擎也正如蜜蜂采蜜一样，对网站也是有选择性的。

　　搜索引擎比较喜欢那些主题与内容相关性较强的，具有实用性与真实性，内容文章丰满而且有料的网站。对于那些垃圾站，搜索引擎一般不闻不问，有些采用黑帽的网站，搜索引擎直接将之K掉。

　　那么，“蜜蜂”是怎么找到“蜜源”的呢?

　　一般网站刚建站的时候，建立一个robot.txt文件放在站点的根目录下面，内部优化完成之后将网站提交到各个搜索引擎的提交入口。搜索引擎访问网站时查看的第一个文件就是robot.txt。Robots.txt文件告诉蜘蛛程序在服务器上可以看哪些文件。当蜘蛛访问一个站点时，首先检查这个网站的根目录下是否存在robots.txt，如果存在，蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。当然要让搜索引擎找到你的主页，必须要有外链，找到你的主页之后才能根据你网站的结构爬到更深的地方，一般树状结构深受蜘蛛喜爱，并且网页之间要有比较好的连接，从而使得搜索引擎可以沿着链接找到更多的网页。

　　“采蜜”的过程

　　一.搜索引擎看网站的结构设计

　　大家都知道一个网站的结构决定了一个网站的方向与面向的市场有多大，网站的结构是基础的，只有在良好的基础上才能让网站的技术很好的发挥出来。一般搜索引擎喜爱树状的网站结构，能非常好的将我那个站的内容与内容的层次表现出来。而且，用户在访问网站的时候能够更好的找到信息，根据网站内部的一些链接，轻松的获取。

　　二.搜索引擎看网站内容是否是原创及伪原创内容

　　看网站内容是否是从别的网站转载或者直接的复制粘贴，搜索引擎对原创的文章特别的喜爱，如果是发表一些高质量的原创文章，搜索引擎会立马收录。针对不同的人，选择的方向也是不一样的，有些SEOer刚学习不久，可以先进行伪原创，伪原创也是需要技术含量的，伪原创的好，搜索引擎也会很友好的收录。等到对SEO技术有了自己一定的见解，可以写一些比较有技术含量的原创文章。

　　三.搜索引擎看网站更新的频率

　　网站的内容是否有每日更新，更新的内容是否具有质量都是搜索引擎评价一个网站的一部分。网站更新的越频繁，蜘蛛也就爬的越来越勤快，网站的文章收录也会随着增加。

　　四.搜索引擎看网站的权重

　　在搜索引擎看网站是否有被收录，看收录条列有多少，收录越多，说明网站的权重越高，而且如果网站如果持续更新的话，权重也是随着不断增加。

　　本文固定链接: http://www.nbseoer.com/archives/1708

二 : 如何做一个只搜索本网站的引擎？

searchfiles.html
<html>

<head>

<title>撼雪喷云之本网搜索引擎</title>

</head>

<body>

<tr>

<td align="center">请输入条目或关键词<input type="text" name="term" size="15"> <input type="submit" value="搜索"></td>

</tr>

</table>

</form>

</body></html>

searchfiles.asp
<%
SearchTerm = request.form("term")
Novalid=" a b c d e f g h i j k l m n o p q r s t u v w x y z yes no and more"
NovalidResponse ="你输入的内容过于简单,请返回重试!"

if instr(SearchTerm,Novalid)=0 then
Response. Write ("<CENTER><H2>搜索结果</H2></CENTER>")

FolderName= "FolderName"
ShowList()

else
Response.Write NovalidResponse
End if

SearchResponse=""
%>

<%
Sub ShowList()
FolderToCheck = server.mappath("") &"/" & FolderName & "/"
Dim fs, f, f1, fc, s
Set fs = CreateObject("Scripting.FileSystemObject")
Set f = fs.GetFolder(FolderToCheck)
Set fc = f.Files
For Each f1 in fc

Wfile = f1.name
if right(Wfile, 5)=".html" OR right(Wfile, 4)=".htm" then
Wfile2 = FolderToCheck & Wfile
Set fs = CreateObject("Scripting.FileSystemObject")
Set a = fs.OpenTextFile(Wfile2)
ct = a.ReadAll
a.close
ct2=lcase(ct)
SearchTerm2 = lcase(SearchTerm)

if instr(ct2,SearchTerm2)>0 then

if instr(ct,"</title>")>0 then
longitud=instr(ct,"</title>")
longitud=longitud -1
ct=left(ct,longitud)
longitud2=len(ct)
longitud=instr(ct,"<title>")
longitud=longitud2 -longitud -6
ct=right(ct,longitud)
else
if instr(ct,"</title>")>0 then
longitud=instr(ct,"</title>")
longitud=longitud -1
ct=left(ct,longitud)
longitud2=len(ct)
longitud=instr(ct,"<title>")
longitud=longitud2 -longitud -6
ct=right(ct,longitud)
end if
end if

SearchResponse= SearchResponse +"<tr><td>"+ ct + "</td><td ALIGN=CENTER
VALIGN=MIDDLE>" + " <A HREF=" + "/" + FolderName + "/" + Wfile +"> More </A></td></tr>"
longitud=0
ct=""

end if
end if

Next

Response.Write ("<html><head><title>搜索结果</title></head><body BGCOLOR=FFFFFF><CENTER>")

Response.Write ("<TABLE BORDER=0 WIDTH=550><tr><td BGCOLOR=C0C0C0><FONT SIZE=5><B>搜索结果</B></FONT></td></tr></TABLE>")

Response.Write ("<TABLE BORDER=0 WIDTH=550>")
if SearchResponse<>"" then
Response.Write SearchResponse
else
Response.Write ("<tr><td>对不起,没有找到你输入的条目或关键词!</td></tr>")
end if
Response.Write ("</TABLE>")

Response.Write ("<TABLE BORDER=0 WIDTH=550><tr><td BGCOLOR=C0C0C0 ALIGN=RIGHT><FONT SIZE=1>现在调用专业搜索引擎<A HREF= http://www.yahoo.com.cn/ </A></FONT></td></tr></TABLE>")

' 任选一个你喜欢的引擎.

Response.Write ("</CENTER></body></html>")

End Sub
%>

[1]

三 : 如何让网站页面内容不被抓取？五个不让网站页面内容不被抓取的技巧

　　可能有的朋友会奇怪，网站的页面不是让搜索引擎抓的越多越好吗，怎么还会有怎么让网站页面内容不被抓取的想法。

　　首先，一个网站可以分出去的权重是有限，哪怕是Pr10的站，也不可能无限的分权重出去。这权重包括链到别人网站的处链以及自己网站内的内链。

　　外链的话，除非是想坑被链的人。否则外链都是需要让搜索引擎所抓取。这不在本文讨论范围之内。

　　而内链，因为有些网站有不少重复或冗余的内容。比如一些按条件查询的搜索结果。特别是一些B2C站，在专门查询页或在所有产品页面的某个位置内，都可以按产品类型，型号，颜色，大小等进行分类搜索。这些页面虽然对浏览者来说是极大的方便，但对搜索引擎来说，这可是耗费蜘蛛极大的抓取时间，特别是网站页面较多时。同时也会分散页面权重,对SEO不利。

　　另外网站管理登陆页面，备份页面，测试页面等等，也是站长不想让搜索引擎所收录的。

　　所以就有需要让网页的某些内容，或某些页面不被搜索引擎所收录。

　　下面笔者先介绍一下较为有效的几种方法：

　　1.在FLASH展示不想被收录的内容

　　众所周知，搜索引擎对FLASH的内容抓取能力有限，不能完全抓取所有FLASH内的所有内容。但遗憾的是，也不能完全保证FLASH的所有内容都不会被抓取。因为谷歌和Adobe正努力的实现FLASH抓取技术。

　　2.使用robos文件

　　这是暂时最有效的方法，但有个很大的缺点。就是不传出任何的内容及链接。大家知道，在SEO来说比较健康的页面应该是有进有出的。有外链的链入，同时也页面内也需要有链到外部网站的链接，所以robots文件控制，让此页面只进不出，搜索引擎也不知道内容是什么。会把此页定为低质量页面。权重有可能受一定的惩罚。这个多用于网站管理页面，测试页面等。

　　3.使用nofollow标签包裹不想被收录的内容

　　这个方法也不能完全保证不被收录，因为这并不是严格要求遵守的标签。另外，如果有外部网站链向了有nofollow标签的页面。这样就很有可能会被搜索引擎抓取。

　　4.用Meta Noindex标签加上follow标签

　　这个方法可以做到防止收录而且还能传递出权重。要不要传递，看网站建设站长自己的需要。这个方法的缺点是，也是会较大的浪费蜘蛛的抓取页面时间。

　　5.用robots文件的同时在页面上使用iframe标签展示需要搜索引擎收录的内容robots文件可以阻止iframe标签以外的内容被收录。所以，可以把不想收录的内容放到正常页面标签下。而想被收录的内容放在iframe标签内。

　　紧接着，再说一下已经失效的方法，大家以后不要用这些方法了。

　　1.使用表格

　　谷歌和百度早已经能抓取表格用的内容了，无法阻止收录。

　　2.使用Javascript及Ajax技术

　　以现在的技术来说，Ajax和javascript现在的最终运算的结果还是以HTML的形式传给浏览器以作显示，所以这同样无法阻止收录。

　　初学者大多着眼于如何收录，但细节决定成败。怎么让网站页面内容不被抓取也是SEO进阶人士需要注意的。谢谢阅读，希望能帮到大家，请继续关注61阅读，我们会努力分享更多优秀的文章。

本文标题：搜索引擎如何抓取网页-Elyn：搜索引擎如何像蜜蜂般选择网站抓取网页
本文地址： http://www.61k.com/1090937.html

上一篇：临湖亭-临城•息波亭
下一篇： 12306注册了怎么激活-UltraEdit怎么注册激活

61阅读

搜索引擎如何抓取网页-Elyn：搜索引擎如何像蜜蜂般选择网站抓取网页

搜索引擎抓取ajax

搜索引擎如何抓取网页

搜索引擎抓取原理