网络蜘蛛(Web Spider)与网站的交互技术,搜索引擎技术可以从海量的网络信息中获得我们想要的信息,随着网络信息资源的急剧增长其作用越来越显著,而这些技术是通过搜索引擎机器人程序(网路蜘蛛)来实现的。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
什么是网络蜘蛛呢?网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页网络蜘蛛,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。网络蜘蛛,即搜索引擎机器人程序。
网络蜘蛛访问一个网站,通常会去寻找一个特殊的文本文件robots.txt,这个文件如果存在的话通常会放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。它会将网站管理者的意思传递给访问它的网络蜘蛛,告诉网站同意或是禁止某些或是所有蜘蛛访问网站的某个特定的网页或者目录。它的结构和语法都比较简单,一般网络蜘蛛都可以很容易的理解网站的意思。正规的搜索引擎通过读取这个文件可以很方便的理解网站的意思并按照网站管理者的意思来进行友好的访问。但是这个仅仅只是网络的一个约定协议而以,并没有对其制定相应的强迫手段,更没有提出相应的惩罚,所以这个约定对于遵守者是有效的,但对于那些不懂生规矩的蜘蛛是一点作用都没有。
在网页中的Meta字段同样也可以放入和上面文件相同效用的内容,它可以告诉网络蜘蛛这个网页对于网站管理者来说,是需要被收录还是仅仅被浏览或是根本就不允许蜘蛛访问。这个字段通常会放在文档的头部,通过读取这个字段,蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。同样这个规则也是没有特殊限制的,遵守程度完全靠网络蜘蛛的自觉性和网站的设计方式来决定。为了让网站被搜索引擎搜索到,尤其是那些网站所有者希望网络蜘蛛采集的网页,网站的设计者通常会在网站中放入一个叫做sitmap.htm的网页,并将它作为网站的入口文件。(本文出自:宁波SEO、宁波网站优化、宁波网站推广研究中心,地址:http://www.ningboseo.com/SEO-Technology/163.html,转载须注明!)












