网络蜘蛛也称搜索引擎蜘蛛,英文单词是Web Spider,如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛,当网页上存在链接,蜘蛛就会通过这些链接地址寻找网页,一直循环直到你的网站所有页面被抓取完。
搜索引擎要抓取互联网上的所有网页是不大可能的,一方面原因是抓取技术上的瓶颈,另一方面是存储技术和处理技术的问题,所以蜘蛛一般只抓取比较重要的网页,而评价网页重要性主要是依据网页的链接深度。通常网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User -agent,用于标识网络蜘蛛的身份,例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp,在网站上的访问日志记录可以看出哪些搜索引擎的网络蜘蛛来过,及读了多少数据等。