百度的算法一直改变,这让很多站长在做SEO优化的时候有点犹豫,都想弄明白一件事,如何才能把握好网页更新策略,快速的提高网站的知名度。现在三盈网络(深圳网站建设公司)就谈谈SEO的基础工作-网站页面收录问题,这就需要站长做好robots.txt。
这里就整理一些常见的爬虫程序,不常见的我也不是很了解,毕竟世界上的爬虫程序非常非常多,有好有坏。
一、Google爬虫
算法优秀,反应速度迅速,对内容质量把握优秀,中等强度爬虫程序,对服务器负担不大,推广效果好。
对应user-agent:爬虫名称

Googlebot:google网页爬虫
Googlebot-news:google新闻爬虫
Googlebot-image:google图片爬虫
Googlebot-video:google视频爬虫
Googlebot-mobile:google移动爬虫
Mediapartners-google或Mediapartners(googlebot):google广告爬虫
Adsbot-google:google着陆页质量检测爬虫

二、百度爬虫
算法良好,反应速度迟钝,对内容质量把握一般,高强度爬虫程序,由于算法优化不良问题,对服务器负担较大,本身小问题也挺多(比如:度娘又抽风了),隐私保护恶劣,在百度面前无隐私可言,推广效果好。(然而谁叫这货是国内搜索引擎老大呢)
对应user-agent:爬虫名称
Baiduspider:百度网页爬虫兼移动爬虫
Baiduspider-image:百度图片爬虫
Baiduspider-video:百度视频爬虫
Baiduspider-news:百度新闻爬虫
Baiduspider-favo:百度搜藏爬虫
Baiduspider-cpro:百度联盟爬虫
Baiduspider-ads:百度商务爬虫
三、好搜(即360)爬虫
类似百度早期算法,反应速度迟钝,对内容质量把握不足,高强度爬虫程序,隐私保护跟百度一个尿性,需要翻墙的小伙伴千万要避开这货。
推广效果好,目前好搜的客服给我的印象最好,然而以后就不知道了,毕竟有流氓历史。
对应user-agent:爬虫名称
360spider或haosouspider:好搜网页爬虫兼移动爬虫
360spider-image:好搜图片爬虫
360spider-video:好搜视频爬虫
三、搜狗爬虫
算法恶劣,反应速度极其迟钝,不能良好的把握内容质量,高强度爬虫程序,由于算法奇差,会对页面进行大量反复而又无实际意义的扫描,对服务器负担很大,个人建议直接遮蔽这货,推广效果差!严重的内部点击,个人最讨厌。搜狗本身流量就很少,并且收录慢,抓取压力大,综合性价比非常低。
对应user-agent:爬虫名称
Sogou spider:搜狗综合爬虫
四、新浪爱问爬虫
基本可以当作搜狗爬虫,各项性能恶劣,建议遮蔽,推广效果差。
对应user-agent:爬虫名称
Iaskspider:新浪爱问爬虫
五、有道爬虫
也基本可以当作搜狗爬虫,各项性能恶劣,对服务器负担较搜狗略低,建议遮蔽,推广效果差。
对应user-agent:爬虫名称
YodaoBot:网易有道爬虫
Alexa爬虫
Alexa爬虫,用于检测网站是否做了Alexa排名作弊,如果不关心Alexa排名的可以遮蔽。一般企业站看这个没意思很难有排名的。
对应user-agent:爬虫名称
ia_archiver:Alexa爬虫
六、雅虎爬虫
算法优良,反应速度还可以,高强度爬虫程序,有时候会从多个ip地址启动捉取,算是比较规范的爬虫,推广效果还可以。不过自从雅虎离开大陆,而且在11年11月左右雅虎关闭了站长服务并把数据转移到必应,一般情况建议遮蔽。
对应user-agent:爬虫名称
Yahoo! Slurp:雅虎爬虫
七、必应爬虫
整体性能还不能判断,不过根据最近世界搜索引擎市场份额占比判断,性能应该接近百度甚至比百度要好,国内本土化不足。九秋网站来自必应的流量不少于好搜。
对应user-agent:爬虫名称
Bingbot:必应爬虫
总结:
好了,大概我们常见的爬虫程序就有这些,别的基本可以直接遮蔽了。

