库拉索芦荟 - 芦荟汇聚地!

yodaobot

如何设置robots.txt禁止或只允许搜索引擎抓取特定目录?

蛑辉市聿糠肿ト 注意:网站的robots.txt文件一定要存放在网站的根目录。搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。注意:网站的robots.txt文件一定要存放在网站的根目录。robots.txt文件举例说明禁止所有搜索引擎访问网站的任何内容User-agent: *Disallow: / 禁止所有搜索引擎抓取某些特定目录User-agent: *Disallow: /目录名1/Disallow: /目录名2/Disallow: /目录名3/ 允许访问特定目录中的部分urlUser-agent: *Allow: /158Allow: /joke 禁止访问网站中所有的动态页面User-agent: *Disallow: /*?*仅允许百度抓取网页和gif格式图片,不允许抓取其他格式图片User-agent: BaiduspiderAllow: /*.gif$Disallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.png$Disallow: /*.bmp$ 1.屏蔽404页面Disallow: /404.html 2.屏蔽死链原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。Disallow: /158/ 3.屏蔽动态的相似页面假设以下这两个链接,内容其实差不多。/XXX?123/123.html我们要屏掉/XXX?123 页面,代码如下:Disallow: /XXX? 4.告诉搜索引擎你的sitemap.xml地址具体代码如下:


如何通过IIS日志来跟踪分析搜索引擎蜘蛛

平时我们经常说的多的就是通过分析百度相关域和收录、yahoo反向链接以及PR等等来分析我们网站的权重和网站的好坏。如果是我们的网站出了什么问题,我们做站长的最关心的也就是我们的网站的收录、相关域以及反向链接的变化,在这里我要和大家分享的是IIS日志的分析,下面简单的由我来分析下。IIs(internet information services)日志是我们每个网站都具有的功能,只是我们大部分的站长都不怎么去关心它,还有部分站长用的空间或许没有IIs日志功能,这就需要你去找你的服务器提供商来帮你开通IIS日志功能,只有我们的空间有了这样一个功能后,蜘蛛来到我们的网站了与服务器的对话才会被记录到IIs日志里面,我们通过分析IIS日志就可以知道蜘蛛来我们网站做了什么,爬取和收录了我们的哪些页面,包括蜘蛛来我们网站的爬取次数和地址,哪些是蜘蛛喜欢爬取的,哪些是蜘蛛不喜欢的或者说是无法爬取到的页面,知道这些了我们就能针对蜘蛛爬取的动向来更好的分析和优化我们的网站页面,更清楚我们网站在搜索引擎的动态,那么我们怎么去分析IIS日志?第二,查看蜘蛛的IP地址,这个没多大用处,我们知道就行,IP地址就像平时我们用手机给你的朋友打电话的时候一样,你给你的朋友打电话的同时,你朋友的手机上就会显示你的手机号码是同一个道理,蜘蛛也是一样,它来到了你的网站就会用一个IP来显示它的“手机号码”。200:页面访问成功但不一定会收录下载301:资源永久重定向302:资源临时重定向304:页面未更新,蜘蛛来到了我们的这个页面后发现这个页面我以前来过,这次再来的时候发现这人页面里面的内容完全是和第一次来的时候一样的,IIS日志里面就会返回大量的304。404:访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。