买链接、卖链接
让您买链无忧、省心又省力

如何配置网站robots.txt文件,了解robots.txt协议的设置技巧

机器人协议

百度百科:机器人协议,亦称robots.txt(统一小写),系存放于网站根目录之下的ASCII编码文本文件。它通常指示网络搜索引擎的巡游器(又称网络爬虫),本网站中哪些内容不宜被巡游器获取,哪些内容则可被巡游器获取。鉴于某些系统中的URL对大小写敏感,故robots.txt文件名应统一采用小写。robots.txt应置于网站根目录之下。若需单独规定搜索引擎巡游器访问子目录时的行为,则可将自定义设置并入根目录下的robots.txt,或利用robots元数据(Metadata,又称元数据)。

简言之,机器人协议乃一君子协议,由网站所有者编写,旨在告知搜索引擎本网站下的哪些内容可被抓取、收录,哪些内容则不可被抓取和收录。

机器人协议属通用共识,通常大型、有资质的搜索引擎均会遵守。机器人协议旨在保护网站所有者不愿公开于网络的内容,以保障个人隐私。然而,机器人协议中规定的内容仍可被获取,只是大家默认遵守该协议,不获取协议内的内容。

机器人协议为一纯文本文件,通常是搜索引擎首先抓取的文件。搜索引擎通过该文件了解网站所有者不愿被收录的内容,从而进行有选择的抓取和收录。

机器人协议命名为robots.txt,置于网站根目录之下。

简明的机器人协议如下:

其中 User-agent代表需遵守该协议的搜索引擎,若为通配符‘*’,则代表所有搜索引擎均需遵守该协议。

Disallow代表不允许搜索引擎访问的内容,/?代表不允许搜索引擎访问所有包含?的路径内容,/代表不允许搜索引擎访问该网站所有内容。

在实际应用中,网站所有者根据个人情况编写该文件,机器人协议的编写将影响网站的收录情况及搜索引擎的效率。

机器人协议的介绍

Robots简而言之,即搜索引擎与我们的网站之间的一种协议,用于规定搜索引擎可抓取和禁止抓取的内容。robots基本语法符号:/、*、$

/在允许和禁止的文件和文件夹前使用;

*通配符,可匹配所有英文字符包括数字0;

$表示结束符,用于屏蔽图片时使用。具体的操作过程及写法注意事项如图所示。如若不清楚,可直接关注。

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。链接买卖平台 » 如何配置网站robots.txt文件,了解robots.txt协议的设置技巧

分享到: 生成海报