如何设置网站robots协议,有关robots中元标签使用的详细信息

2024/11/01 19:54:05 懒猫导航网已浏览5次

爬行器是目前最常见的网络程序。据统计，目前超过一半的网络流量被爬虫使用。

尽管随处可见爬虫，但这并不意味着这种做法是合理合法的。

当抓取网页时，我们应该让爬虫符合机器人的要求。txt协议。

通常，网站有两种方式声明不希望被爬网程序爬网：第一种方式是向站点的根目录添加一个纯文本文件，例如

https://dh.ak00.cn/dhcj/data/images/a0/6645333a3855dbec6ca78a387b79c1.jpg 。第二种是直接在页面中使用robot的元标记。

接下来，我们将详细介绍机器人的元标签。

如何设置网站robots协议,有关robots中元标签使用的详细信息

有四种类型的标记：index、noindex、follow和nofollow。

使用逗号分隔。

索引指令：表示机器人可以对该页面进行索引；

遵循指令：表示机器人可以遵循此页面的链接；

noindex指令：表示机器人被拒绝索引此页面，但可以跟踪此页面上的链接；

Nofollow指令：拒绝robot跟踪此页面的链接，但该页面可以被索引

根据上述命令，我们有以下四种组合：

<；META NAME=“机器人”CONTENT=“索引，跟随”>；：您可以抓取此页面并继续索引此页面上的其他链接

<；META NAME=“机器人”CONTENT=“无索引，跟随”>；：不允许爬网此页面，但可以爬网此页面上的其他索引链接

<；META NAME=“机器人”CONTENT=“索引，不跟随”>；：您可以爬网此页面，但不允许爬网此页面上的其他索引链接

<；META NAME=“机器人”CONTENT=“无索引，无跟随”>；：不允许爬网此页面或沿此页面的其他索引链接。

这里需要注意的是，两个相反的反义词不应该一起写，例如

<；META NAME=“机器人”CONTENT=“INDEX，NOINDEX”>；

另一点是不允许搜索引擎创建快照。

<；meta name=“robots”content=“noarchive”>；

上述代码限制所有搜索引擎创建网页快照。

如果我们只需要限制一个搜索引擎来创建快照，我们可以如下所示

<；meta name=“Googlebot”content=“noarchive”>；

这样的标记禁止搜索引擎拍摄您网站的快照。