如何设置网站robots协议,有关robots中元标签使用的详细信息
2024/11/01 19:54:05 懒猫导航网 已浏览5次爬行器是目前最常见的网络程序。据统计,目前超过一半的网络流量被爬虫使用。
尽管随处可见爬虫,但这并不意味着这种做法是合理合法的。
当抓取网页时,我们应该让爬虫符合机器人的要求。txt协议。
通常,网站有两种方式声明不希望被爬网程序爬网:第一种方式是向站点的根目录添加一个纯文本文件,例如
https://dh.ak00.cn/dhcj/data/images/a0/6645333a3855dbec6ca78a387b79c1.jpg 。 第二种是直接在页面中使用robot的元标记。
接下来,我们将详细介绍机器人的元标签。
有四种类型的标记:index、noindex、follow和nofollow。
使用逗号分隔。
索引指令:表示机器人可以对该页面进行索引;
遵循指令:表示机器人可以遵循此页面的链接;
noindex指令:表示机器人被拒绝索引此页面,但可以跟踪此页面上的链接;
Nofollow指令:拒绝robot跟踪此页面的链接,但该页面可以被索引
根据上述命令,我们有以下四种组合:
<;META NAME=“机器人”CONTENT=“索引,跟随”>;:您可以抓取此页面并继续索引此页面上的其他链接
<;META NAME=“机器人”CONTENT=“无索引,跟随”>;:不允许爬网此页面,但可以爬网此页面上的其他索引链接
<;META NAME=“机器人”CONTENT=“索引,不跟随”>;:您可以爬网此页面,但不允许爬网此页面上的其他索引链接
<;META NAME=“机器人”CONTENT=“无索引,无跟随”>;:不允许爬网此页面或沿此页面的其他索引链接。
这里需要注意的是,两个相反的反义词不应该一起写,例如
<;META NAME=“机器人”CONTENT=“INDEX,NOINDEX”>;
另一点是不允许搜索引擎创建快照。
<;meta name=“robots”content=“noarchive”>;
上述代码限制所有搜索引擎创建网页快照。
如果我们只需要限制一个搜索引擎来创建快照,我们可以如下所示
<;meta name=“Googlebot”content=“noarchive”>;
这样的标记禁止搜索引擎拍摄您网站的快照。