谷歌为何开源robots.txt？这家搜索巨头有怎样的打算？

2022-03-16科技314

外媒 VentureBeat 报道称，谷歌希望将发展数十年的 robots.txt 解析器开源，以推动 REP 成为搜索引擎爬虫的行业标准。

机器人排除协议（REP）是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准，几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

（截图 via VentureBeat）

比如谷歌爬虫（Googlebot）就会在索引某个网站时扫描 robots.txt 文件，以确定其应该忽略掉哪些部分。如果根目录中未包含该文件，那搜索引擎就会默认索引（index）全站内容。

值得一提的是，，该文件不仅可以用于提供直接的爬虫索引，还可以被用来填充一些关键字，以实现“搜索引擎优化”（SEO）。此外，并非所有抓取工具都会严格遵从 robots.txt 文件。

比如几年前，互联网档案光就选择了为其“时光机”（Wayback Machine）归档工具提供支持，另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是，即便 REP 已经成为了默认的实施标准，但它实际上从未成为真正的互联网标准，正如互联网工程任务组（IETF - 一家非营利性开放标注组织）所定义的那样。

为了推动这项转变，谷歌正在积极参与行动。这家搜索巨头表示，当前的 REP 可以被“解释”，但并不总是涵盖边缘化的案例。

作为补充，谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时，爬虫该如何处理“服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则？

谷歌在一篇博客文章中写到：“对于网站所有者来说，这是一项极具挑战性的问题。因为模糊的事实标准，让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验，而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作，向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌，但却是提供了一些指引。比如任何基于 URI 的传输协议，都可以适用 robots.txt 。且其不再局限于。

据悉，开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小，可确保每个连接的打开时间不会太长，从而减轻不必要的服务器压力。

另外，新的最大缓存时间被设置为 24 小时（或可用的缓存指令值），使得网站所有者能够随时灵活地更新他们的 robots.txt，且爬虫不会因此而让网站超载。

例如，在文件由于服务器故障而变得不可用时，则会在相当长的时间段内不再检索该网站。

这里需要点明的是，抓取工具可以用不同的方式去解析 robots.txt 文件中的说明，这可能会导致网站所有者的混淆。

为此，谷歌特地推出了 C++ 库，其支持 Googlebot 在 GitHub 上给出的解析和匹配系统，以供任何人访问。

根据 GitHub 上的发布说明，Google 希望开发者构建自己的解析器，以更好地反映 Google 的 robots.txt 文件的解析和匹配。

你可能想看：

为什么"授权""受权"的"权"是"权力"而不是"权利"？

因为‘\0’是字符串结束符号，所以“；现在，使用线性文时遇到空格而不结束，每个字符串的最后默认有一个终止符，终止符在‘\0’，char str[]=“12345”‘之后是’\0‘表示该字符是最后的，任...

怎样在BIOS中设置turboboost？

如何在BIOS中设置涡轮boost：1、先进入BIOS，在开机的页面上一定要观察页面的英语。此时您需要记住进入BIOS设置的键盘按钮。在例图中返回键(具体的键位是个人计算机显示标准)，2、进入BIOS...

如何开启Turbo Boost？

完整的涡轮加速技术，开启Turbo Boost和C-STATE，开启完整功能的涡轮加速技术，选项同时设置为开启，C-STATE是CPU的电源管理功能，它根据CPU的负载管理CPU的能耗，并与涡轮加速技...

什么是turboboost？

该技术可理解为自动超频，CPU根据当前任务量自动调整CPU主频，处理器自动加速到合适频率，处理器自动提升执行主频提速，对性能要求更高的多任务处理更容易，通过智能化处理器速度，可以根据应用需求最大限度地...

神医帝妃：且付深情共白头txt？

然后付出了深情的陪伴白头：她是轰动医学界的天才医生，也是父母去世、无依无靠的孤女，他是驰名天下的战神王爷，金风玉露一遇，世上就会赢无数……。我的林中九，不是一般的女人，不知道要写什么，愿我为你在火中

求《网游之邪龙逆天》未删完整无错的txt？

一定要诚恳,加上这人的确可以帮了这忙,多说几次应该是可以的,你不要太刻意作什么,现在不流行假惺惺的做事.而且一定记住不要过河拆桥,以后办事就好说了,人都是这样.你要学会作情感投资.现在人喜欢玩感情这东...

网游之妖女不要抛弃我txt？

讲述了莫可为了纪念上一段恋情，再人游戏便成了一个擅于战斗的刺客，自此成为服务器头号妖女，突然一只大神冒出来，明面诱惑她下嫁陪他打架，一场聚会让莫可发现，原来她那位夫君大人竟然是自己最佳损友的最佳死党，...

Dota2的烈火和海洋将要合并成一支队伍，网友称"ob海鲜团的钱白花了"，你觉得呢？

可能大家最近也看到了烈火和海洋要合并的消息，队伍没有成绩，如果两个队都撤了肯定要被网友喷成渣，想自己办战队，个人认为对OB是没啥影响，但节奏肯定会有，YYF和zhou的肯定要被冲“当时出了龙神办战队的...

安卓系统是开源的，开源是啥意思？

而且还应把所修改产品返回给开源软件，比如谷歌开发了安卓系统最基础的框架了，华为等手机厂家可以利用其源代码开发修改升级匹配自身的系统，但是因为基础源代码来自于安卓（所以我们的手机开机时一般都会体现POW...

turbo什么意思，turbo c什么意思，Turbo Boost自动超频技术什么意思？

涡轮增压“涡轮增压”Turbo C是早期计算机的编程语言，早期的CPU采用80486以前的计算机有涡轮按钮，是倍频按钮，按Turbo显示，CPU按两倍的主频动作。“现在Turbo Boost自动频率超...

Chinese people began to use mobilephones probably------.

应该选Ｂ，句子翻译为＂中国人可能在１９９２年开始使用的手机＂，选Ａ句子不通，在１９９２年之前中国人开始使用手机，语义不通，应该用完成时态，就和句子不符了，我觉得A好像也对，指从1992年到现在的一段时...

为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]为何老不涨粉[伤心]感觉严重的自尊心受挫？

2、朋友互粉——同学、同事、朋友快把他们挖出来互粉；系统自动屏蔽了您粉丝/关注中的垃圾广告及违规用户；如果您需要如实显示粉丝/关注数量：请点击如下链接进行修改：和明星擦边借用明星的名气增加别人找你的机...

分享给朋友：

返回列表

上一篇：换号了，给别人发短信说，我的新号********* 。敬请惠存。正确吗？

下一篇：移动互联网拥有哪些特性？

搜搜屋

谷歌为何开源robots.txt？这家搜索巨头有怎样的打算？

Copyright © sosowu.com 蜀ICP备19033681号-2

Powered By Z-BlogPHP. Theme by TOYEAN.

搜搜屋

谷歌为何开源robots.txt？这家搜索巨头有怎样的打算？

Copyright © sosowu.com 蜀ICP备19033681号-2 var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?1b48f9e2f6e74b473e5b0aa6408fc5ab"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

Powered By Z-BlogPHP. Theme by TOYEAN.

Copyright © sosowu.com 蜀ICP备19033681号-2