谷歌为何开源robots.txt?这家搜索巨头有怎样的打算?

2022-03-16科技255

外媒 VentureBeat 报道称,谷歌希望将发展数十年的 robots.txt 解析器开源,以推动 REP 成为搜索引擎爬虫的行业标准。

机器人排除协议(REP)是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准,几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

(截图 via VentureBeat)

比如谷歌爬虫(Googlebot)就会在索引某个网站时扫描 robots.txt 文件,以确定其应该忽略掉哪些部分。如果根目录中未包含该文件,那搜索引擎就会默认索引(index)全站内容。

值得一提的是,,该文件不仅可以用于提供直接的爬虫索引,还可以被用来填充一些关键字,以实现“搜索引擎优化”(SEO)。此外,并非所有抓取工具都会严格遵从 robots.txt 文件。

比如几年前,互联网档案光就选择了为其“时光机”(Wayback Machine)归档工具提供支持,另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是,即便 REP 已经成为了默认的实施标准,但它实际上从未成为真正的互联网标准,正如互联网工程任务组(IETF - 一家非营利性开放标注组织)所定义的那样。

为了推动这项转变,谷歌正在积极参与行动。这家搜索巨头表示,当前的 REP 可以被“解释”,但并不总是涵盖边缘化的案例。

作为补充,谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时,爬虫该如何处理“服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则?

谷歌在一篇博客文章中写到:“对于网站所有者来说,这是一项极具挑战性的问题。因为模糊的事实标准,让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验,而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作,向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌,但却是提供了一些指引。比如任何基于 URI 的传输协议,都可以适用 robots.txt 。且其不再局限于 。

据悉,开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小,可确保每个连接的打开时间不会太长,从而减轻不必要的服务器压力。

另外,新的最大缓存时间被设置为 24 小时(或可用的缓存指令值),使得网站所有者能够随时灵活地更新他们的 robots.txt,且爬虫不会因此而让网站超载。

例如,在 文件由于服务器故障而变得不可用时,则会在相当长的时间段内不再检索该网站。

这里需要点明的是,抓取工具可以用不同的方式去解析 robots.txt 文件中的说明,这可能会导致网站所有者的混淆。

为此,谷歌特地推出了 C++ 库,其支持 Googlebot 在 GitHub 上给出的解析和匹配系统,以供任何人访问。

根据 GitHub 上的发布说明,Google 希望开发者构建自己的解析器,以更好地反映 Google 的 robots.txt 文件的解析和匹配。

相关文章

马拉多纳和罗纳尔多地位差别有多大?

《国际商务时报》2014年排出的足球史上50大巨星,前十分别是: 1.贝利;2.梅西;3.马拉多纳;4.克鲁伊夫;5.齐达内;6.贝肯鲍尔;7.C罗;8.迪斯蒂法诺;9.费伦茨·普斯卡什;10.加林查。 大罗排在第19。 《露天看台》网站2011年排出的足球百大巨星,前十分别是: 1.克鲁伊夫;2....

android可以将jar包放在jnilibs目录下吗?

1先在Android studio导入一个项目,然后进入到项目中,依次进入到app>>src>>main下。2在main的文件下进行创建一个jinlibs,然后选中main的文件,进行右键,弹出框中点击“new”,移动下一级菜单中选择“directory”。3对创建的文件夹进...

[游戏]网站终于完成了,完全免费的kjava游戏下载网站!

搞了几年的技术工作,一时心血来潮想做个网站,算是对自己有个交待了,^_^    我想打造一个免费的kjavaportal,目标就是将免费手机游戏进行到底,并且网站上只有kjava的信息,不像其他内容混杂的网站,欢迎大家访问浏览,希望大家能给出一些意见,谢谢。    祝大家新年快乐!  ...

有谁了解天涯论坛吗?为什么感觉其没落了?

不止是天涯论坛不行了, 其实翻翻过去的那一批论坛,几乎没几个还在的。 猫扑论坛还记得吗?当年也是红极一时,现在有几个人听说过? 17173游戏论坛,当年也红火过。 这类论坛有天然的缺陷:不能过滤资讯。 现在小一辈的人不知道当年上网的人是怎么想的,我是1999年开始上网,1999年的网站是什么样的,估...

手机根目录下的的文件夹和文件是干什么的?

作用: 1.res:资源文件。 2.drawable:布局文件。 3.layout:布局文件。 4.anim:动画效果文件。 5.values:取值、字符串等。 6.src:代码,至于src内部的目录名称,取决于具体项目结构。 7.libs:库文件。 安卓手机: 安卓(Android)...

论坛都在哪里找?玩什么论坛?

作为一个从事互联网网站建设和各种论坛搭建工作多年的我来说,我想这些找论坛的办法应该合适你,我自己曾经也做有很多个论坛,包括网站程序开发、电子技术应用论坛、各种数码论坛、汽车论坛等等,我自己当初最出名的一个论坛国内外好多找技术资料的网友都来,不过现在都相继关闭了,成为过去,你想找论坛,玩论坛,我可以稍...

怎么在网上报警?

网上举报是指举报人通过因特网,将所要举报的网络违法案件线索直接在举报网站填写举报表单或写成电子邮件进行举报的一种方式。公民上网举报,应该注意按照公布的网上举报方式、注意事项和提示进行。 公众可以通过网站在线举报和电子邮件两种途径进行举报。(一)通过网站在线举报:点击“网络报警”,按照提示填写相关内容...

有什么好用的下载工具?

PC端资源下载工具XDown,11MB/S其实找资源不是难事,最难的是找到资源却要面对几十Kb/s的速度才是最糟心的,那今天的分享你可得仔细看咯! 要将这些工具下载至本地我们就需要一些下载工具了,目前常用的一些工具有迅雷、闪电下载、雷电下载、XDown、μTorrent、qBittorrent、Mo...

服务器是不是一定要备案?

服务器不一定要备案,这个需要根据你的需求来看是否需要备案。如果你购买一台阿里云或者是腾讯云服务器不需要通过域名来访问,直接使用IP地址是不需要备案的。你可以在服务器上部署各种服务,如:msyql、nginx、redis、tomcat等。 如果是用做企业或者个人网站要看服务器是国内服务器还是香港或者海...

如何制作网站?

建网站的确是一件比较复杂的事情,即使是利用现在很便利的自助建站平台,也难免会有一大堆事情需要我们操心。不过,相信这个分享可以帮助大家解答各种建站疑问,让大家忍不住马上亲手制作一个属于自己的网站。 因为我用的是自助建站的方式,所以不会涉及到dw、HTML或者是Java这些编程程序方面的内容,不会代码的...

有哪些软件堪称神器,却不为大众所知?

经验总结:小迷作为电脑及网络维护人员,多年来所用过的众多软件之中,堪称神器的软件,是经过层层筛选之后最终成为电脑里必不可少的软件,它们在工作中极大的提高了小迷处理工作的效率,现将私藏了十年的八款软件奉献给大家。 一、搜索神器:Everything1、Everything是什么? Everything...

智慧和知识有何异同?

先说两个故事吧。 2006年8月8日早上,腾讯客服接到一个电话,客服习惯地说:您好,我是腾讯客服,请问有什么事需要我帮助吗?对方说:你们的系统存在好多漏洞,内部平台已被我攻破了,你们需要我的帮助吗? 客服大吃一惊,他立即说:请您稍等,我让领导和你沟通。 这位领导在掌握来电人一些信息之后,立即报警。...