Google开源robots.txt解析器-我淘网

大概这是七月初最重要的一条有关搜索引擎行业的新闻，Google公司，力推REP为互联网标准，并且把自己的robots.txt解析器在Github上开源了。

robots.txt，源自于1994年的时候，Martijn Koster(一个网站站长)在被蜘蛛过度抓取网站后，自行创建的一个初始标准，随着越来越多的网站站长的补充，追随，Rebots Exclusion Protocol (REP)，就诞生了，随着各大搜索引擎同站长们的良性互动，它们也都采用了这个标准。然而这个REP，始终没有成为一个互联网标准。

现在Google联合其他的几个巨头，力图把REP推动成为一个互联网标准。

Google开源robots.txt解析器移动互联网

在把REP作为标准的路上，其实还是同平时站长们的使用还是有一点小小变化的，具体的表现在robots.txt不止可以用于HTTP，还包括了FTP等基于URI的传输协议;解析器的开发者需要至少解析robots.txt的前500KB内容;还有缓存时间等等一些新的标准内容。

网站站长们如果对此有建议，有问题，等等，都可以到Webmaster Community或者twitter上联系。

就我个人的看法，这是推动站长以及搜索引擎规范化的进步，站长们有规范可遵循，搜索引擎也需要遵守，包括各种内容抓取者都需要遵守。

作者: David Yin

本站所有文章或资源，均来自互联网分享。本站不参与制作或存储，内容仅用于互联网爱好者学习和研究，有版权的内容或软件下载学习和研究后请自行删除或购买授权，如不慎侵犯了您的权利，请及时联系站长处理删除。敬请谅解！

THE END