Banner

Uhaka如何遵循robots.txt


Uhaka尊重robots.txt文件。如果某个新闻发布者通过robots.txt禁止UhakaBot抓取内容,Uhaka将不会抓取该网站的全部或部分文本内容。即使某些网页被robots.txt阻止,它们仍可能在我们的搜索索引中被记录。在这种情况下,我们只会将网站域名、标题和页面的事实摘要添加到搜索索引中。

如果我允许我的内容在Uhaka上显示,会被用于AI训练吗?

我们的爬虫UhakaBot的工作方式与其他搜索引擎类似,只会索引网页。与其他AI公司不同,Uhaka并不构建基础模型,因此UhakaBot不会抓取内容用于大型语言模型的预训练。

如果Uhaka尊重robots.txt,为什么我看到网上说Uhaka的爬虫不遵循它?

之前,Uhaka有一个功能,用户可以在回答引擎中提示特定的URL进行摘要。这是一个很少使用的功能,旨在帮助用户总结大量文本,而无需使用文件上传功能。

当用户提示特定URL时,相当于用户让我们的AI代理代替他们抓取该URL,即使该网页有robots.txt文件。这就像用户自己访问页面、复制文章文本,然后粘贴到系统中。这个过程需要用户逐个URL地发起。我们发现一些用户滥用这个功能,违反了我们的服务条款,因此我们暂时禁用了这一功能,以防止在不在搜索索引中的情况下抓取URL。

另外,尽管UhakaBot尊重robots.txt,但我们使用的第三方网络爬虫并不总是遵循robots.txt文件。我们已经与提供商进行了调整,以确保他们在代表Uhaka抓取时遵循robots.txt,并且不会访问被禁止的网站的完整文本内容。