Uhaka如何遵循robots.txt | Chat with AI for Free

Uhaka尊重robots.txt文件。如果某个新闻发布者通过robots.txt禁止UhakaBot抓取内容，Uhaka将不会抓取该网站的全部或部分文本内容。即使某些网页被robots.txt阻止，它们仍可能在我们的搜索索引中被记录。在这种情况下，我们只会将网站域名、标题和页面的事实摘要添加到搜索索引中。

如果我允许我的内容在Uhaka上显示，会被用于AI训练吗？

我们的爬虫UhakaBot的工作方式与其他搜索引擎类似，只会索引网页。与其他AI公司不同，Uhaka并不构建基础模型，因此UhakaBot不会抓取内容用于大型语言模型的预训练。

如果Uhaka尊重robots.txt，为什么我看到网上说Uhaka的爬虫不遵循它？

之前，Uhaka有一个功能，用户可以在回答引擎中提示特定的URL进行摘要。这是一个很少使用的功能，旨在帮助用户总结大量文本，而无需使用文件上传功能。

当用户提示特定URL时，相当于用户让我们的AI代理代替他们抓取该URL，即使该网页有robots.txt文件。这就像用户自己访问页面、复制文章文本，然后粘贴到系统中。这个过程需要用户逐个URL地发起。我们发现一些用户滥用这个功能，违反了我们的服务条款，因此我们暂时禁用了这一功能，以防止在不在搜索索引中的情况下抓取URL。

另外，尽管UhakaBot尊重robots.txt，但我们使用的第三方网络爬虫并不总是遵循robots.txt文件。我们已经与提供商进行了调整，以确保他们在代表Uhaka抓取时遵循robots.txt，并且不会访问被禁止的网站的完整文本内容。