非营利组织**知识共享组织(Creative Commons, CC)**近日公开表达了对“**付费爬取”(Pay-for-Crawl)**技术的谨慎支持,该技术是一种在机器(如人工智能网络爬虫)访问网站内容时自动支付报酬的系统。

今年早些时候,CC 宣布了“开放人工智能生态系统”的框架,旨在为控制数据的公司和利用数据进行训练的 AI 提供商之间,提供共享数据集的法律和技术支持。CC 最为人所知的是其在许可协议方面的贡献,该协议允许创作者在保留版权的同时分享作品。

应对 AI 冲击:知识共享组织(CC)谨慎支持“付费爬取”技术

 “付费爬取”的必要性

Cloudflare 等公司为代表的“付费爬取”理念,要求 AI 机器人每次抓取网站内容进行模型训练和更新时,都向网站付费。

CC 在其博客文章中指出:“如果负责任地实施,付费抓取可以成为网站维持其内容创作和分享的一种方式……使内容能够公开访问,否则这些内容可能无法分享,或者会消失在更加严格的付费墙之后。”

这一转变的背景是 AI 对传统出版商的“毁灭性打击”。过去,网站允许谷歌等搜索引擎爬取内容以换取搜索流量和点击量。然而,随着 AI 聊天机器人的普及,消费者直接从 AI 获得答案,导致网站搜索流量锐减,严重影响了出版商的利润。

“付费爬取”系统为小型网络出版商提供了一种从 AI 冲击中恢复过来的方式,尤其对于那些没有足够实力与 OpenAI、谷歌、Meta 等巨头谈判一次性内容合作协议的出版商而言,其操作性更强。目前,OpenAI 已与康泰纳仕集团、阿克塞尔·施普林格集团,以及 Perplexity 与甘尼特集团等达成了多项重要合作。

 CC 的保留意见与负责任原则

尽管表示支持,CC 也提出了一些保留意见,指出此类系统可能导致网络权力过于集中,并可能阻碍“研究人员、非营利组织、文化遗产机构、教育工作者和其他为公共利益服务的机构”访问内容。

因此,CC 提出了一系列负责任的“付费爬取”原则,包括:

  • 不应将付费爬虫设置为所有网站的默认设置

  • 应避免对整个网络制定一刀切的规则

  • 系统应允许限速而非仅仅屏蔽,并保障公众的访问权限

  • 系统应具备开放性、互操作性,并采用标准化组件构建。

行业标准与参与者

除 Cloudflare 外,微软也在为出版商构建 AI 市场,而 ProRata.aiTollBit 等小型初创公司也开始涉足这一领域。

另一个组织 RSL Collective 发布了名为“真正简单的许可(Really Simple Licensing, RSL)”的新标准,规定了网站爬虫可访问的部分。CC 宣布支持 RSL,并将其纳入其更广泛的 AI 时代技术和工具开发项目。目前,RSL 已获得 Cloudflare、Akamai、Fastly 等公司的采用,并得到雅虎、Ziff Davis、O'Reilly Media 等公司的支持。