谷歌和OpenAI大量使用新闻内容作为AI训练免费内容

盖云容 2024-11-09 未命名 29 次浏览 0个评论

内容重新润色如下：

鞭牛士报道，11月9日消息，据外电报道，根据Ziff Davis的一项新研究，谷歌、OpenAI和Meta等人工智能巨头在训练大型语言模型时，对知名新闻来源的内容给予了更高的重视。这一发现不仅揭示了聊天机器人获取信息的主要渠道，也为媒体公司如Ziff Davis、芝加哥论坛报、新闻集团和纽约时报等在寻求版权保护或要求AI公司支付使用其内容时提供了有力依据。

研究指出，关键的AI培训数据集主要由新闻和媒体网站商业出版商所拥有的高质量内容组成。在AI技术发展的短暂历史中，主要的AI公司在训练最重要的AI时已经优先考虑了这些内容。

Ziff Davis是PCMag的母公司，该研究由该公司的首席AI律师George Wukoson和首席技术官Joey Fortuna进行。他们检查了AI公司承认使用的数据集的开源副本，包括Common Crawl、C4、OpenWebText和OpenWebText2。

OpenAI承认，会对其认为高质量的数据集赋予更多权重，包括新闻媒体、受版权保护的书籍以及Reddit热门帖子中嵌入的链接。这是一种对LLM从网络上抓取的所有内容进行排名的方式，目的是为用户提供更好的答案。

例如，尽管WebText2只占3.8%的token，但在训练GPT-3时，它赋予了22%的权重。WebText2中嵌入的近13.5%的URL来自15家顶级媒体出版商，其中包括新闻集团、纽约时报、Gannett、Ziff Davis、Vox Media、Axel Springer、Alden Capital、赫斯特、华盛顿邮报、BuzzFeed、Future、IAC和Bustle。

数据集的内容也会随时间而变化。例如，OpenAI在OpenWebText中高度重视《华盛顿邮报》的内容，但在OpenWebText2发布后，其重要性有所降低。

齐夫·戴维斯表示，研究结果量化了新闻媒体对人工智能聊天机器人未来的重要性，而且新闻媒体无需为此付费。这种长期利用优质出版商内容（对LLM公司来说利润丰厚）意味着失去了一些全球估值最高的公司的许可收入。如果不为内容付费，出版商可能会破产，从而威胁到人工智能时代优质信息的持续流动。

据路透社报道，此前，一名联邦法官驳回了Raw Story和AlterNet对OpenAI提起的诉讼，该诉讼称，OpenAI未经许可使用其内容训练法学硕士。尽管《纽约时报》提起的相关案件仍在审理中，但OpenAI已与许多顶级媒体公司签署了许可协议。

转载请注明来自深圳普诺菲科技有限公司，本文标题：《谷歌和OpenAI大量使用新闻内容作为AI训练免费内容》