谷歌和OpenAI大量使用新闻内容作为AI训练免费内容3年前，宁夏7岁小女孩一笑走红，后拒百万签约，如今怎么样了？

快讯西岸时评 2024-11-16 10

鞭牛士报道，11月9日消息，据外电报道，根据Ziff Davis 的一项新研究，谷歌、OpenAI 和 Meta 等人工智能巨头在训练大型语言模型时更加重视来自知名新闻来源的内容。

这一发现可以帮助公众了解聊天机器人从哪里获取信息，并为 Ziff Davis、芝加哥论坛报、新闻集团和纽约时报等媒体公司在寻求版权保护或支付被人工智能吞噬的材料时提供更多筹码。

研究指出：我们的研究表明，关键的AI培训数据集主要由新闻和媒体网站商业出版商拥有的高质量内容组成。在AI技术发展短暂的历史上，主要的AI公司已在培训最重要的AI时优先考虑了这些内容。

Ziff Davis 是 PCMag 的母公司。这项研究由该公司首席 AI 律师 George Wukoson 和首席技术官 Joey Fortuna 进行。它检查了 AI 公司承认使用的数据集的开源副本，包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。

OpenAI 承认会对其认为高质量的数据集赋予更多权重，包括新闻媒体、受版权保护的书籍以及 Reddit 热门帖子中嵌入的链接。这是一种对 LLM 从网络上抓取的所有内容进行排名的方式，目的是为用户提供更好的答案。

例如，尽管 WebText2 只占 3.8% 的 token，但它在训练 GPT-3 时赋予了它 22% 的权重。WebText2 中嵌入的近 13.5% 的 URL 来自 15 家顶级媒体出版商，其中包括新闻集团、纽约时报、Gannett、Ziff Davis、Vox Media、Axel Springer、Alden Capital、赫斯特、华盛顿邮报、BuzzFeed、Future、IAC 和 Bustle。

数据集的内容也会随时间而变化。例如，OpenAI 在 OpenWebText 中高度重视《华盛顿邮报》的内容，但在 OpenWebText2 发布后，其重要性有所降低。