雨说-农码一生-AI圈公开的秘密：天下模型一大抄

　　作者：卜淑情

　　来源：硬 AI

　　抄袭已经成为 AI 世界公开的秘密。

　　据 The Information 周一的文章，许多初创公司的 AI 聊天机器人很可能是采用了 OpenAI 和其他公司的数据开发的。这些机器人在某些任务上可以媲美 GPT-4，但收费只是后者的一小部分。

　　初创公司在开发过程中没有披露使用 OpenAI 的技术。不过，The Information 报道称，OpenAI 首席执行官 Sam Altman 去年夏天告诉初创公司创始人，可以接受初创公司以这种方式使用 OpenAI 的技术。

　　虽然 Altman 的回应让一些初创公司松了一口气，但这种做法实质上损害了 OpenAI 的增长，Altman 随时可能改变主意。

　　在初创公司中，抄袭已成常态

　　初创公司抄袭 OpenAI 的具体做法是，先开通 GPT-4 的会员，然后向它提出一系列问题，例如“这行代码有什么问题？”他们使用这些问题和答案来训练自己的竞品模型。

　　采取这一策略的初创公司不在少数。

　　Unsloth AI 联合创始人 Daniel Han 估计，他大约一半的客户从 GPT-4 或 Anthropic 的 Claude 模型中获取数据，并用它来改进自己的模型。许多公司也从 ShareGPT 获得此类数据，ShareGPT 是一个开发人员分享使用 OpenAI 模型生成答案的网站。

　　小型开发商的模型通常基于 Meta Platforms 或 Mistral AI 免费提供的流行开源模型，但通过融合 OpenAI 模型的答案，可以显著提高这些模型输出内容的质量。Han 表示，一些开发人员正在使用一项名为 OpenPipe 的服务来自动化这一过程。

　　“在一个尚未建立明确规则的新生态系统中，就会发生这种情况，”Menlo Ventures 董事总经理 Matt Murphy 表示，该公司投资了 OpenAI 的竞争对手 Anthropic。Murphy 说：

如果大家都使用相同的数据，你怎么能比其他人更出色呢?

　　目前尚不清楚 OpenAI、谷歌、Anthropic 和其他大型开发商会在多大程度上允许初创对手利用他们的数据进行追赶。

　　Radical Ventures 合伙人 Rob Toews 表示：

AI 模型的训练数据的质量和来源正成为最重要的热点问题之一。没有人确切知道事情将如何发展，但任何没有对(数据来源)进行周密和战略考虑的 AI 初创公司都在落后。

　　如果那些在开发模型时暗中依赖其他 AI 服务的开发商被曝光，它们可能会面临尴尬的处境。

　　比如，总部位于巴黎的 Mistral 使用 Meta 的开源 AI 模型 Llama 2 创建了自己的 AI，但直到无意泄露才披露这一事实，引起了一些开发者的不满。Mistral 已经筹集了数亿美元的资金。

　　大公司也一样？

　　实际上，初创公司利用 OpenAI 数据训练模型的做法，与 OpenAI 等 AI 巨头的做法并无二致。

　　OpenAI 首席技术官 Mira Murati 上个月在回答有关该公司是否使用谷歌旗下 YouTube 以及 Meta Platforms 旗下 Facebook 和 Instagram 的数据来训练生成 AI 视频的 Sora 时表现出了犹豫和困惑。

　　如果 OpenAI 真的使用了这些数据，也不足为奇。

　　据《纽约时报》最近的报道，OpenAI 创建了一个名为 Whisper 的语音识别工具，用于转录 YouTube 视频，以此来改进 GPT-4。此前，也有媒体曾报道称，OpenAI 暗中使用 YouTube 数据训练其早期的 AI 模型。

　　就在本月早些时候，YouTube CEO Neal Mohan 还表示，他不赞成 OpenAI 使用 YouTube 视频来开发像 Sora 这样的文生视频模型。

　　这种行为也导致 OpenAI 招致了侵权官司。《纽约时报》公司去年 12 月起诉 OpenAI 及其最大支持者微软，指控他们在训练模型时非法复制了该报的新闻文章。诉讼称，OpenAI 的聊天机器人“可以逐字逐句地生成时报内容”。

　　作为回应，OpenAI 辩称，它已努力与新闻出版商建立合作关系，其训练做法属于美国版权原则“合理使用”所允许的范围。

　　尽管如此，OpenAI 和谷歌都与 Axel Springer 等出版商达成了数百万美元的许可协议，并与 Reddit 等主要网站达成了更大的交易。

　　即使是科技巨头也难以抗拒捷径的诱惑。

　　The Information 报道称，谷歌曾转录 YouTube 视频，Meta 雇佣承包商总结受版权保护的书籍，Adobe 使用 Midjourney 的 AI 生成照片，均是为了训练自家 AI 模型。一位谷歌工程师因担忧公司使用 OpenAI 的 ChatGPT 数据而辞职。

　　初创公司 Lamini 的 CEO Sharon Zhou 表示，AI 开发的快速步伐和激烈竞争迫使开发者求助于有争议的训练数据来源，如受版权保护的内容或 LLM。

　　Zhou 说:在这个领域，投资者需要看到非常快的进展。