GPT-4转录一百万小时的YouTube视频内容，引发对版权法律法规适用性的深思-中国存储网

2024-04-08 12:43:22 来源：中存储

《华尔街日报》的一份报告揭示了AI公司在获取高质量训练数据时遭遇的困境，紧接着，《纽约时报》进一步详述了OpenAI如何创造性地解决这一难题，但也引发了关于版权法边界问题的讨论。

据报道，OpenAI在开发其最新一代大型语言模型GPT-4的过程中，面临着训练数据枯竭的问题。为了丰富和扩大模型的训练素材，这家AI巨头采取了一种颇具争议的方法——借助其自主开发的Whisper音频转录模型，从YouTube平台转录了超过一百万小时的视频内容，旨在提升模型对多样化语言环境和复杂语境的理解能力。

2021年，OpenAI在消耗完既定的数据源后，开始考虑拓展数据采集渠道，其中包括但不限于YouTube上的各类视频、播客内容以及有声读物等丰富的多媒体资源。不仅如此，OpenAI还整合了诸如GitHub上的计算机代码、国际象棋游戏数据库以及Quizlet上的学习资料等多种类型的数据，以充实其模型训练所需的庞大素材库。

值得注意的是，OpenAI在这一过程中明确意识到其做法涉及到了版权法规的模糊地带。尽管如此，该公司高层，包括总裁Greg Brockman本人，均积极参与了相关视频数据的收集工作，并认为这种利用行为符合“合理使用”原则，即在特定条件下，出于科研、教育或其他非商业目的使用他人作品可以被接受。

《纽约时报》的揭露引发了一场有关AI技术研发与知识产权保护之间微妙平衡的辩论。OpenAI的做法虽旨在推进AI技术的进步，但也提出了一个重要议题：在AI模型训练所需海量数据与创作者知识产权权益保护之间，应当如何划清界限，制定出既能保障技术创新又能尊重原创内容价值的新型规则。

总结而言，OpenAI在GPT-4的开发过程中展现出了惊人的创新力和技术执行力，然而其所采用的大规模数据抓取手段也为业界带来了对版权法律法规适用性的深思。这场围绕大数据与AI发展的法律碰撞，无疑将对未来AI产业的健康发展产生深远影响，并促进相关政策法规的适时调整和完善。

继续阅读 ChatGPT YouTube