В последнее время компании, занимающиеся разработкой искусственного интеллекта, сталкиваются с серьезной проблемой — получением высококачественных обучающих данных. По данным The Wall Street Journal, многие ИИ-компании упираются в стену при решении этого вопроса.
Недавно The New York Times подробно рассказала о том, как некоторые компании пытаются справиться с дефицитом качественных данных для обучения своих ИИ-моделей. Примечательно, что используемые ими методы зачастую находятся в правовой «серой зоне» в отношении авторского права на ИИ.
Так, издание сообщает, что OpenAI, остро нуждаясь в обучающих данных, разработала собственную модель распознавания речи Whisper. Она использовала Whisper для транскрибирования более миллиона часов видео с YouTube, чтобы потом применить эти данные для тренировки своей последней языковой модели GPT-4.
Руководство OpenAI понимало, что такие действия могут быть юридически сомнительными, но сочло их добросовестным использованием. Президент компании Грег Брокман лично участвовал в сборе видео для этих целей.
Представитель OpenAI Линдси Хелд заявила The Verge, что компания использует «уникальные» наборы данных для каждой своей модели, чтобы помочь им «понять мир» и сохранить глобальную конкурентоспособность в исследованиях. По ее словам, OpenAI применяет множество источников, включая общедоступные данные и закрытые партнерские данные, а также рассматривает возможность создания синтетических данных.
Ранее, в 2021 году, OpenAI исчерпала запасы полезных данных и стала рассматривать вариант транскрибирования видео, подкастов и аудиокниг с YouTube, после того как использовала другие доступные ресурсы, такие как компьютерный код с GitHub, базы данных шахматных партий и учебные материалы с Quizlet.
В ответ представитель Google Мэтт Брайант сообщил The Verge, что компания «видела неподтверждённые сообщения» о действиях OpenAI, и подчеркнул, что как файлы robots.txt, так и Условия использования YouTube запрещают несанкционированный сбор или загрузку контента. Глава YouTube Нил Мохан также заявил, что не допустит использования платформы для обучения ИИ-моделей генерации видео, таких как Sora от OpenAI. По словам Брайанта, Google предпринимает «технические и юридические меры» для предотвращения несанкционированного использования контента, когда есть правовые или технические основания для этого.
Очевидно, что стремление ИИ-компаний получить качественные данные для обучения своих моделей нередко приводит их к действиям, находящимся в правовой «серой зоне». Этот вопрос требует дальнейшего изучения и регулирования, чтобы обеспечить баланс между инновациями в области ИИ и защитой авторских прав.
Рекомендуем прочитать
Утечка персональных данных: угроза безопасности для миллионов клиентов AT&T
OSHU31.03.202431.03.2024
Нью-Йорк тестирует технологию обнаружения оружия с использованием ИИ
OSHU30.03.202430.03.2024
Натуральные шампуни — чем же они хороши?
OSHU29.03.202429.03.2024 Искать: Поиск