Суд в США: NVIDIA скачала миллионы пиратских книг для обучения языковых моделей

Алексей Алоисов 2026-01-23

Компанию NVIDIA обвинили в использовании пиратских книг для обучения больших языковых моделей. Согласно судебным документам, гигант чипов получил доступ к примерно 500 терабайтам нарушающих авторские права материалов через Anna’s Archive — поисковую систему по «теневым библиотекам».

Что такое Anna’s Archive

Anna’s Archive появилась в 2022 году под названием Pirate Library Mirror, а затем была переименована. Сервис агрегирует контент из LibGen, Z-Library, Sci-Hub и других источников пиратских публикаций. По данным иска, платформа предоставляет высокоскоростной корпоративный доступ к своим коллекциям в обмен на пожертвования в размере десятков тысяч долларов.

Примерно 30 компаний воспользовались такими услугами, включая практически всех крупных разработчиков больших языковых моделей. NVIDIA обратилась к Anna’s Archive в августе 2023 года для приобретения пиратских материалов предварительного обучения ИИ-моделей.

Детали сделки с NVIDIA

Anna’s Archive предложила NVIDIA миллионы пиратских книг и доступ к нескольким миллионам книг из Internet Archive. Общий объем данных составил около 500 терабайт. Компания получила «зеленый свет» на продолжение сделки в течение недели после первого контакта, несмотря на предупреждения о незаконном характере коллекций.

Помимо Anna’s Archive, NVIDIA скачивала книги из других теневых библиотек, включая LibGen, Sci-Hub и Z-Library. В иске утверждается, что компания скопировала произведения, защищенные авторским правом, из наборов данных The Pile и Bibliotik для обучения своих языковых моделей.

Набор The Pile составляет 800 ГБ, при этом Books3 объемом 108 ГБ содержит примерно 196 640 книг. Классовый период иска начинается не позднее 8 марта 2021 года и продолжается по настоящее время.

Ответ Anna’s Archive

В заявлении от 21 января 2026 года Anna’s Archive отрицает прямые контакты с NVIDIA: «Мы никогда не имели дел с Nvidia напрямую, так что они, вероятно, использовали промежуточную сторону, чтобы избежать юридических проблем».

Представители платформы добавили, что не возражают против сотрудничества с NVIDIA: «Но если Nvidia обратится к нам напрямую, мы с радостью предоставим им высокоскоростной доступ в обмен на пожертвование, как и всем остальным».

Судебные решения

Anna’s Archive сталкивается с юридическими проблемами не только из-за NVIDIA. 15 января 2026 года судья Майкл Уотсон (Michael Watson) в Окружном суде США Южного округа Огайо обязал Anna’s Archive удалить все копии данных WorldCat, включая торренты.

Суд запретил Anna’s Archive извлекать данные из WorldCat и серверов OCLC, а также использование, хранение или распространение этих данных. Иск против Anna’s Archive был подан 12 января 2024 года, а ответчик уведомлен 28 марта 2025 года.

Другие компании тоже используют пиратские данные

NVIDIA не единственная компания, использующая Anna’s Archive для обучения ИИ. В исследовательской работе DeepSeek-VL от марта 2024 года упоминается использование 860 тысяч английских и 180 тысяч китайских электронных книг из Anna’s Archive для обучения модели машинного зрения.

Случай с NVIDIA демонстрирует масштабы использования пиратского контента в индустрии ИИ. Компании получают доступ к миллионам защищенных авторским правом произведений через промежуточные платформы, что поднимает вопросы о законности таких практик. Судебные разбирательства могут установить важные прецеденты для всей отрасли машинного обучения.

Мнение ИИ

С точки зрения машинного анализа данных ситуация с NVIDIA напоминает эпоху Napster начала 2000-х, когда технологические гиганты столкнулись с массовыми исками за нарушение авторских прав. Разница в том, что тогда речь шла о музыке для потребителей, а сейчас — о данных для корпоративного ИИ стоимостью в миллиарды долларов.

Экономическая логика очевидна: легальное лицензирование 500 терабайт книг обошлось бы в сотни миллионов долларов, что делает «серые» схемы привлекательными для стартапов и даже крупных корпораций. Парадокс в том, что компании, создающие технологии будущего, используют методы пиратов прошлого. Ключевой вопрос: станет ли это дело катализатором для создания новых моделей лицензирования контента в эпоху ИИ или просто заставит компании лучше скрывать свои источники данных?

▼
Самые интересные и важные новости на нашем канале в Telegram