The Atlantic создал поисковую базу данных музыки, используемой для обучения ИИ
Репортер The Atlantic Алекс Рейснер обнаружил четыре набора данных, содержащих миллионы треков для обучения моделей ИИ, и сделал их общедоступными для поиска. В наборы вошли такие артисты, как Леди Гага, Radiohead и Брюс Спрингстин.

Репортер The Atlantic Алекс Рейснер (Alex Reisner) выявил четыре набора музыкальных данных, используемых для обучения моделей искусственного интеллекта, и сделал их полностью доступными для публичного поиска. Два из этих наборов огромны — содержат 12 миллионов и 9 миллионов треков соответственно. Два других меньше, но все еще представляют значительный объем — более 100 000 песен каждый.
По словам Рейснера, эти наборы были загружены тысячи раз, и хотя невозможно точно знать, кто их использовал, Google и Stability подтвердили их использование в исследовательских работах. Некоторые источники, например, набор Free Music Archive, бесплатны для потокового воспроизведения в личных целях, но для коммерческого использования требуется лицензирование.
Хотя теоретически эти наборы свободно доступны в интернете, их использование в качестве тренировочных данных не сводится к простой загрузке ZIP-файла и передаче его модели ИИ. Как объясняет Рейснер: три из четырех наборов данных распространяются в виде списков ссылок на песни на YouTube или Spotify. Разработчики ИИ загружают фактический аудиофайл с помощью инструментов, автоматизирующих эту задачу; некоторые из них позволяют обходить логины, рекламу и механизмы, которые приносят доход или подписчиков создателям контента. Такие инструменты нарушают условия использования этих платформ.
В базе данных фигурируют такие имена, как поп-звезда Леди Гага, Fred Again.., Radiohead, Aphex Twin, Wu-Tang Clan, Брюс Спрингстин и экспериментальный композитор Hainbach. Любой желающий может посетить сайт The Atlantic AI Watchdog и самостоятельно искать песни, книги и другие медиа, используемые для обучения мировых моделей ИИ.

