Новый сайт позволяет сообщать об ошибках и рисках ИИ
Группа исследователей запустила краудсорсинговую платформу FLARE-AI для сообщения и отслеживания вредоносного поведения систем искусственного интеллекта.

Группа исследователей искусственного интеллекта создала веб-сайт с открытым исходным кодом Flaw Reporting for AI (FLARE-AI), предназначенный для сообщения и отслеживания сбоев в работе систем ИИ. Он работает по принципу Downdetector, собирая сообщения пользователей о глобальных проблемах, но в данном случае касающихся ИИ. Открытый код позволяет проверять жалобы и перенаправлять их разработчикам моделей, а также таким организациям, как MITRE, которая отслеживает проблемы технических систем.
Проект возглавляют Авиджит Гош из HuggingFace, а также специалисты по информатике Элейн Чжу и Шейна Лонгпре. Он был разработан при участии 49 экспертов по ИИ из 32 организаций. Исследователи подчеркивают, что в настоящее время отсутствует централизованный и подотчётный способ сообщать об ошибках ИИ, что является серьёзной проблемой по мере распространения технологии и роста возможностей автономных систем.
Платформа позволяет сообщать о таких проблемах, как психологический вред, дискриминация, предвзятость и дезинформация. По словам Гоша, у разных компаний разные стандарты, поэтому некоторые проблемы остаются незамеченными. Недавние инциденты демонстрируют уязвимости: компания LayerX показала, как обойти защиту ИИ-браузеров, а исследователь Йохан Рербергер выявил способ извлечения личных данных из модели Claude с помощью изображений, созданных ChatGPT.
Тем не менее, инициатива сталкивается с трудностями. Румман Чоудхури из Humane Intelligence PBC отмечает, что необходимо управлять потоком сообщений, многие из которых могут быть несерьёзными, и обеспечить поддержку авторитетных организаций.
Законопроект, внесённый в Конгресс США в июне, может усилить такие усилия. Он предполагает, что Национальный институт стандартов и технологий (NIST) разработает стандарты для сообщения об ошибках ИИ и будет вести централизованную базу данных. Это стимулирует разработчиков решать проблемы и позволит пользователям оценивать безопасность разных систем.


