Patronus AI привлекает $50 млн на создание цифровых миров для стресс-тестирования AI-агентов
Стартап Patronus AI, разрабатывающий симулированные цифровые среды для оценки AI-агентов, объявил о раунде финансирования в $50 млн, доведя общий объем финансирования до $70 млн.

AI-агенты становятся всё более сложными: они переходят от простых ответов на вопросы к автономному выполнению многоэтапных задач. Однако прежде чем такие агенты смогут бронировать поездки или проводить финансовый анализ, разработчики моделей и стартапы должны убедиться, что они работают надёжно в широком диапазоне сценариев. Patronus AI, основанный в 2023 году бывшими исследователями Meta Анандом Каннаппаном и Ребеккой Цянь, помогает создателям моделей и компаниям донастраивать их, создавая симулированные цифровые среды для оценки производительности агентов.
Стартап из Сан-Франциско привлёк значительный интерес инвесторов. По словам Гленна Соломона, управляющего директора Notable Capital, спрос на симулированные среды компании почти неутолим. За последний год выручка выросла в 15 раз. В четверг компания объявила о раунде серии B на $50 млн, который возглавила Greenfield Partners при участии Notable Capital, Lightspeed, Datadog и Samsung. Этот раунд доводит общий объём финансирования до $70 млн.
Patronus использует так называемые «модели цифрового мира» для создания копий веб-сайтов и внутренних систем. В этих средах агенты проходят стресс-тестирование после обучения с подкреплением, которое итеративно поощряет успешное выполнение задач и наказывает за ошибки. AI-лаборатории ценят такие симуляции, поскольку они позволяют агентам опробовать различные, иногда непредсказуемые сценарии. Компания сравнивает свой подход с тем, как Waymo обучала автономные автомобили, сначала создавая синтетические миры для тестирования на редкие опасности. Отличие в том, что AI-агенты склонны искать короткие пути, что мешает им правильно выполнять задачи. «Patronus отлично умеет выявлять эти уловки и следить за тем, чтобы модели несли ответственность», — сказал Соломон.
В настоящее время Patronus предоставляет симулированные цифровые миры для программной инженерии и финансов, но, по словам Каннаппана, это только начало. «Сегодня мы сосредоточены на проверяемых проблемах, но есть множество областей, которые очень трудно проверить», — отметил он. «Мы хотим создать среду, в которой агент может работать 10 часов, 10 дней или 10 недель». Что касается конкурентов, Patronus считает, что в основном соревнуется с внутренними командами AI-лабораторий, уже созданными для оценки поведения агентов. В отличие от фирм по работе с человеческими данными, таких как Mercor и Surge, Patronus оценивает поведение агентов без участия человека.


