Учёные разработали новый способ измерения способности систем искусственного интеллекта (ИИ) — как быстро они могут превзойти или конкурировать с людьми в сложных задачах.
И хотя ИИ обычно превосходит людей в задачах предсказания текста и обработки знаний, при выполнении более сложных заданий, таких как дистанционное руководство, его эффективность значительно снижается.

Для количественной оценки прогресса ИИ была предложена новая методика, которая измеряет, сколько времени ИИ тратит на выполнение задач по сравнению с тем, сколько времени на это требуется человеку. Исследователи опубликовали свои выводы 30 марта в базе препринтов arXiv, так что они пока не прошли рецензирование.
«Мы пришли к выводу, что измерение длительности задач, которые модели могут выполнить, является полезным способом для понимания текущих возможностей ИИ. Это имеет смысл: ИИ-агенты часто сталкиваются с трудностями при выполнении длительных последовательностей действий, а не из-за отсутствия необходимых навыков или знаний для решения отдельных шагов», — объяснили исследователи из организации Model Evaluation & Threat Research (METR) в блоге, прилагающемся к исследованию.
Исследования показали, что ИИ модели выполняют задачи, которые обычно занимают у человека менее четырёх минут, с почти 100% успехом. Однако эта цифра снижается до 10% для задач, требующих более четырёх часов. Более старые модели ИИ показывают худшие результаты при выполнении длительных задач по сравнению с новыми системами.
Эти результаты ожидались, и исследование подчеркивает, что длительность задач, которые универсальные ИИ могут выполнить с надёжностью 50%, удваивается примерно каждые семь месяцев последние шесть лет.
Для проведения исследования ученые использовали различные модели ИИ — от Sonnet 3.7 и GPT-4 до Claude 3 Opus и более старых моделей GPT — и проверяли их на различных задачах. Эти задачи варьировались от простых, которые обычно занимают у человека несколько минут (например, поиск фактической информации на Википедии), до более сложных, требующих нескольких часов работы эксперта, таких как программирование на CUDA или исправление тонкой ошибки в PyTorch.
Для тестирования использовались инструменты, такие как HCAST и RE-Bench. Первый включает 189 автономных программных задач, предназначенных для оценки возможностей ИИ-агентов в таких областях, как машинное обучение, кибербезопасность и инженерия программного обеспечения, а второй использует семь сложных задач открытого типа в области машинного обучения.
Задачи были также оценены по степени «беспорядочности», чтобы определить, насколько они требуют координации множества рабочих потоков в реальном времени, что делает задачу более сложной для выполнения и более представительной для реальных условий.
Исследователи также разработали «атомарные действия» (SWAA) для определения того, как быстро реальные люди могут выполнить задачи. Это задачи, состоящие из одного шага и длительностью от одной до 30 секунд, базированные на данных сотрудников METR.
Фактически исследование показало, что «внимание» ИИ развивается стремительно. Исходя из этих данных, ученые сделали прогноз, что к 2032 году ИИ сможет автоматизировать месяц человеческой работы в области разработки программного обеспечения.
Для лучшего понимания развивающихся возможностей ИИ и их потенциального воздействия на общество это исследование может стать новым ориентиром для оценки реальных результатов и позволит «значимо интерпретировать абсолютные показатели производительности, а не только относительные», отметили учёные.
Новый рубеж для оценки ИИ?
Новый ориентир может позволить нам лучше понять реальный интеллект и возможности систем ИИ.
«Само по себе это измерение вряд ли изменит ход развития ИИ, но оно будет отслеживать, как быстро происходит прогресс в определённых типах задач, для которых ИИ системы будут идеально использоваться», — сказал в интервью Live Science Сохроб Казероуниан (Sohrob Kazerounian), выдающийся исследователь ИИ в Vectra AI.
«Измерение ИИ по времени, которое человек тратит на выполнение задачи, — это интересный косвенный показатель интеллекта и общих способностей, — добавил Казероуниан. — Во-первых, потому что нет единого показателя, который бы точно отражал, что мы имеем в виду, говоря об «интеллекте». Во-вторых, потому что вероятность выполнения длительной задачи без отклонений или ошибок становится крайне малой. В-третьих, это прямое измерение задач, для которых мы надеемся использовать ИИ, то есть для решения сложных человеческих проблем. И хотя это не охватывает все аспекты возможностей ИИ, это полезный ориентир», — отметил он.
Элеонор Уотсон (Eleanor Watson), член IEEE и инженер по этике ИИ в Singularity University, согласна с тем, что данное исследование действительно полезно.
«Измерение ИИ по длительности задач ценно и интуитивно понятно, оно напрямую отражает сложность реального мира, показывая, насколько эффективно ИИ поддерживает последовательность действий в течение времени», — сказала она Live Science.
Приход универсального ИИ
Одним из наиболее значимых выводов статьи является то, как быстро развиваются ИИ системы, особенно их способность справляться с продолжительными задачами. С учётом этого Уотсон прогнозирует, что скоро появятся универсальные ИИ-агенты, способные справляться с различными задачами.
«К 2026 году мы увидим, как ИИ станет всё более универсальным, справляясь с разнообразными задачами в течение целого дня или недели, а не ограничиваясь короткими и узко определёнными заданиями», — сказала Уотсон.
Для бизнеса это может означать появление ИИ, который возьмёт на себя значительные части профессиональной нагрузки, что не только снизит затраты и повысит эффективность, но и позволит людям сосредоточиться на более креативных, стратегических и межличностных задачах.
«Для потребителей ИИ будет эволюционировать от простого помощника до надежного личного менеджера, способного справляться с комплексными задачами жизни — такими как планирование путешествий, мониторинг здоровья или управление финансовыми портфелями — в течение нескольких дней или недель с минимальным контролем», — добавила Уотсон.
Таким образом, способность ИИ справляться с широким спектром длительных задач может существенно изменить то, как общество взаимодействует с ИИ в ближайшие несколько лет.
«Хотя специализированные инструменты ИИ будут продолжать использоваться в нишевых приложениях из-за их эффективности, мощные универсальные ИИ-агенты, способные гибко переключаться между различными задачами, будут становиться всё более заметными, — заключила Уотсон. — Эти системы интегрируют специализированные навыки в более широкие, ориентированные на достижение целей рабочие процессы, кардинально меняя повседневную жизнь и профессиональную практику.»