ИИ может справляться с задачами в два раза более сложными каждые несколько месяцев.

ИИ способен выполнять задачи, в два раза более сложные, каждые несколько месяцев.

1 мин


Учёные разработали новый способ измерения способности систем искусственного интеллекта (ИИ) — как быстро они могут превзойти или конкурировать с людьми в сложных задачах.

И хотя ИИ обычно превосходит людей в задачах предсказания текста и обработки знаний, при выполнении более сложных заданий, таких как дистанционное руководство, его эффективность значительно снижается.

ИИ совершенствуется
ИИ легко превосходит людей в краткосрочных задачах, но настоящим препятствием остаются долгосрочные задачи, которые необходимо преодолеть, прежде чем можно будет назвать эти системы действительно умными. Изображение: MASTER via Getty Images

Для количественной оценки прогресса ИИ была предложена новая методика, которая измеряет, сколько времени ИИ тратит на выполнение задач по сравнению с тем, сколько времени на это требуется человеку. Исследователи опубликовали свои выводы 30 марта в базе препринтов arXiv, так что они пока не прошли рецензирование.

«Мы пришли к выводу, что измерение длительности задач, которые модели могут выполнить, является полезным способом для понимания текущих возможностей ИИ. Это имеет смысл: ИИ-агенты часто сталкиваются с трудностями при выполнении длительных последовательностей действий, а не из-за отсутствия необходимых навыков или знаний для решения отдельных шагов», — объяснили исследователи из организации Model Evaluation & Threat Research (METR) в блоге, прилагающемся к исследованию.

Исследования показали, что ИИ модели выполняют задачи, которые обычно занимают у человека менее четырёх минут, с почти 100% успехом. Однако эта цифра снижается до 10% для задач, требующих более четырёх часов. Более старые модели ИИ показывают худшие результаты при выполнении длительных задач по сравнению с новыми системами.

Эти результаты ожидались, и исследование подчеркивает, что длительность задач, которые универсальные ИИ могут выполнить с надёжностью 50%, удваивается примерно каждые семь месяцев последние шесть лет.

Для проведения исследования ученые использовали различные модели ИИ — от Sonnet 3.7 и GPT-4 до Claude 3 Opus и более старых моделей GPT — и проверяли их на различных задачах. Эти задачи варьировались от простых, которые обычно занимают у человека несколько минут (например, поиск фактической информации на Википедии), до более сложных, требующих нескольких часов работы эксперта, таких как программирование на CUDA или исправление тонкой ошибки в PyTorch.

Для тестирования использовались инструменты, такие как HCAST и RE-Bench. Первый включает 189 автономных программных задач, предназначенных для оценки возможностей ИИ-агентов в таких областях, как машинное обучение, кибербезопасность и инженерия программного обеспечения, а второй использует семь сложных задач открытого типа в области машинного обучения.

Задачи были также оценены по степени «беспорядочности», чтобы определить, насколько они требуют координации множества рабочих потоков в реальном времени, что делает задачу более сложной для выполнения и более представительной для реальных условий.

Исследователи также разработали «атомарные действия» (SWAA) для определения того, как быстро реальные люди могут выполнить задачи. Это задачи, состоящие из одного шага и длительностью от одной до 30 секунд, базированные на данных сотрудников METR.

Фактически исследование показало, что «внимание» ИИ развивается стремительно. Исходя из этих данных, ученые сделали прогноз, что к 2032 году ИИ сможет автоматизировать месяц человеческой работы в области разработки программного обеспечения.

Для лучшего понимания развивающихся возможностей ИИ и их потенциального воздействия на общество это исследование может стать новым ориентиром для оценки реальных результатов и позволит «значимо интерпретировать абсолютные показатели производительности, а не только относительные», отметили учёные.

Новый рубеж для оценки ИИ?

Новый ориентир может позволить нам лучше понять реальный интеллект и возможности систем ИИ.

«Само по себе это измерение вряд ли изменит ход развития ИИ, но оно будет отслеживать, как быстро происходит прогресс в определённых типах задач, для которых ИИ системы будут идеально использоваться», — сказал в интервью Live Science Сохроб Казероуниан (Sohrob Kazerounian), выдающийся исследователь ИИ в Vectra AI.

«Измерение ИИ по времени, которое человек тратит на выполнение задачи, — это интересный косвенный показатель интеллекта и общих способностей, — добавил Казероуниан. — Во-первых, потому что нет единого показателя, который бы точно отражал, что мы имеем в виду, говоря об «интеллекте». Во-вторых, потому что вероятность выполнения длительной задачи без отклонений или ошибок становится крайне малой. В-третьих, это прямое измерение задач, для которых мы надеемся использовать ИИ, то есть для решения сложных человеческих проблем. И хотя это не охватывает все аспекты возможностей ИИ, это полезный ориентир», — отметил он.

Элеонор Уотсон (Eleanor Watson), член IEEE и инженер по этике ИИ в Singularity University, согласна с тем, что данное исследование действительно полезно.

«Измерение ИИ по длительности задач ценно и интуитивно понятно, оно напрямую отражает сложность реального мира, показывая, насколько эффективно ИИ поддерживает последовательность действий в течение времени», — сказала она Live Science.

Приход универсального ИИ

Одним из наиболее значимых выводов статьи является то, как быстро развиваются ИИ системы, особенно их способность справляться с продолжительными задачами. С учётом этого Уотсон прогнозирует, что скоро появятся универсальные ИИ-агенты, способные справляться с различными задачами.

«К 2026 году мы увидим, как ИИ станет всё более универсальным, справляясь с разнообразными задачами в течение целого дня или недели, а не ограничиваясь короткими и узко определёнными заданиями», — сказала Уотсон.

Для бизнеса это может означать появление ИИ, который возьмёт на себя значительные части профессиональной нагрузки, что не только снизит затраты и повысит эффективность, но и позволит людям сосредоточиться на более креативных, стратегических и межличностных задачах.

«Для потребителей ИИ будет эволюционировать от простого помощника до надежного личного менеджера, способного справляться с комплексными задачами жизни — такими как планирование путешествий, мониторинг здоровья или управление финансовыми портфелями — в течение нескольких дней или недель с минимальным контролем», — добавила Уотсон.

Таким образом, способность ИИ справляться с широким спектром длительных задач может существенно изменить то, как общество взаимодействует с ИИ в ближайшие несколько лет.

«Хотя специализированные инструменты ИИ будут продолжать использоваться в нишевых приложениях из-за их эффективности, мощные универсальные ИИ-агенты, способные гибко переключаться между различными задачами, будут становиться всё более заметными, — заключила Уотсон. — Эти системы интегрируют специализированные навыки в более широкие, ориентированные на достижение целей рабочие процессы, кардинально меняя повседневную жизнь и профессиональную практику.»


Понравилось? Поделитесь с друзьями!

Комментарии

- комментариев

Включить уведомления Да Спасибо, не надо