ИИ с трудом справляется с задачей, которую обычно без особого труда решает большинство 8-леток.

ИИ с трудом справляется с задачей, которую обычно без особого труда решает большинство 8-леток.

1 мин


Искусственный интеллект (ИИ) за последнее десятилетие прошёл большой путь — от устрашающих экспериментов до впечатляющих технологий генерации изображений и текстов, которые часто выдают точные ответы и с такой же уверенностью сообщают неправильные, когда не могут дать правильные.

ИИ с трудом справляется с задачей для малолеток
ChatGPT показал неплохие результаты в задачах, связанных с календарями. Изображение: Pexels/Google DeepMind

Тем не менее, существуют задачи, в которых ИИ по-прежнему значительно уступает людям. Например, генераторы изображений всё ещё испытывают трудности с правильным изображением рук, зубов или бокала вина, наполненного до краёв.

Одна из задач, в которой ИИ не может превзойти даже маленьких детей, — это умение определять время.

«Способность интерпретировать и понимать время на основе визуальных данных для многих реальных приложений крайне важна — от планирования событий до работы автономных систем», — пишут авторы нового исследования, подчёркивая, что, несмотря на это, исследования ИИ в основном сосредоточены на распознавании объектов, захвате изображений и понимании сцен.

В то время как исследователи пытаются создать ИИ, способный понимать сложную геометрию и математику, модели продолжают испытывать затруднения с основными задачами, такими как понимание часов и календарей. То, что кажется простым для людей, оказывается сложным для машин.

«В частности, чтение времени на аналоговых часах и понимание календарей включают сложные когнитивные шаги: они требуют точного визуального распознавания (например, положения стрелок на часах, структуры ячеек календаря) и нетривиального числового рассуждения (например, вычисления смещений дней)», — объясняют авторы исследования.

В новом исследовании, которое ещё не прошло рецензирование, учёные из Эдинбургского университета в Великобритании протестировали семь моделей ИИ, задав им простые вопросы, связанные со временем. Среди них — определение времени по изображению аналоговых часов, распознавание часов с различными стрелками и цифрами, а также несколько задач на логическое мышление с использованием календарей.

ИИ показал плохие результаты даже на самых простых задачах — определении времени, давая правильный ответ менее чем в четверти случаев. Особенно плохо он справлялся с часами с римскими цифрами или стилизованными стрелками. Например, когда ИИ OpenAI Chat GPT-o1 увидел часы, показывающие 4:00, он ответил «12:15», а Claude-3.5-S определил время, как «11:35».

В задачах, связанных с календарями, модели показали немного лучшие результаты, ошибаясь примерно в 20% случаев. Им задавали вопросы вроде: «На какой день недели выпадает Рождество?» и «Какой день недели является сотым в году?».

«Закрытые модели, такие как GPT-o1 и Claude-3.5, превосходят открытые модели в задачах, связанных с популярными праздниками, что, вероятно, связано с запомненными шаблонами в обучающих данных», — объясняют исследователи.

«Однако точность значительно снижается при ответах на менее известные или требующие сложных вычислений вопросы (например, 153-й день года), что указывает на то, что модели плохо справляются с задачами, связанными с вычислением смещений. Это снижение особенно заметно у небольших или открытых моделей (таких как MiniCPM, Qwen2-VL-7B и Llama3.2-Vision), которые показывают почти случайные результаты при работе с менее популярными или задачами, требующими вычисления смещений.»

По словам исследователей, результаты показывают, что модели ИИ всё ещё испытывают трудности с пониманием и рассуждением о времени, что требует сочетания визуального восприятия, числовых вычислений и структурированного логического анализа. Без улучшений в этих областях использование ИИ для реальных задач, таких как планирование, будет подвержено ошибкам.

«Сегодня исследования ИИ часто акцентируются на сложных задачах, требующих логических рассуждений, но, иронично, многие системы по-прежнему сталкиваются с трудностями, когда речь идёт о более простых, повседневных задачах, — заявил Арьо Гема (Aryo Gema) из Школы информатики Эдинбургского университета, соавтор исследования. — Наши результаты показывают, что настало время устранить эти фундаментальные пробелы. В противном случае интеграция ИИ в реальные приложения, где критично точное определение времени, может так и остаться на последнем этапе.»

Данное исследование доступно на сервере препринтов arXiv.


Понравилось? Поделитесь с друзьями!

Комментарии

- комментариев

Включить уведомления Да Спасибо, не надо