Искусственный интеллект (ИИ) за последнее десятилетие прошёл большой путь — от устрашающих экспериментов до впечатляющих технологий генерации изображений и текстов, которые часто выдают точные ответы и с такой же уверенностью сообщают неправильные, когда не могут дать правильные.

Тем не менее, существуют задачи, в которых ИИ по-прежнему значительно уступает людям. Например, генераторы изображений всё ещё испытывают трудности с правильным изображением рук, зубов или бокала вина, наполненного до краёв.
Одна из задач, в которой ИИ не может превзойти даже маленьких детей, — это умение определять время.
«Способность интерпретировать и понимать время на основе визуальных данных для многих реальных приложений крайне важна — от планирования событий до работы автономных систем», — пишут авторы нового исследования, подчёркивая, что, несмотря на это, исследования ИИ в основном сосредоточены на распознавании объектов, захвате изображений и понимании сцен.
В то время как исследователи пытаются создать ИИ, способный понимать сложную геометрию и математику, модели продолжают испытывать затруднения с основными задачами, такими как понимание часов и календарей. То, что кажется простым для людей, оказывается сложным для машин.
«В частности, чтение времени на аналоговых часах и понимание календарей включают сложные когнитивные шаги: они требуют точного визуального распознавания (например, положения стрелок на часах, структуры ячеек календаря) и нетривиального числового рассуждения (например, вычисления смещений дней)», — объясняют авторы исследования.
В новом исследовании, которое ещё не прошло рецензирование, учёные из Эдинбургского университета в Великобритании протестировали семь моделей ИИ, задав им простые вопросы, связанные со временем. Среди них — определение времени по изображению аналоговых часов, распознавание часов с различными стрелками и цифрами, а также несколько задач на логическое мышление с использованием календарей.
ИИ показал плохие результаты даже на самых простых задачах — определении времени, давая правильный ответ менее чем в четверти случаев. Особенно плохо он справлялся с часами с римскими цифрами или стилизованными стрелками. Например, когда ИИ OpenAI Chat GPT-o1 увидел часы, показывающие 4:00, он ответил «12:15», а Claude-3.5-S определил время, как «11:35».
В задачах, связанных с календарями, модели показали немного лучшие результаты, ошибаясь примерно в 20% случаев. Им задавали вопросы вроде: «На какой день недели выпадает Рождество?» и «Какой день недели является сотым в году?».
«Закрытые модели, такие как GPT-o1 и Claude-3.5, превосходят открытые модели в задачах, связанных с популярными праздниками, что, вероятно, связано с запомненными шаблонами в обучающих данных», — объясняют исследователи.
«Однако точность значительно снижается при ответах на менее известные или требующие сложных вычислений вопросы (например, 153-й день года), что указывает на то, что модели плохо справляются с задачами, связанными с вычислением смещений. Это снижение особенно заметно у небольших или открытых моделей (таких как MiniCPM, Qwen2-VL-7B и Llama3.2-Vision), которые показывают почти случайные результаты при работе с менее популярными или задачами, требующими вычисления смещений.»
По словам исследователей, результаты показывают, что модели ИИ всё ещё испытывают трудности с пониманием и рассуждением о времени, что требует сочетания визуального восприятия, числовых вычислений и структурированного логического анализа. Без улучшений в этих областях использование ИИ для реальных задач, таких как планирование, будет подвержено ошибкам.
«Сегодня исследования ИИ часто акцентируются на сложных задачах, требующих логических рассуждений, но, иронично, многие системы по-прежнему сталкиваются с трудностями, когда речь идёт о более простых, повседневных задачах, — заявил Арьо Гема (Aryo Gema) из Школы информатики Эдинбургского университета, соавтор исследования. — Наши результаты показывают, что настало время устранить эти фундаментальные пробелы. В противном случае интеграция ИИ в реальные приложения, где критично точное определение времени, может так и остаться на последнем этапе.»
Данное исследование доступно на сервере препринтов arXiv.