Китайские учёные создали новую вычислительную архитектуру, которая может обучать передовые модели искусственного интеллекта (ИИ), потребляя при этом меньше вычислительных ресурсов. Они надеются, что однажды это приведёт к созданию общего искусственного интеллекта (AGI).
Самые продвинутые на сегодняшний день модели искусственного интеллекта — преимущественно большие языковые модели (LLM), такие как ChatGPT или Claude 3 — используют нейронные сети. Это наборы алгоритмов машинного обучения, которые обрабатывают данные аналогично человеческому мозгу и взвешивают различные варианты для получения выводов.
LLM в настоящее время ограничены, потому что они не могут работать за пределами своих тренировочных данных и не могут рассуждать, как люди. Однако AGI — это гипотетическая система, которая может рассуждать, контекстуализировать, редактировать свой собственный код и понимать или изучать любую интеллектуальную задачу, которую может выполнить человек.
Сегодня создание более умных систем искусственного интеллекта основано на создании ещё более крупных нейронных сетей. Некоторые учёные полагают, что нейронные сети могут привести к созданию искусственного интеллекта, если их достаточно масштабировать. Но это может оказаться непрактичным, учитывая то, что вместе с этим будет расти потребление энергии и спрос на вычислительные ресурсы.
Другие исследователи говорят, что для создания будущей системы AGI необходимы новые архитектуры или комбинация различных вычислительных архитектур. В этом духе новое исследование, опубликованное 16 августа в журнале Nature Computational Science, предлагает новую вычислительную архитектуру, вдохновлённую человеческим мозгом, которая, как ожидается, устранит практические проблемы масштабирования нейронных сетей.
«Исследователи искусственного интеллекта (ИИ) в настоящее время считают, что основным подходом к созданию более универсальных моделей является использование больших ИИ-моделей, где существующие нейронные сети становятся более глубокими, крупными и широкими. Мы называем это подходом больших моделей с внешней сложностью, — говорится в исследовании. — В данной работе мы утверждаем, что существует другой подход, называемый маленькой моделью с внутренней сложностью, который может быть использован для нахождения подходящего пути интеграции богатых свойств в нейроны для построения более крупных и эффективных ИИ-моделей.»
В заявлении учёных говорится, что в человеческом мозге 100 миллиардов нейронов и почти 1000 триллионов синаптических связей, причём каждый нейрон имеет богатую и разнообразную внутреннюю структуру. Однако его потребляемая мощность составляет всего около 20 Вт.
Стремясь имитировать эти свойства, исследователи использовали подход, фокусирующийся на «внутренней сложности», а не на «внешней сложности» масштабирования архитектур ИИ. Идея состоит в том, что сосредоточение внимания на усложнении отдельных искусственных нейронов приведёт к созданию более эффективной и мощной системы.
Они построили сеть Ходжкина-Хаксли с богатой внутренней сложностью, где каждый искусственный нейрон представлял собой модель Ходжкина-Хаксли, которая могла масштабироваться по внутренней сложности.
Модель Ходжкина-Хаксли (ХХ) — это вычислительная модель, которая симулирует нейронную активность и демонстрирует наивысшую точность в захвате нейронных всплесков — импульсов, которые нейроны используют для общения между собой, согласно исследованию 2022 года. Она обладает высокой достоверностью в представлении паттернов возбуждения реальных нейронов, как показало исследование 2021 года, и поэтому подходит для моделирования глубокой нейронной сети, стремящейся воспроизвести человеческие когнитивные процессы.
В исследовании учёные продемонстрировали, что эта модель может эффективно и надёжно справляться со сложными задачами. Они также показали, что небольшая модель, основанная на этой архитектуре, может работать так же хорошо, как и гораздо большая традиционная модель искусственных нейронов.
И хотя AGI является важной вехой, которая до сих пор ускользает от науки, некоторые исследователи говорят, что это всего лишь вопрос времени, прежде чем человечество построит первую подобную модель — хотя существуют конкурирующие взгляды на то, как этого достичь. Например, SingularityNET предложила построить суперкомпьютерную сеть, основанную на распределенной сети различных архитектур для обучения будущей модели AGI.