Исследователи создали первый алгоритм искусственного интеллекта (ИИ) общего назначения, который в состоянии справиться с широким спектром игр, получивший название «Student of Games».
Игровые алгоритмы обычно разрабатываются для освоения либо информационно-совершенных игр, таких как го или шахматы, в которых у каждого игрока есть вся информация, либо информационно-несовершенных игр, таких как покер, в которых некоторая информация скрыта от других игроков. Это связано с тем, что процесс обучения алгоритмов исторически различался для двух типов игр: первый использует поиск и обучение, а второй — теоретико-игровое рассуждение и обучение.

Но новый алгоритм «Student of Games» обходит это ограничение, сочетая управляемый поиск, самостоятельное обучение и теоретико-игровые рассуждения, согласно новой статье, описывающей алгоритм, опубликованной 15 ноября в журнале Science Advances.
При тестировании «Student of Games» показал себя как в информационно-совершенных шахматах и го, так и в информационно-несовершенных Техасском Холдеме и Скотланд Ярде. Однако он не смог превзойти лучшие специализированные алгоритмы искусственного интеллекта в личных встречах.
«Это шаг к созданию ещё более общих алгоритмов», — сообщил в электронном письме Live Science ведущий автор исследования Мартин Шмид (Martin Schmid), генеральный директор и соучредитель EquiLibre Technologies.
«Один из выводов заключается в том, что можно действительно разработать технику, которая будет работать как для совершенных, так и для несовершенных информационных игр, вместо того, чтобы использовать специализированные алгоритмы. Ещё одно интересное наблюдение заключалось в том, что одним из важных шагов была разработка нового формализма, позволяющего создать по-настоящему общий дизайн алгоритма, основанного на поиске.»
Игры долгое время служили эталоном прогресса в области искусственного интеллекта. Например, в 2016 году AlphaGo от DeepMind победила профессионального игрока в го-человека. В следующем же году система Libratus обыграла лучших игроков в покер в мире в 20-дневном турнире по Техасскому Холдему.
«Игры — это чётко определённый ориентир, и существует долгая история прогресса в области искусственного интеллекта, привязанная к вехам в развитии искусственного интеллекта для игр, — объяснил Шмид. — Игры иногда называют фруктовыми дрозофилами искусственного интеллекта, позволяющими быстро развиваться и постепенно прогрессировать.»
Но всегда существовала пропасть между информационно совершенными и несовершенными играми. Чтобы обойти это, команда специалистов обучила свой алгоритм общего назначения, используя так называемый алгоритм минимизации контрфактических сожалений растущего дерева (Growing-Tree Counterfactual Regret Minimization, или GT-CFR), разновидность широко используемого алгоритма, в котором система искусственного интеллекта обучается, постоянно играя против самой себя.
Команда объединила методы, используемые для создания различных игровых алгоритмов, от AlphaZero — более продвинутой версии AlphaGo — до DeepStack — первой компьютерной программы, которая переиграла людей-профессионалов в Техасский Холдем.
В категории «информационно-совершенных» команда обнаружила, что «Student of Games» работает так же хорошо, как эксперты-люди или профессионалы, но в очной игре он был значительно слабее специализированных алгоритмов, таких как AlphaZero.
Однако он превзошёл алгоритм Техасского Холдема Slumbot, который, по утверждению исследователей, является лучшим открытым покерным агентом, а также неназванного современного агента Скотланд Ярда.
Однако «Student of Games» оказался бы неэффективен в сложных играх, в которых от участвующих игроков скрывается гораздо больше информации, чем в покере, сообщил в электронном письме Live Science соавтор исследования Финбарр Тимберс (Finbarr Timbers), исследователь в компании Midjourney.
Например, в безлимитном Холдеме существует 1326 возможных комбинаций открытых карт на старте, с которыми могут столкнуться игроки.
«Такие игры, как Starcraft или Stratego, которые содержат гораздо больший список возможной личной информации, которой может обладать каждый игрок, были бы недоступны для SoG», — сказал Тимберс.
В будущем исследователи планируют устранить ограничения, с которыми они столкнулись, в частности, снизить высокие затраты и вычислительную мощность, необходимые для запуска «Student of Games», и добиться высокой производительности.