Точно так же, как ChatGPT генерирует текст, предсказывая слово, которое с наибольшей вероятностью следует за предыдущим, новая модель искусственного интеллекта (ИИ) может создавать новые белки, которые не встречаются в природе, при этом делать это с нуля.
Учёные использовали новую модель ESM3 для создания нового флуоресцентного белка, который имеет только 58% последовательности, совпадающей с естественно встречающимися флуоресцентными белками, согласно исследованию, опубликованному 2 июля в базе данных препринтов bioRxiv. Представители EvolutionaryScale, компании, основанной бывшими исследователями Meta, также изложили подробности в заявлении от 25 июня.

Исследовательская группа выпустила малую версию модели под некоммерческой лицензией и планирует предоставить крупную версию модели коммерческим исследователям. По данным EvolutionaryScale, эта технология может быть полезна в таких областях, как открытие новых лекарств и разработка новых химических веществ для разложения пластика.
ESM3 — это большая языковая модель (LLM), подобная GPT-4 от OpenAI, которая лежит в основе чат-бота ChatGPT. Учёные обучили свою самую крупную версию на 2,78 миллиарда белков. Для каждого белка они извлекали информацию о последовательности (порядке аминокислотных строительных блоков, составляющих белок), структуре (трехмерной свернутой форме белка) и функции (что делает белок). Они случайным образом скрывали части информации об этих белках и просили ESM3 предсказать недостающие части.
Эту модель масштабировали на основе исследований, которые та же команда проводила, когда ещё работала в Meta. В 2022 году они объявили о создании EMSFold — предшественника ESM3, который предсказывал неизвестные микробные белковые структуры. В том же году компания Alphabet’s DeepMind также предсказала структуры белков для 200 миллионов белков.
Впоследствии учёные указали, что у предсказаний этих моделей ИИ есть ограничения, и предсказания белков необходимо проверять. Однако эти методы всё же могут значительно ускорить поиск белковых структур, так как альтернатива заключается в использовании рентгеновских лучей для картирования белковых структур по одной, что медленно и дорого.
Однако ESM3 выходит за рамки простого предсказания существующих белков. Используя информацию, полученную из 771 миллиарда уникальных данных о структуре, функции и последовательности, модель может создавать новые белки с определёнными функциями. Один из спонсоров EvolutionaryScale описал это как «ChatGPT для биологии».
В новом исследовании учёные задали модели создать новый флуоресцентный белок — вид белка, который поглощает свет и испускает его на более длинной волне, заставляя светиться новым оттенком зелёного. Эти белки важны для биологических исследований, так как их прикрепляют к молекулам, которые учёные хотят изучить, чтобы отслеживать и изображать их; их открытие и разработка принесли в 2008 году Нобелевскую премию по химии.
Модель сгенерировала 96 белков с последовательностями и структурами, которые, вероятно, могут излучать флуоресценцию. Исследователи выбрали тот, который имел наименьшее количество общих последовательностей с естественно флуоресцирующими белками. И хотя этот белок был в 50 раз менее ярким, чем натуральные зелёные флуоресцентные белки, ESM3 сгенерировала другую итерацию, которая привела к новым последовательностям, увеличившим яркость — и результатом стал зелёный флуоресцентный белок, не похожий на любой из найденных в природе, названный «esmGPF». Эти итерации, выполненные ИИ за считанные мгновения, заняли бы 500 миллионов лет эволюции, по оценкам команды EvolutionaryScale.