Новые исследования показывают, что популярные генераторы изображений на основе искусственного интеллекта (ИИ) могут работать в 30 раз быстрее благодаря технологии, которая объединяет весь 100-этапный процесс в один этап.
Учёные разработали метод под названием «distribution matching distillation» (DMD), который учит новые модели искусственного интеллекта имитировать существующие генераторы изображений, известные как диффузионные модели, такие как DALL·E 3, Midjourney и Stable Diffusion.
Эта структура позволяет создавать более компактные модели искусственного интеллекта, которые в состоянии генерировать изображения гораздо быстрее, сохраняя при этом то же качество конечного изображения. Учёные подробно описали свои выводы в исследовании, загруженном 5 декабря 2023 года на сервер препринтов arXiv.
«Наша работа представляет собой новый метод, который ускоряет существующие модели диффузии, такие как Stable Diffusion и DALLE-3, в 30 раз, — говорится в заявлении соавтора исследования Тяньвэй Инь (Tianwei Yin), докторанта в области электротехники и информатики в Массачусетском технологическом институте. — Это достижение не только значительно сокращает время вычислений, но и сохраняет, если не превосходит, качество создаваемого визуального контента.»
Модели диффузии генерируют изображения посредством многоэтапного процесса. Используя изображения с описательными текстовыми подписями и другими метаданными в качестве обучающих данных, ИИ обучается лучше понимать контекст и значение изображений, чтобы точно реагировать на текстовые подсказки.
На практике эти модели работают, беря случайное изображение и кодируя его полем случайного шума, чтобы оно было разрушено, объяснил учёный в области искусственного интеллекта Джей Аламмар (Jay Alammar) в своём блоге. Это называется «прямой диффузией» и является ключевым этапом в процессе обучения. Затем изображение проходит до 100 этапов по устранению шума, известному как «обратная диффузия», для создания чёткого изображения на основе текстовой подсказки.
Применив свою новую концепцию к новой модели и сократив количество этапов «обратной диффузии» до одного, учёные сократили среднее время, необходимое для создания изображения. В одном тесте их модель сократила время генерации изображения примерно с 2590 миллисекунд (или 2,59 секунды) с использованием Stable Diffusion v1.5 до 90 мс — в 28,8 раза быстрее.
DMD состоит из двух компонентов, которые работают вместе, чтобы сократить количество итераций, необходимых модели, прежде чем она выдаст пригодное для использования изображение. Первый, называемый «регрессионной потерей», во время обучения упорядочивает изображения на основе сходства, что позволяет ИИ учиться быстрее. Второй называется «потеря соответствия распространению», что означает, что вероятность изображения, скажем, надкушенного яблока соответствует тому, как часто вы можете встретить такое яблоко в реальном мире. Вместе эти методы сводят к минимуму то, насколько диковинными будут выглядеть изображения, созданные новой моделью ИИ.
«Уменьшение количества итераций было Святым Граалем в диффузионных моделях с момента их создания, — сказал в своём заявлении соавтор исследования Фредо Дюран (Fredo Durand), профессор электротехники и информатики в Массачусетском технологическом институте. — Мы очень рады, что наконец-то можем реализовать одноэтапную генерацию изображений, что значительно снизит затраты на вычисления и ускорит процесс.»
По словам Инь, новый подход значительно снижает вычислительную мощность, необходимую для создания изображений, поскольку требуется всего один этап, в отличие от «сотни этапов итеративного уточнения» в оригинальных диффузионных моделях. По словам учёных, эта модель также может предложить преимущества в отраслях, где молниеносная и эффективная генерация имеет решающее значение, что приводит к гораздо более быстрому созданию контента.