Невероятный новый фотографический искусственный интеллект Google делает «масштабирование и улучшение» реальной вещью.

Фото: Google Research

Кибернетика
Шрифты

Возможно, вы видели научно-фантастические фильмы или телешоу, в которых главный герой просит увеличить изображение и улучшить результаты - показывая лицо, номерной знак или любую другую ключевую деталь - и новейшие движки искусственного интеллекта Google, основанные на так называемых диффузионных моделях, способны осуществить этот самый трюк.

Это сложный процесс для освоения, потому что, по сути, происходит то, что добавляются детали изображения, которые изначально не захватывала камера, с использованием некоторых супер-умных догадок, основанных на других, похожих на вид изображениях.

Google назвал эту технику синтезом естественного изображения, и в данном конкретном случае - сверхвысоким разрешением изображения. Вы начинаете с небольшой блочной фотографии с пикселями, которая вся квадратиках, а в итоге получаете что-то резкое, четкое и естественное. Возможно, это не совсем соответствует оригиналу, но достаточно близко, чтобы выглядеть реальным для пары человеческих глаз.

Благодаря крупномасштабному обучению SR3 достигает хороших результатов тестов в задаче сверхвысокого разрешения для лиц и естественных изображений при масштабировании до разрешений в 4–8 раз по сравнению с входным изображением с низким разрешением. Эти модели со сверхвысоким разрешением можно дополнительно объединить в каскад, чтобы увеличить эффективный масштабный коэффициент сверхвысокого разрешения, например, сложив вместе модели со сверхвысоким разрешением 64x64 → 256x256 и 256x256 → 1024x1024 для выполнения задачи со сверхвысоким разрешением 64x64 → 1024x1024. Фото: Google Research

Google фактически представил два новых инструмента искусственного интеллекта для этой работы. Первый называется SR3, или Супер-Разрешение через Повторное Уточнение (Super-Resolution via Repeated Refinement), и он работает, добавляя шум или непредсказуемость к изображению, а затем обращая процесс вспять и убирая это - так же, как редактор изображений может попытаться сделать ваши снимки из отпуска более резкими и улучшить их.

«Диффузионные модели работают, искажая обучающие данные, постепенно добавляя гауссовский шум, медленно стирая детали в данных, пока они не станут чистым шумом, а затем обучая нейронную сеть обратить вспять этот процесс искажения», - объясняют исследователь Джонатан Хо и инженер-программист Читван Сахария из Google Research.

Посредством серии вероятностных вычислений, основанных на обширной базе данных изображений и некоторой магии машинного обучения, SR3 может представить, как выглядит версия блочного изображения с низким разрешением в полном разрешении. Вы можете прочитать об этом в статье, опубликованной Google на arXiv.

Второй инструмент - это каскадные диффузионные модели (Cascaded Diffusion Models, сокращённо CDM). Google описывает их как «трубопроводы», по которым диффузионные модели, включая SR3, могут быть направлены для повышения (апгрейда) разрешения изображений высокого качества. Он берет модели улучшения и делает из них более крупные изображения, и Google также опубликовал статьюопубликовал статью об этом.

Инструмент CDM в действии. Фото: Google Research

По словам Google, за счет использования разных моделей улучшения при разных разрешениях подход CDM может превзойти альтернативные методы увеличения размера изображений. Новый движок искусственного интеллекта был протестирован в ImageNet, гигантской базе данных обучающих изображений, обычно используемых для исследования визуального распознавания объектов.

Конечные результаты SR3 и CDM впечатляют. В стандартном тесте с участием 50 человек-добровольцев изображения человеческих лиц, сгенерированные SR3, ошибочно принимались за настоящие фотографии примерно в 50% случаев - и, учитывая, что идеальный алгоритм должен был набрать 50% баллов, это впечатляет.

Стоит повторить, что эти улучшенные изображения не являются точными совпадениями с оригиналами, но представляют собой тщательно рассчитанные симуляции, основанные на некоторых сложных математических вычислениях.

Результаты масштабирования с помощью алгоритма SR3 для изображения с лицом (64×64 → 512×512). Фото: Google Research

Google заявляет, что диффузионный подход дает лучшие результаты, чем альтернативные варианты, включая ( Генеративно-состязательные сети (англ. Generative adversarial networks, сокращённо GAN), которые противопоставляют две нейронные сети друг другу для уточнения результатов.

Google обещает гораздо больше от своих новых движков искусственного интеллекта и связанных с ними технологий - не только с точки зрения масштабирования изображений лиц и других природных объектов, но и в других областях вероятностного моделирования.

«Мы рады продолжить тестирование возможностей диффузионных моделей для широкого спектра задач генеративного моделирования», - поясняет команда.

Источник: ScienceAlert