Новая модель автоматически генерирует трейлеры к фильмам.

Фото: Pixabay/CC0 Public Domain

Кибернетика
Шрифты

Трейлеры, короткие видеоклипы, знакомящие нас с новыми фильмами, часто являются ключевыми элементами рекламных стратегий, применяемых кинокомпаниями. Чтобы быть наиболее эффективными, трейлеры должны кратко излагать сюжет фильма, в привлекательной форме передавая его художественный стиль и общее настроение.

До сих пор трейлеры к фильмам создавали в основном люди. Однако недавно некоторые ученые-информатики начали изучать возможность того, что эти рекламные ролики могут также автоматически создаваться машинами.

Исследователи из Эдинбургского университета разработали модель на основе искусственной нейронной сети, которая может автоматически генерировать трейлеры фильма. Эта модель, представленная в статье, предварительно опубликованной на arXiv, базируется на спонтанном (обучение без учителя) алгоритме машинного обучения на основе графов.

Чтобы лучше всего справиться с задачей автоматического создания трейлеров фильма, исследователи разделили ее на две подзадачи, а именно: определение повествовательной структуры фильма и предсказание сантиментов (т.е. шастроения и чувства), которые он передает. Таким образом, созданная ими техника обрабатывает как части фильма (то есть видео), так и текстовые отрывки из сценария фильма.

«Мы моделируем фильмы как графы, где узлы - это кадры, а ребра обозначают семантические (смысловые) отношения между ними», - написали в своей статье исследователи, проводившие исследование. «Мы изучаем эти отношения, используя совместное контрастирующее обучение, которое использует привилегированную текстовую информацию (например, персонажи, действия, ситуации) из сценариев. Затем алгоритм с спонтанным обучением просматривает граф и генерирует трейлеры».

По сути, созданный ими метод создания трейлеров фильма состоит из двух нейронных сетей. В то время как одна из этих сетей обрабатывает мультимодальные представления кадров, полученные из видеопотока фильма, другая анализирует текстовые представления сцены, основанные на сценарии фильма.

Вместе две нейронные сети могут определять поворотные моменты в фильме, которые являются особенно важными частями фильма и которые должны быть показаны в трейлерах. Поворотные моменты в фильмах обычно включают благоприятную возможность, изменение плана, точку невозврата, серьезную неудачу и кульминацию.

Исследователи оценили свою технику создания трейлеров к фильмам в серии тестов. Примечательно, что они обнаружили, что она может определять поворотные моменты в фильмах со значительно большей точностью, чем другие базовые методы для создания трейлеров к фильмам.

Обзор архитектуры, созданной исследователями. Две сети обрабатывают разные представления фильма с разной степенью детализации. Сеть на основе видео принимает в качестве входных данных мультимодальное "тонкозернистое" (очень детализированное) кадровое представление на основе видеопотока фильма. Сеть на основе сценария обрабатывает текстовые представления сцен, которые являются "крупнозернистыми" и основаны на сценарии фильма. Сети обучаются совместно, обеспечивая согласованность предсказаний и представлений между ними. Фото: Papalampidi, Keller and Lapata.

В дополнение, исследователи использовали свою модель для создания трейлеров к 41 фильму. Затем они сравнили качество созданных трейлеров с качеством трейлеров, созданных с помощью методов обучения с учителем, задавая вопросы зрителям, набранным на интернет-площадкt Amazon Mechanical Turk, какие из них они предпочитают. Интересно, что большинство респондентов отдали предпочтение трейлерам, созданным их техникой, а не моделям на основе методов обучения с учителем.

Хотя созданная модель, возможно, еще не создает идеальных трейлеров, в конечном итоге ее могут использовать кинокомпании для облегчения и ускорения производства трейлеров. Тем временем команда планирует продолжить работу над своей техникой, чтобы улучшить качество производимых ею трейлеров.

«В будущем мы хотели бы сосредоточиться на методах предсказания тонких эмоций (например, горя, отвращения, ужаса, радости) в фильмах», - добавили исследователи в своей статье. «В этой работе, мы рассматриваем положительные/отрицательные сантименты как замену эмоциям из-за отсутствия наборов данных с метками в конкретных предметных областях. Возможности для будущей работы включают новые наборы данных об эмоциях для фильмов, а также модели обнаружения эмоций, основанные на текстовых данных и аудиовизуальных подсказках».

Источник: Tech Xplore