Модульная нейронная сеть состоит из нескольких компонентов: модуль синтаксического анализа выделяет основные предложения из описания сцен, модуль обработки упрощает все еще сложные предложения, а модуль генерации анимации переводит команды в видеоряд, заимствуя образы из библиотеки, которая содержит 92 анимированных блока.
Обучение системы проводили на описаниях сцен из 996 сценариев с сайтов IMSDb, SimplyScripts и ScriptORama5.
Чтобы оценить качество работы алгоритма, трем сотрудникам было предложено преобразовать сценарий в мультипликацию по тому же механизму, что и модель, а исследователям необходимо было оценить различия в результатах работы машины и людей. Выяснилось, что качество преобразования (близость к ручной работе) достаточно сильно варьируются в зависимости от типа слова в предложении: c меньшей погрешностью алгоритм описывал эмоции.
Наконец, правдоподобность сгенерированных видеорядов испытали на 22 добровольцах. По пятибалльной шкале от «полностью не согласен» до «полностью согласен» 45,23% участников согласились с утверждением, что алгоритм корректно визуализирует текст. Около 60% согласились с тем, что алгоритм не добавляет в визуализацию действия, не упомянутые в сценарии.
Искусственный интеллект Disney генерирует оригинальные клипы на основе печатного текста уже не впервые. В прошлом году исследователи представили систему, которая использует пару нейронных сетей для создания видеоряда длиной в 32 кадра на основе команд типа «игра в гольф на траве».
Источник: https://indicator.ru/news/2019/04/16/disney-ii-sozdaet-multiplikacii/