Создана первая российская нейросеть, умеющая генерировать видеоролики
Заработала первая в России нейросеть для генерации видеороликов. Ее создал Сбербанк, и аналогов у нее в стране нет. За рубежом подобных сервисов много – есть и американские, и китайские решения, как платные, так и бесплатные.
Содержание статьи:
- 1 Вместо изображения – видеоролик
- 2 Что внутри нейросети
- 3 Не анимация, а видео
- 4 Когда есть альтернатива
- 5 Другие материалы рубрики
- 6 MARKET.CNEWS
- 7 Техника
- 8 Наука
- 8.1 Паутина из тутовых червей в 6 раз прочнее кевлара — ее можно использовать даже для бронежилетов
- 8.2 Астрономы выяснили, что любимое лакомство черных дыр — это квазары
- 8.3 Ликбез RnD.CNews: что такое суперконтиненты и правда ли, что все континенты Земли соединятся
- 8.4 Чем заменить Zoom, Slack и Microsoft Teams?
- 8.5 Наступает время платформизации
- 8.6 Не надо заниматься автоматизацией по-старому — цифровая трансформация может принести значительно больше пользы
- 8.7 Наступает время платформизации
- 8.8 Как производители российского ПО замещают Jira и Confluence
- 8.9 Электроника России
- 8.10 Чем заменить Zoom, Slack и Microsoft Teams?
Вместо изображения – видеоролик
Сбербанк сообщил CNews о запуске своей новейшей нейросети Kandinsky Video, способной создавать небольшие видеоролики, основываясь на заданном пользователем текстовом описании. По словам разработчиков, это первый в России сервис подобного рода.
Создать при помощи Kandinsky Video полноценный многоминутный ролик нельзя – максимальная продолжительность одного клипа составляет всего 8 секунд. Кроме того, есть ограничение по частоте кадров в секунду – не более 30.
Сбербанк не сообщает, чем вызваны эти ограничения, и есть ли у него планы по отказу от них. На соответствующие вопросы редакции CNews представители банка не ответили.
Окно управления Kandinsky Video в сервисе Fusion Brain
Ждать от Kandinsky Video, что она создаст ролик высоком разрешении, тоже не стоит – ни о каких HD (1280х720 пикселей), Full HD (1920×1080) и тем более 4К (3840х2160) речи здесь нет. В ответ на запрос пользователя нейросеть, если пользоваться ею через платформу Сбербанка Fusion Brain, выдаст ролик в форматах лишь 512х512, 384х640 или 640х384 точки, что соответствует пропорциям 1:1, 9:16 и 16:9
Что внутри нейросети
По словам разработчиков, в основе Kandinsky Video находятся два базовых блока. Задача первого – это генерация ключевых кадров, из которых нейросеть в дальнейшем сложит структуру сюжета ролика.
Запрос «Детальный вид лица киборга, высокая детализация, 8K»
Второй блок занимается генерацией так называемых «интерполяционных кадров», которые «позволяют достичь плавности движений в финальном видео», сообщили CNews в Сбербанке. Чтобы все работало корректно, Kandinsky Video функционирует в паре с новейшей нейросетью Kandinsky 3.0, запущенной одновременно с Kandinsky Video и служащей, как и первые два ее поколения, для генерации изображений по текстовому описанию.
Результат работы нейросети
Kandinsky 3.0 обучена создавать более фотореалистичные изображения в сравнении с Kandinsky 2.0. Также в списке ее возможностей отныне есть функция создания полноценных художественных картины и артов со скетчами.
Не анимация, а видео
Разработчики Kandinsky Video делают отдельный акцент на том, что создаваемые этой нейросетью ролики ни в коем случае нельзя путать с анимационным видео. Они подчеркивают, что разница между ними кардинальная.
Так, каждое творение Kandinsky Video – это непрерывная сцена, на которой в движении находятся как объект на переднем плане, так и фон позади него. В анимационных же видеороликах динамика достигается иным способом – за счет моделирования пролета камеры относительно статичной сцены. К слову, Kandinsky Video умеет генерировать и такую анимацию.
Когда есть альтернатива
На момент выхода материала у Сбербанка было две нейросети, умеющих генерировать видеоролики. Конкуренцию Kandinsky Video в экосистеме банка составляет упомянутая Kandinsky 3.0, но ее возможности в этом плане более ограничены, хотя в чем-то она опережает Kandinsky Video.
В Сбербанке сообщили CNews, что в Kandinsky 3.0 можно создавать ролики в режиме анимации по текстовому описанию. Один запрос – это один ролик длительностью до четырех секунд в разрешении 640х640 пикселей и частотой 24 кадра в секунду. Эффект анимации пользователь должен выбрать самостоятельно до начала процесса генерации. Синтез одной секунды такого видео длится в среднем около 20 секунд.
Фото: Официальный интернет-портал Администрации Томской области Аппаратная составляющая всех нейросетей — это мощные суперкомпьютеры
В России прямых конкурентов у Kandinsky Video пока нет, но их довольно много за рубежом. Генеративные сети, способные создавать видеоролики, стали массово появляться в 2022 г. – например, с мая 2022 г. работает китайский проект CogVideo с открытым кодом. На момент запуска создаваемые в CogVideo ролики имели частоту всего-навсего 8 кадров в секунду.
Как ЕСМ-платформы помогают уменьшить затраты и повысить эффективность? Документооборот
Свои нейросети по созданию видео есть и у крупных игроков мировой ИТ-сферы. Например, в распоряжении Google есть проект Imagen Video, которой по силам генерировать видео в разрешении до 1280х768 точек и частоте 24 кадра в секунду. Но их длина не превышает трех секунд.
Также у Google есть проект Dreamix – его она показала в феврале 2023 г., и он служит не для генерации новых, а для редактирования уже существующих роликов. Например, нейросеть способна заменить один объект в кадре, например, собаку, на совершенно другой – на кошку или другое животное.
Поделиться Подписаться на новости
Короткая ссылка
Другие материалы рубрики
Импортозамещение, кооперация и продуктовый подход: о чем говорили эксперты на конференции по ИТ-трансформации
Основателя Chronopay обвинили в легализации полумиллиарда рублей
Как организовать гибридное обучение с помощью российских технологий
Из интернета в считанные дни пропали десятки сервисов обхода блокировок
Рынок корпоративных браузеров: как изменились требования российского бизнеса к безопасности
Реестр российского ПО переехал на отечественный Linux «Ред ОС»
MARKET.CNEWS
DBaaS
Выбрать тариф на облачную базу данных
От 0.80 руб./месяц
СЭД
Подобрать систему электронного документооборота СЭД (ECM)
От 1 360 руб./месяц
Email-рассылки
Выбор сервиса для почтовых рассылок
От 0.13 руб./месяц
RPA
Подобрать платформу роботизации RPA
От 200 000 руб./месяц
Техника
Выбираем робот-пылесос: за что нужно платить в 2023 году
10 онлайн-сервисов для быстрой обработки фотографий без регистрации: выбор ZOOM
Лучшие моноблоки с диагональю 27 дюймов: выбор ZOOM
Показать еще
Наука
Паутина из тутовых червей в 6 раз прочнее кевлара — ее можно использовать даже для бронежилетов
Астрономы выяснили, что любимое лакомство черных дыр — это квазары
Ликбез RnD.CNews: что такое суперконтиненты и правда ли, что все континенты Земли соединятся
Показать еще Решение месяца
Чем заменить
Zoom, Slack
и Microsoft Teams?
Изучаем РТУ-Коннект.
cnews forum
Наступает время платформизации
Максут Шадаев
Министр цифрового развития, связи и массовых коммуникаций
Компания месяца
Не надо заниматься автоматизацией по-старому — цифровая трансформация может принести значительно больше пользы
Александр Глазков
управляющий директор компании «Диасофт»
cnews forum
Наступает время платформизации
Максут Шадаев
Министр цифрового развития, связи и массовых коммуникаций
Продукт месяца
Как производители
российского ПО замещают
Jira и Confluence
Что делать и куда смотреть, если вашей компании только предстоит «переезд»?
Электроника России
Решение месяца
Чем заменить
Zoom, Slack
и Microsoft Teams?
Изучаем РТУ-Коннект.