Компанія запускає новий застосунок для створення відео за допомогою генеративного штучного інтелекту. Flow використовує модель ШІ Veo 3, яка вперше зможе створювати відео зі звуком, що є новим етапом розвитку подібних генеративних ШІ. Вона розуміє контекст і здатна додавати відповідний звуковий супровід, включно з різними ефектами, шумами та навіть з діалогами. Користувачі зможуть створювати діалоги, вказуючи в описі персонажів та їхні репліки.

Генерація звуків і музики не є чимось незвичайним для ШІ. Але Google першою представила інструмент, який узгоджує генерацію відео зі звуковою генерацією. Це дає змогу створювати невеликі узгоджені кліпи тривалістю до 8 секунд. Застосунок Flow нагадує простий відеоредактор і в ньому потім можна зшивати ці короткі ролики. Також він використовує інструменти на основі ШІ Gemini та Imagen.

Google розглядає Veo 3 як потужний інструмент для творчості, щоб творці контенту та режисери могли швидко подивитися, який вигляд матимуть їхні ідеї до повноцінної великої реалізації. Google DeepMind не розкриває, звідки бралися дані для навчання. Але найімовірніше, для цього використовували контент із платформи YouTube. Для зниження ризику діпфейків у створених відео компанія запускає власну технологію водяних знаків SynthID, що дає змогу вбудовувати невидимі маркери в кадри, які генерує Veo 3.

Також Google оновила попередню модель Veo 2 та модель генерації зображень Imagen 4.

Джерела:
The Verge
Google