Сред множеството AI анонси от Google I/O 2026 днес една от най-впечатляващите новини е новият мултимодален модел Gemini Omni. Макар първоначално да стартира като генератор на видео, в бъдеще той ще може да включва и изображения, и аудио както от страната на входните данни, така и като краен резултат.
Идеята е потребителите да могат да ремиксират различни аудио файлове, изображения и видеа в напълно нов клип чрез персонализирана текстова заявка. В момента Gemini позволява генериране на видеа от текстови prompts и изображения, но новият модел добавя възможност за комбиниране на аудио клипове и съществуващи видеа при създаването на ново съдържание. Това означава повече източници като вход и краен резултат, който според Google ще бъде по-добър от всякога по отношение на реализъм и точност.
Макар генерирането на изображения и аудио да предстои, възможността за създаване на видео ще бъде въведена първа чрез модел, наречен Gemini Omni Flash. Примерът, който Google дава, е избор на няколко визуални стила от изображения в галерията на телефона и прилагането им върху съществуващо видео. Така например потребителят би могъл да превърне видео на себе си в реалния свят в клип, който изглежда като Pixar анимация.
Gemini Omni ще позволява и редактиране на видеа чрез „разговор“, посочва Google. Този подход вече е познат на потребителите, които използват Gemini за създаване на видеа: достатъчно е да обяснят какво искат да видят, а Omni изпълнява заявката. Чрез последващи prompts могат да се променят конкретни елементи във видеото, като обект или цвят, или да се създадат собствени „повторни заснемания“ на сцената, при които действието се променя.
Моделът ще може да променя и ъгъла на камерата или средата във видеото, например да пренесе потребителя от спалня на плажна сцена. Според Google видеата могат да се доработват в няколко последователни стъпки, като в същото време остава възможност за връщане към оригиналния клип.
Световното знание на Gemini

Google твърди, че Gemini Omni използва „интуитивно разбиране на физиката“ заедно със „знанията на Gemini за историята, науката и културния контекст“, за да създава видеа, които са максимално реалистични и последователни. На практика обаче ще бъде нужно реално тестване, за да се види доколко технологията работи толкова добре, колкото твърди компанията.
Omni вече разполага с по-добро разбиране на сили като гравитация, кинетична енергия и динамика на флуидите, което би трябвало да намали типичните странности при AI видеата. Освен че изгражда сцени, Gemini Omni според Google разсъждава и какво логично трябва да се случи след това.
AI видеата често се провалят, защото се опитват да следват модели от огромния брой видеа в обучителните си данни, вместо да се придържат към законите на физиката. Ако човек излезе извън кадър, той не винаги остава там, когато камерата се върне обратно. Google твърди, че Gemini Omni ще показва по-малко подобни проблеми.
За да ограничи риска от deepfake съдържание, Google въвежда определени ограничения върху създаването на видеа. Засега потребителите ще могат да използват само собствения си глас и дигитален аватар, базиран на тях самите, за генериране на резултати. Освен това всички видеа ще съдържат невидимия воден знак SynthID на Google, който показва, че съдържанието е генерирано с AI.
Gemini Omni Flash вече се разпространява в приложението Gemini и в Google Flow за абонати на Google AI Plus, Pro и Ultra. По-късно тази седмица моделът ще бъде достъпен безплатно и в YouTube Shorts и приложението YouTube Create.
Към момента на писане няма информация за лимитите за употреба. В момента потребителите с план Google AI Plus на цена 7,99 долара на месец могат да генерират по две видеа дневно чрез модела Veo 3.1 Lite. Остава да се види колко щедри ще бъдат лимитите за генериране с Gemini Omni, тъй като подобни заявки вероятно изискват значителен AI изчислителен ресурс.