Hamarosan új funkcióval fog bővülni a keresőóriás DeppMind mesterséges intelligencia szoftvere, ugyanis a hírek szerint a vállalat egy olyan új technológián dolgozik, amely hangsávokat, akár párbeszédeket is képes lesz generálni videókhoz, elég lesz csak néhány promptot megadni hozzá.
A Google megosztotta a video-audio (V2A) technológiájuk fejlődését egy új blogbejegyzésben, mely lehetővé teszi a szinkronizált audiovizuális generálást, amit a Google Veo-val vagy más videókészítő eszközökkel, például az OpenAI Sorával is párosítható. A technológia képes megérteni a raw pixeleket, és ezeket az információkat szöveges üzenetekkel kombinálja, hogy hanghatásokat hozzon létre a képernyőn zajló eseményekhez.
Természetesen a videóhoz promptokat is meg lehet adni, mely alapján az AI azonnal generálni fog nekünk párbeszédet vagy bármilyen hangaláfestést. Ezt egy rövid videóval is demonstrálta a vállalat. A kutatók természetesen tisztában vannak a V2A korlátaival, például a hangminőség csökkenhet, illetve az ajak szinkronizálásban is kell még fejlődnie.