VASA-1 ist ein von Microsoft Research entwickeltes KI-Framework, das aus einem einzigen statischen Bild und einem Sprach-Audio-Clip lebensechte sprechende Gesichter generieren kann.
Die Hauptinnovationen umfassen ein Modell zur holistischen Erzeugung von Gesichtsdynamik und Kopfbewegungen im latenten Raum des Gesichts sowie die Entwicklung eines ausdrucksstarken und entwirrten latenten Gesichtsraums mithilfe von Videos.
VASA-1 kann nicht nur realistische Lippenbewegungen erzeugen, die exquisit mit dem Audio synchronisiert sind, sondern auch eine breite Palette von Gesichtsnuanzen und natürlichen Kopfbewegungen, die zur Wahrnehmung von Authentizität und Lebendigkeit beitragen.
Es ermöglicht die Echtzeit-Erzeugung von 512×512-Videos mit bis zu 40 FPS und ebnet den Weg für lebensechte Avatare, die menschliches Gesprächsverhalten nachahmen können.
Weitere Informationen gibt es auf der offiziellen Projektseite.