Google stellt Lumier vor – fortschrittliche KI für die Videoerstellung
Google demonstrierte das räumlich-zeitliche Diffusionsmodell Lumiere. Das neue KI-Tool kann erstaunlich realistische Videos von bis zu fünf Sekunden Länge erstellen. Das neuronale Netz animiert Standbilder oder nur Teile davon als Reaktion auf natürlichsprachliche Texteingaben. Im Gegensatz zu seinen Vorgängern baut Lumiere die gesamte Länge des Videos auf einmal auf, anstatt das erste und das letzte Bild zu erzeugen und zu versuchen zu erraten, was dazwischen passiert. Bei der Entwicklung handelt es sich um ein Forschungsprojekt, und es ist noch nicht bekannt, ob es für eine breite Anwendung zur Verfügung stehen wird.
Lumiere kann den Stil eines Bildes kopieren und diesen Stil dann zur Erstellung einer Reihe von Videos zu anderen Themen verwenden. Das neuronale Netz kann das Originalvideo eines Nutzers in Lego, Origami oder Blumen verwandeln.
Nach den Demonstrationen zu urteilen, verfügt Lumiere über die fortschrittlichsten Zeichenfunktionen. Sie können einen Teil des Bildes ausblenden, und Lumiere füllt diesen Bereich automatisch aus – so nahtlos, dass es unmöglich ist zu erkennen, ob eine künstliche Intelligenz eingegriffen hat.
Das Forschungsteam behauptet, dass die räumlich-zeitliche Architektur von U-net die gesamte Länge des Videos in einem einzigen Durchgang aufbaut. Damit unterscheidet sich das neuronale Netz von früheren Modellen, die häufig ein Anfangs- und ein Endbild erzeugten und dann versuchten zu erraten, was dazwischen passieren würde.
Im Moment handelt es sich nur um ein Forschungsprojekt. Daher muss Google das System nicht unbedingt aggressiv neutralisieren, um das Urheberrecht, die Privatsphäre und die Sicherheit zu wahren sowie Hassreden und Nacktheit zu verhindern. Dieser Prozess führt bei generativen Modellen unweigerlich zu einer Verschlechterung der Qualität des Ergebnisses.