Im Mai 2025 geht ein Reddit-Post viral, der die neuen Möglichkeiten von Google Veo 3 demonstriert: Die KI erzeugt Videos mit täuschend echtem Bild und Ton, die kaum noch von realen Aufnahmen zu unterscheiden sind. Menschen sprechen in den Videos und das Audio passt perfekt zu den Lippenbewegungen der Charaktere. Wie soll man da noch KI-Videos von realen Inhalten unterscheiden können? Spannend, aber auch unheimlich. Das Video soll von Ari Kuschnir mit Veo 3 innerhalb von 2 Stunden generiert worden sein. Er schreibt auf X: „Ich habe zwei Stunden mit Veo 3 gespielt – es kann jetzt sprechen und klingt unglaublich echt, alles direkt out of the box!“ Diese Meilensteine der generativen KI machen es zunehmend schwerer, KI-generierte Inhalte zu erkennen – und setzen damit neue Maßstäbe für Kreativität, aber auch für die Herausforderungen im Umgang mit digitalen Medien.
KI-Videos jetzt mit Ton: Das kann Veo 3 von Google
Google Veo 3 ist das neueste KI-Modell zur Videogenerierung von Google DeepMind und wurde im Mai 2025 vorgestellt. Es hebt sich vor allem dadurch ab, dass es erstmals Videos inklusive Audio generieren kann – von realistischen Umgebungsgeräuschen bis hin zu lippensynchronen Dialogen zwischen Charakteren. Die KI versteht komplexe Text-, Bild- und sogar Video-Prompts, sodass Nutzer detaillierte Szenen, Handlungen und Stile einfach beschreiben können. Veo 3 erzeugt realistische, konsistente Videos mit natürlicher Bewegung und kann Objekte in Szenen hinzufügen oder entfernen sowie den Stil und die Kameraführung präzise steuern.
Ein weiteres Highlight ist die Integration des Lyria 2-Modells für hochwertige Audiogenerierung und die Zusammenarbeit mit dem neuen KI-Filmetool Flow, das die kreative Videoproduktion weiter vereinfacht. Veo 3 richtet sich sowohl an Kreative als auch an Unternehmen und ist über Google Gemini Ultra und Vertex AI verfügbar. Die erzeugten Videos können über eine Minute lang sein und erreichen bis zu 1080p-Qualität, mit Ausblick auf 4K in der Zukunft.
Google Veo 3 ist derzeit ausschließlich in den USA verfügbar und kann dort im Rahmen des Google Gemini Ultra-Abonnements (249,99$ pro Monat) sowie für Unternehmenskunden über Vertex AI genutzt werden. Ein internationaler Rollout, einschließlich Deutschland, ist zwar angekündigt, aber bislang gibt es noch keinen konkreten Termin für den Start in Deutschland. Bis zur Freischaltung hierzulande bleibt Veo 3 also vorerst US-Nutzern vorbehalten.
Das sagen Nutzer zu Veo 3
Die Reaktionen der User auf Reddit-Posts zu KI-generierten Videos mitsamt Audios schwanken zwischen Faszination, Besorgnis und Skepsis. Viele sind beeindruckt, wie realistisch die KI-Inhalte mittlerweile wirken, und einige geben zu, dass sie beim schnellen Scrollen nicht erkannt hätten, dass alles künstlich erzeugt ist. Gleichzeitig äußern viele User Sorgen über die gesellschaftlichen Folgen: Die Gefahr von Fake News und Manipulation wird als ernstes Problem gesehen, zumal viele Menschen – insbesondere ältere Generationen – Schwierigkeiten hätten, echte von KI-generierten Inhalten zu unterscheiden. Es wird diskutiert, wie schnell sich diese Technologie entwickelt und wie wenig Zeit bleibt, sich darauf einzustellen. Einige User sehen auch berufliche Risiken, etwa für Schauspieler, oder befürchten Missbrauch durch Betrüger. Andere wiederum nehmen die Entwicklung mit Galgenhumor oder Nostalgie auf und vergleichen die KI-Revolution mit früheren Technologiesprüngen. Insgesamt dominiert eine Mischung aus Staunen über den Fortschritt und Unbehagen über die möglichen Konsequenzen.
Der Uncanny Valley Effekt beschreibt das Gefühl von Unbehagen oder Fremdheit, das Menschen empfinden, wenn sie auf künstliche Figuren oder Animationen treffen, die zwar fast echt, aber eben nicht ganz überzeugend menschlich wirken. Besonders kleine Fehler in der Mimik, Bewegung oder Stimme können dazu führen, dass uns solche Darstellungen seltsam oder sogar gruselig vorkommen.
Bei den neuen Videos, die mit Google Veo 3 erstellt werden, ist dieser Effekt deutlich weniger ausgeprägt als bei früheren KI-Generationen. Die Bewegungen, Gesichtsausdrücke und sogar die Synchronisation von Lippen und Ton wirken so realistisch, dass viele Zuschauer kaum noch einen Unterschied zu echten Aufnahmen bemerken. Zwar können bei ganz genauer Betrachtung manchmal noch kleine Unstimmigkeiten auffallen, aber insgesamt ist das typische „Unheimliche“ fast verschwunden. Veo 3 hat die Grenze, ab der uns KI-generierte Menschen seltsam vorkommen, also spürbar verschoben.
Google vs. OpenAI: Wer gewinnt den KI-Wettstreit
Die Historie des Wettbewerbs zwischen OpenAI und Google ist geprägt von einem intensiven Innovationsrennen im Bereich der künstlichen Intelligenz. OpenAI wurde 2015 als Non-Profit-Organisation gegründet, mit dem Ziel, KI als Open Source zum Wohle der Allgemeinheit zu entwickeln. Zu den Gründern zählen prominente Persönlichkeiten wie Sam Altman, Elon Musk und Ilya Sutskever (ehemals Google). OpenAI machte sich schnell einen Namen durch die Entwicklung fortschrittlicher generativer KI-Modelle wie ChatGPT und DALL-E, die neue Maßstäbe bei Text- und Bildgenerierung setzten.
Google wiederum war bereits vor der Gründung von OpenAI ein Vorreiter in der KI-Forschung und entwickelte eigene leistungsstarke Modelle wie BERT, LaMDA und später PaLM 2, um mit OpenAIs GPT-4 zu konkurrieren. Beide Unternehmen treiben die Entwicklung generativer KI mit enormem Tempo voran: Während OpenAI mit seinen GPT-Modellen und Anwendungen wie ChatGPT und DALL-E die öffentliche Wahrnehmung prägte, reagierte Google mit der Integration von KI in die Suche und die Cloud, sowie mit eigenen KI-Produkten, um Marktanteile zu sichern.
Seit 2019 agiert OpenAI mit einer gewinnorientierten Tochtergesellschaft und wird maßgeblich von Microsoft unterstützt, was den Wettbewerb weiter verschärfte. In jüngerer Zeit setzen beide Konzerne auf multimodale Modelle, die nicht nur Text, sondern auch Bilder, Videos und Audio generieren können. OpenAI erzielte zudem Erfolge im Wettbewerbsprogrammieren mit Modellen wie o3, die menschliche Top-Programmierer herausfordern. Google kontert jetzt mit eigenen Innovationen.
Google Veo 3 markiert einen wichtigen Meilenstein im Konkurrenzkampf zwischen Google und OpenAI im Bereich der generativen KI-Videotechnologie. Mit Veo 3 setzt Google neue Maßstäbe, indem das Modell nicht nur längere und konsistentere Videos in hoher Auflösung (bis zu 1080p, perspektivisch 4K) erzeugt, sondern auch erstmals native Audio-Generierung integriert – ein Bereich, in dem OpenAI Sora bislang noch nicht als Kernfunktion auftritt.
Im direkten Vergleich gilt Veo 3 aktuell als technologisch führend, insbesondere durch die Kombination aus Video- und Audiogenerierung, der flexiblen Steuerung und der engen Verzahnung mit bestehenden Google-Diensten. Der Wettbewerb mit OpenAI bleibt jedoch dynamisch und dürfte die Innovationsgeschwindigkeit in diesem Sektor weiter beschleunigen.