Kuaishou Technology hat am 6. Juli auf einem Forum mit dem Titel "New AI New Applications New Ecosystem" im Rahmen der 2024 World Artificial Intelligence Conference zum ersten Mal kollektiv KI-Modelle vorgestellt. Während des Forums präsentierte Kuaishou seine umfassende KI-Modell-Matrix, einschließlich fortschrittlicher Funktionalitäten für das Videogenerierungsmodell "Kling" und das Bilderzeugungsmodell "Kolors", um nur einige zu nennen. Auf dem Forum wurde das dritte Upgrade von Kling vorgestellt, nachdem im vergangenen Monat bereits die Funktionen für Bild-zu-Video und Videoerweiterung veröffentlicht wurden.

Kling ist jetzt über ein Webportal zugänglich. Zusammen mit der High-Definition-Version von Kling umfassen die auf der WAIC vorgestellten neuen Funktionen die Steuerung von Start- und Endbildern sowie die Steuerung von Aufnahmen. Außerdem wurde die Dauer für die Erstellung eines einzelnen Textes in ein Video auf 10 Sekunden verlängert.

Kolors wurde offiziell als Open Source veröffentlicht, um die Vitalität der Branche zu fördern und ein florierendes Ökosystem für Text-zu-Bild-Modelle aufzubauen. Herr Gai erläuterte die KI-Modellmatrix des Unternehmens, die das große Sprachmodell KwaiYii (??), das große Empfehlungsmodell und das visuelle Generierungsmodell als Schlüsselkomponenten umfasst. Diese Modelle umfassen die Erstellung von Inhalten, das Verständnis, die Empfehlung und andere Aspekte und spielen eine entscheidende Rolle bei der Verbesserung des kommerziellen Ökosystems von Kuaishou.

Insbesondere das Empfehlungsmodell SIM (Search-based Interest Model) ist mit seinem Umfang von 10 Billionen Parametern eines der weltweit führenden Empfehlungssysteme. Die Architektur der nächsten Generation, ACT (Action Transformer), wird voraussichtlich Hunderte von Millionen Minuten täglicher Nutzerzeit auf der Kuaishou App hinzufügen und damit das Engagement und die Aktivität der Nutzer erheblich steigern. Auf der Grundlage des großen Modells von KwaiYii hat Kuaishou die Skripterstellung für Videos, die Skripterstellung für Live-Streaming in Echtzeit und den Kundenservice für Werbekunden entwickelt, die alle in die digitale menschliche Technologie integriert sind. Diese Fortschritte helfen Werbetreibenden, qualitativ hochwertige Videos und Live-Streaming-Inhalte kostengünstig zu produzieren und so die Effizienz der Lead-Konvertierung zu verbessern.

Im Juni 2024 überstiegen die täglichen Spitzenausgaben von Kunden, die AIGC-Werbematerialien nutzen, bei Kuaishou die Marke von 20 Millionen RMB, was das enorme kommerzielle Potenzial von großen Modellen verdeutlicht. Nach der Einführung von Bild-zu-Video- und Videoerweiterungsfunktionen hat Kling das dritte große Upgrade innerhalb eines Monats in Angriff genommen. Die Webversion ist jetzt offiziell online.

Während des Forums kündigte Kuaishou ein bedeutendes Upgrade des grundlegenden KI-Modells von Kling an, mit dem eine verbesserte High-Definition-Qualität sowie neue Bearbeitungsfunktionen wie die Kontrolle von Start- und Endbild und die Steuerung von Aufnahmen eingeführt wurden. Darüber hinaus wurde die maximale Dauer für einzelne Text-zu-Video-Kreationen auf 10 Sekunden verlängert, was derzeit die längste Dauer ist, die für normale Benutzer in der Branche verfügbar ist. Kling, das weltweit erste große Modell zur Videogenerierung, das wirklich für normale Benutzer verfügbar ist, hat am 6. Juni seine Text-zu-Video-Funktion eingeführt.

Auf der Conference on Computer Vision and Pattern Recognition wurden weitere neue Funktionen vorgestellt, darunter die Bild-zu-Video- und die Videoerweiterungsfunktion, die die Erstellung von Videos mit einer Länge von bis zu etwa drei Minuten ermöglicht. Die von Kling produzierten Videos basieren auf realen physikalischen Gesetzen und zeichnen sich durch filmische Qualität und dynamische Effekte aus. Sie simulieren lebensechte physische Bewegungen mit großen Bewegungen und übertreffen die Einschränkungen herkömmlicher Technologien zur Videoerstellung. Dieser Durchbruch wurde nicht nur lokal gelobt, sondern hat auch international große Aufmerksamkeit erregt und das weltweite Interesse an Chinas Fortschritten in der KI-Technologie gesteigert.

Bis heute haben sich mehr als 500.000 Nutzer für die Teilnahme am Beta-Test von Kling beworben, und die Zahl der generierten Videos hat 7 Millionen erreicht. Beliebte Kreationen wie "Old Photo Revival" haben sich aufgrund ihrer emotionalen Wirkung viral verbreitet. Kuaishou wird sich weiterhin darauf konzentrieren, die Grundqualität des Modells zu verbessern, die Klarheit der Videos zu erhöhen und weitere innovative Funktionen einzuführen, um die unterschiedlichen Bedürfnisse der Nutzer zu erfüllen.

Wan Pengfei, Leiter des Visual Generation and Interaction Center von Kuaishou, erklärte, dass die neueste Version von Kling bedeutende Verbesserungen in sieben Bereichen mit sich bringt: Bewegungsgenerierung, Generierungsdauer, Einhaltung physikalischer Gesetze, Videoqualität, Befehlsreaktion, Bild-zu-Video-Konvertierung und Videokontrolle. Diese Verbesserungen ermöglichen die Erstellung von klareren und besser handhabbaren Videos von 10 Sekunden oder länger. Besonders erwähnenswert ist, dass der Trailer für Chinas erstes originales AIGC-Fantasy-Kurzspiel, "Legendary Mirrors of Mountains and Seas: Splitting Waves", während des Forums Premiere hatte, wobei Kling umfangreiche technische Unterstützung für das Kurzspiel leistete.

Die rasante Entwicklung der AIGC-Technologie hat der Kurzspielbranche neuen Schwung verliehen und die Effizienz der Produktion, der Erstellung und des Betriebs von Kurzspielen erheblich gesteigert. Um KI-Enthusiasten zu inspirieren, rief Kuaishou auf dem Forum den ersten Kling x KuaiYing Videowettbewerb "A Surge of Inspiration" ins Leben. Dieser Wettbewerb, der in Zusammenarbeit mit sechs führenden Institutionen durchgeführt wird, ist mit einem Preisgeld von über 300.000 RMB dotiert.

Darüber hinaus wurde im Rahmen des Wettbewerbs das "Kling x Astral Short Plays"-Programm für Kreative ins Leben gerufen, bei dem die Gewinner jeder Kategorie eingeladen werden, an einem Förderprogramm für Kreative teilzunehmen. Dieses Programm bietet eine beachtliche Sichtbarkeit, Geldprämien und die Möglichkeit zum direkten Kontakt mit Branchenexperten. Im Bereich der Bilderzeugung für große Modelle ist Kolors von Kuaishou branchenweit führend und verfügt über mehrere Kernvorteile, darunter ein fortschrittliches semantisches Verständnis, qualitativ hochwertige fotografische Bilder und die Möglichkeit, unter mehreren Bedingungen steuerbare stilisierte Bilder zu erzeugen.

In der von Chinas maßgeblicher Organisation, dem Beijing Academy of Artificial Intelligence Institute, durchgeführten Bewertung erhielt Kolors die Note 75,23 und belegte damit weltweit den zweiten Platz im Bereich der Text-Bild-Modelle. Kolors integriert Kuaishous umfassendes Fachwissen über große Sprachmodelle, die auf Milliarden von Datenpunkten in chinesischer Sprache trainiert wurden, und ist damit das leistungsfähigste chinesische Text-Bild-Modell auf dem Markt. Seine Gesamtleistung übertrifft sowohl Open-Source-Modelle wie SDXL/SD3 als auch Closed-Source-Modelle wie Midjourney und setzt damit neue Maßstäbe für die Bilderzeugung im chinesischen Kontext.

Während des Forums kündigte Kuaishou an, dass Kolors offiziell als Open Source zur Verfügung gestellt wird, um der Branche neue Impulse zu geben und ein florierendes Community-Ökosystem für Text-zu-Bild-Modelle zu fördern. Darüber hinaus kündigte die China Computer Federation (CCF) eine Zusammenarbeit mit Kuaishou an, um den "CCF-Kuaishou Large Model Explorer Fund" einzurichten, für den gleichzeitig ein Antragskanal eröffnet wurde. Dieser Fonds plant, bis Ende 2024 12 Forschungsprojekte zu starten, deren Themen mit bis zu 300.000 RMB unterstützt werden können.

Der Fonds zielt darauf ab, der rasanten Entwicklung der KI-Technologie und dem dringenden Bedarf der Industrie an Spitzentechnologie Rechnung zu tragen, indem er sich auf die wichtige technische Forschung und Entwicklung der nächsten Generation von Großmodellen konzentriert.