La nouvelle IA de génération vidéo de Runway, Gen-3, offre des contrôles améliorés

 La nouvelle IA de génération vidéo de Runway, Gen-3, offre des contrôles améliorés

La course aux vidéos de haute qualité générées par l’IA s’intensifie.

Lundi, Runway , une entreprise développant des outils d'IA générative destinés aux créateurs de contenu cinématographique et image, a dévoilé Gen-3 Alpha . Le dernier modèle d'IA de la société génère des clips vidéo à partir de descriptions textuelles et d'images fixes. Runway affirme que le modèle offre une amélioration « majeure » de la vitesse de génération et de la fidélité par rapport au précédent modèle vidéo phare de Runway, Gen-2 , ainsi que des contrôles précis sur la structure, le style et le mouvement des vidéos qu'il crée.

Gen-3 sera disponible dans les prochains jours pour les abonnés Runway, y compris les entreprises clientes et les créateurs du programme de partenaires créatifs de Runway.

"Gen-3 Alpha excelle dans la génération de personnages humains expressifs avec un large éventail d'actions, de gestes et d'émotions", a écrit Runway dans un article sur son blog. "Il a été conçu pour interpréter un large éventail de styles et de terminologies cinématographiques [et permettre] des transitions imaginatives et un cadrage précis des éléments de la scène."

Gen-3 Alpha a ses limites, notamment le fait que ses images ne dépassent pas 10 secondes. Cependant, Anastasis Germanidis, co-fondateur de Runway, promet que le Gen-3 n'est que le premier – et le plus petit – de plusieurs modèles de génération vidéo à venir dans une famille de modèles de nouvelle génération formés sur une infrastructure améliorée.

"Le modèle peut avoir du mal avec des interactions complexes entre personnages et objets, et les générations ne suivent pas toujours avec précision les lois de la physique", a déclaré Germanidis à TechCrunch ce matin dans une interview. « Ce déploiement initial prendra en charge les générations haute résolution de 5 et 10 secondes, avec des temps de génération nettement plus rapides que la génération 2. Un clip de 5 secondes prend 45 secondes à générer, et un clip de 10 secondes prend 90 secondes à générer.

Gen-3 Alpha, comme tous les modèles de génération vidéo, a été formé sur un grand nombre d’exemples de vidéos – et d’images – afin de pouvoir « apprendre » les modèles de ces exemples pour générer de nouveaux clips. D'où proviennent les données d'entraînement ? Runway ne le dirait pas. De nos jours, peu de fournisseurs d’IA générative proposent de telles informations, en partie parce qu’ils considèrent les données de formation comme un avantage concurrentiel et les gardent donc ainsi que les informations qui s’y rapportent près de leur poitrine.

"Nous avons une équipe de recherche interne qui supervise toute notre formation et nous utilisons des ensembles de données internes sélectionnés pour former nos modèles", a déclaré Germanidis. Il en est resté là.

Piste Gen-3
Un échantillon du modèle Gen-3 de Runway. Notez que le flou et la faible résolution proviennent d'un outil de conversion vidéo en GIF utilisé par TechCrunch, et non de Gen-3.
Crédits image : Piste

Les détails des données de formation sont également une source potentielle de poursuites liées à la propriété intellectuelle si le fournisseur s'est formé sur des données publiques, y compris des données protégées par le droit d'auteur provenant du Web – et donc une autre incitation à en révéler beaucoup. Plusieurs affaires portées devant les tribunaux rejettent les défenses des fournisseurs en matière d'utilisation équitable des données de formation , arguant que les outils d'IA générative reproduisent les styles des artistes sans la permission de ces derniers et permettent aux utilisateurs de générer de nouvelles œuvres ressemblant aux originaux des artistes pour lesquelles les artistes ne reçoivent aucun paiement.

Runway a quelque peu abordé la question du droit d'auteur, affirmant qu'elle avait consulté des artistes pour développer le modèle. (Quels artistes ? Pas clair.) Cela reflète ce que Germanidis m'a dit lors d'une soirée au coin du feu à la conférence Disrupt de TechCrunch en 2023 :

« Nous travaillons en étroite collaboration avec des artistes pour déterminer quelles sont les meilleures approches pour résoudre ce problème », a-t-il déclaré. « Nous explorons divers partenariats de données pour pouvoir poursuivre notre croissance… et construire la prochaine génération de modèles. »

Runway indique également qu'il prévoit de publier Gen-3 avec un nouvel ensemble de garanties, notamment un système de modération pour bloquer les tentatives de génération de vidéos à partir d'images et de contenus protégés par le droit d'auteur qui ne sont pas conformes aux conditions de service de Runway. Un système de provenance – compatible avec la norme C2PA, soutenue par Microsoft, Adobe, OpenAI et d'autres – est également en préparation pour identifier que les vidéos proviennent de Gen-3.

"Notre nouveau système interne amélioré de modération visuelle et textuelle utilise une surveillance automatique pour filtrer les contenus inappropriés ou nuisibles", a déclaré Germanidis. « L'authentification C2PA vérifie la provenance et l'authenticité des médias créés avec tous les modèles Gen-3. À mesure que les capacités des modèles et la capacité à générer du contenu haute fidélité augmentent, nous continuerons à investir de manière significative dans nos efforts d’alignement et de sécurité.

Piste Gen-3
Crédits image : Piste

Runway a également révélé qu'elle s'est associée et a collaboré avec « des organisations de divertissement et de médias de premier plan » pour créer des versions personnalisées de Gen-3 qui permettent des personnages plus « stylistiquement contrôlés » et plus cohérents, ciblant « des exigences artistiques et narratives spécifiques ». La société ajoute : « Cela signifie que les personnages, les arrière-plans et les éléments générés peuvent conserver une apparence et un comportement cohérents dans différentes scènes. »

Un problème majeur non résolu avec les modèles de génération vidéo est le contrôle, c'est-à-dire faire en sorte qu'un modèle génère une vidéo cohérente alignée sur les intentions artistiques d'un créateur. Comme mon collègue Devin Coldewey l'a récemment écrit , des questions simples dans le cinéma traditionnel, comme le choix d'une couleur dans les vêtements d'un personnage, nécessitent des solutions de contournement avec des modèles génératifs, car chaque plan est créé indépendamment des autres. Parfois, même les solutions de contournement ne suffisent pas, laissant un travail manuel considérable aux éditeurs.

Runway a levé plus de 236,5 millions de dollars auprès d'investisseurs, dont Google (avec qui il dispose de crédits de calcul cloud) et Nvidia, ainsi que de sociétés de capital-risque telles qu'Amplify Partners, Felicis et Coatue. L’entreprise s’est étroitement alignée sur l’industrie créative à mesure que ses investissements dans la technologie de l’IA générative augmentent. Runway exploite Runway Studios, une division de divertissement qui sert de partenaire de production pour la clientèle d'entreprise, et accueille le AI Film Festival, l'un des premiers événements dédiés à la présentation de films produits entièrement – ​​ou en partie – par l'IA.

Mais la concurrence devient de plus en plus féroce.

La startup d'IA générative Luma a annoncé la semaine dernière Dream Machine, un générateur vidéo devenu viral pour son aptitude à animer des mèmes. Et il y a quelques mois à peine, Adobe a révélé qu'il développait son propre modèle de génération de vidéos basé sur le contenu de sa médiathèque Adobe Stock.

Ailleurs, il y a des opérateurs historiques comme Sora d'OpenAI , qui reste étroitement fermé mais qu'OpenAI a semé auprès d'agences de marketing et de réalisateurs indépendants et hollywoodiens. (Mira Murati, CTO d'OpenAI, était présente au Festival de Cannes 2024.) Le Festival Tribeca de cette année, qui a également un partenariat avec Runway pour organiser des films réalisés à l'aide d'outils d'IA, a présenté des courts métrages produits avec Sora par des réalisateurs bénéficiant d'un accès anticipé.

Google a également confié son modèle de génération d'images, Veo , à des créateurs sélectionnés, dont Donald Glover (alias Childish Gambino) et son agence de création Gilga, dans le but d'intégrer Veo dans des produits comme YouTube Shorts.

Quelles que soient les différentes collaborations, une chose devient claire : les outils vidéo d'IA générative menacent de bouleverser l'industrie du cinéma et de la télévision telle que nous la connaissons.

Piste Gen-3
Crédits image : Piste

Le cinéaste Tyler Perry a récemment déclaré qu'il avait suspendu l'agrandissement prévu de 800 millions de dollars de son studio de production après avoir vu ce que Sora pouvait faire. Joe Russo, le réalisateur de films phares de Marvel comme "Avengers : Endgame", prédit que d'ici un an, l'IA sera capable de créer un film à part entière.

Une étude de 2024 commandée par l'Animation Guild, un syndicat représentant les animateurs et dessinateurs d'Hollywood, a révélé que 75 % des sociétés de production cinématographique qui ont adopté l'IA ont réduit, consolidé ou supprimé des emplois après avoir intégré cette technologie. L’étude estime également que d’ici 2026, plus de 100 000 emplois dans le secteur du divertissement aux États-Unis seront perturbés par l’IA générative.

Il faudra des protections du travail très strictes pour garantir que les outils de génération vidéo ne suivent pas les traces d’autres technologies d’IA générative et n’entraînent pas une forte baisse de la demande de travail créatif.

Commentaires