Seedance 2.0 vient d'arriver sur CapCut aux États-Unis. ByteDance a mis le feu au marché de la vidéo IA, et Hollywood a répondu par des mises en demeure. Entre les vidéos virales de combats Tom Cruise / Brad Pitt et les plaintes de Disney, le modèle a failli ne jamais sortir. Il est là. Et il mérite qu'on en parle sérieusement.
La vraie rupture n'est pas la qualité d'image. C'est l'architecture multimodale. Seedance 2.0 accepte texte, images, vidéo et audio en entrée, jusqu'à 12 références simultanées, et génère vidéo et audio dans un seul pass. Pas de couche sonore ajoutée en post. Le son naît avec l'image.
Trois fonctions changent la donne pour un studio créatif.
L'omni-reference. On tague ses images de référence dans le prompt avec @image1, @image2, etc. Le modèle ne les traite pas comme des inspirations vagues. Il les utilise comme des directives. Résultat : consistance de personnage, de style, de produit d'un clip à l'autre. Kling et Runway proposent aussi de la consistance, mais le tagging explicite de références multiples dans un prompt unifié, c'est l'approche Seedance. En pratique, ça se rapproche de la façon dont un DA brief une équipe.
Le multi-shot natif. Un seul prompt peut produire un clip de 15 secondes avec cuts, transitions et angles de caméra variés. Le modèle pense en séquence, pas en plan unique. Pour de la pré-visualisation ou du contenu social multi-plans, le gain de temps est réel.
L'audio synchronisé. Musique, bruitage, dialogue avec lip-sync, générés en même temps que la vidéo. La synchronisation labiale atteint 92 à 99 % de précision selon les tests. Pour un DA habitué à caler l'audio en post, c'est des heures économisées par projet.
On ne va pas faire semblant que c'est parfait.
La censure sur les visages. Depuis la crise copyright avec Disney et Paramount, ByteDance a verrouillé dur. Les visages réels sont bloqués en référence, y compris des personnages IA custom qui n'existent nulle part. On comprend la logique : personne ne veut d'un deepfake sauvage de Brad Pitt dans une pub sans son accord. Le problème, c'est que le filtre ratisse trop large. Lunettes, casques, profils partiels : tout déclenche. Pour de la création originale avec ses propres visuels, ça passe. Pour du travail avec des talents réels, c'est un mur.
La vitesse. 5 à 10 minutes pour un clip de 10 secondes en qualité max. Le mode Fast réduit le temps au prix de la qualité. En itération rapide, on passe plus de temps à attendre qu'à créer.
Les artefacts en mouvement rapide. Course, combat, rotations : les membres s'étirent, les contours fantôment. En mouvement lent ou moyen, c'est propre. Dès qu'on accélère, le modèle décroche. C'est une limite partagée par la plupart des outils vidéo IA actuels.
La résolution. Plafond à 720p. Pour du livrable final client, il faut upscaler en post. Acceptable pour du social media, insuffisant pour du brand film.
Seedance 2.0 n'arrive pas seul. Sora est mort. Google a rendu Veo 3.1 gratuit. Veo 4 vient de sortir avec du storyboarding et des vidéos de 30 secondes. Kling reste fort sur le réalisme des visages. Runway garde l'avantage sur les workflows d'édition avancés.
Le marché vidéo IA n'est plus une course à la démo impressionnante. C'est une course à la contrôlabilité.
Et c'est ce que Seedance 2.0 tente de résoudre avec son système de référence. Pour un DA, la question n'est jamais « quel outil génère les plus belles images ». C'est « quel outil me laisse diriger ».
On a testé Seedance 2.0 sur un projet de motion produit pour une marque cosmétique. Le brief : un plan séquence fluide de 45 secondes montrant un flacon en rotation, transition vers une texture crème, puis un geste d'application.
On a généré 8 clips de 5 à 6 secondes avec omni-reference pour verrouiller le flacon et la palette couleur, first/last frame anchoring pour assurer la continuité entre chaque clip, puis assemblage et étalonnage sur After Effects. Temps total : une demi-journée. En workflow classique, c'était 3 jours de shoot et 2 jours de post.
L'outil ne fait pas le projet. Il accélère la brique génération. Le concept, la sélection, la retouche, l'étalonnage, le montage final : ça reste du travail de DA. Et c'est pour ça que le résultat tient.