Generar vídeos con IA suele tropezar en tres fallos: inconsistencia de personajes, confusión entre movimiento de cámara y del objeto central, y audio genérico que no sostiene la historia.
Para que no ocurra, hay que decidir antes de generar: fijar look, cámara, luz y elementos en cada prompt; separar lo que se mueve (cámara) de lo que no (objeto central); y pedir música con intención, no de relleno.
Para que veas a qué me refiero, y luego puedas replicarlo, aquí te muestro cómo creé un comercial de coche con IA de 45 segundos para el Dacia Sandero.
Si quieres control y consistencia en vídeo con IA, el secreto no es una sola app. Es combinar lo mejor de cada una con un plan claro. Por ello:
1) Primero el mapa: decide antes de generar
Antes de abrir ninguna herramienta, define qué y por qué. En este caso apliqué esto. Tú adáptalo a tu producto.
- Duración: 45 s.
- Tono: realista, publicitario, europeo.
- Protagonista: mujer 25–30, look urbano.
- Objeto central: el coche (en tu caso: perfume, calzado, gadget…).
- Ubicación: España.
- Regla de oro: misma cámara/lente en todos los planos.
2) Herramientas que encajan (y por qué)
Nano Banana (Gemini Flash 2.5)
Para variantes consistentes del mismo sujeto/objeto con referencia.
- Por qué: mantiene identidad y estilo con image reference.
- Cuándo: alternativas sin romper el look.
- Enlace uso gratuito: Gemini APP
- Enlace uso gratuito: Google IA Studio
- Tip: fija rasgos, ropa y accesorios; repite cámara/lente.
Freepik (+ Magnific) integrado con Nano Banana
Mi base operativa para variantes y escalado rápido. Freepik me permite subir la imagen de referencia, pedir variantes con image reference (vía Nano Banana/Gemini) y escalar ahí mismo con Magnific. Menos pasos, mismo flujo.
- Por qué: escalo sin salir de la app; ahorro tiempo y mantengo calidad.
- Cuándo: generar versiones de la misma persona/objeto y preparar vídeos base (paneos sencillos, loops).
- Enlace: Freepik
- Tip: escala a 2–3K antes de pasar a vídeo; conserva metadatos de cámara.
Kling 2.1 & Higgsfield — Start/End Frame
Puedes usar Kling desde su web nativa para convertir dos imágenes en un clip que empieza en A y termina en B con movimiento de cámara creíble.
También puedes usar Higgsfield como alternativa ya que permite entre sus funciones, crear vídeos con el modelo de Kling 2.1
- Por qué: start/end nativo, transiciones limpias y estabilidad.
- Cuándo: rotaciones hero, reveals, entradas/salidas.
- Enlace: Kling
- Enlace: Higgsfield
- Tip: deja el objeto central quieto; mueve solo la cámara (añade motion blur suave).
Midjourney
De aquí saqué las imágenes base por su realismo cinematográfico (mi preferencia estética).
- Por qué: look limpio y control de cámara/lente en prompts.
- Cuándo: frames clave (fachada, protagonista) antes de variantes.
Premiere, ElevenLabs y Suno
- Premiere: ritmo, cortes, textos y color. La coherencia final nace en la edición.
- ElevenLabs: voz en off clara; baja velocidad 5–10% y reduce exageración.
- Suno: música original sin voces; pide híbrido urbano–cinemático, bajo profundo y percusión ligera.
No es receta cerrada: adapta herramientas a tu presupuesto. El método (decidir primero, generar después) sostiene el resultado.
Con el mapa hecho, escribí la secuencia por frames: amanecer → ascensor → calle → coche → rotación hero → interior → ciudad → atardecer.
3) De idea a frames: consistencia visual
Arranqué en Midjourney por el look: realismo con cámara/lente coherentes en todas las tomas. Es mi base estética.
Después pasé a Freepik para dos cosas: variantes vía Nano Banana (subo la referencia y pido “misma persona, nueva posición/ángulo”) y escalado directo con Magnific. Así evito saltar entre apps y preparo también vídeos base sencillos (paneos o loops suaves) cuando los necesito.
Truco clave: cada imagen escalada se vuelve punto de partida del siguiente frame. Así encadenas coherencia y ahorras reintentos.
La IA no reemplaza el oficio, lo organiza. Decide primero, genera después. Con un panel claro (look, cámara, luz, elementos) tendrás un spot que no se desarma. ¿Quieres la plantilla editable y los archivos de proyecto? Te los preparo.
4) Movimiento controlado con Start/End
En Kling 2.1 coloqué:
- Start: chica dentro del ascensor.
- End: la misma chica saliendo con llaves en mano.
- Prompt: acción concreta + “el objeto central no se mueve”.
Con el coche, rotaciones de cámara alrededor del vehículo. El coche permanece quieto. También lo probé en Higgsfield con el mismo par de frames.
5) Edición: voz, música y marca
- Voz en off: guion breve a partir de la secuencia; locutado en ElevenLabs.
- Música: en Suno, híbrido urbano–cinemático, sin vocals, cortes a tiempo con los cambios de plano.
- Marca: logo al inicio y cierre con motion tipo Dacia, inspirado en sus vídeos de 2024.
6) Prompts base (adáptalos a tu nicho)
Imagen del objeto central (frames fijos)
Objeto [modelo y color] en [escenario].
Debe mantenerse FIJO y CONSISTENTE en diseño, proporciones y color.
Variar SOLO el ángulo de cámara: [ángulos].
Estilo [realismo/render], misma iluminación [hora], mismo entorno.
Ejemplo:
“Dacia Sandero gris metálico frente a edificio minimalista europeo.
Frontal, perfil lateral, trasera tres cuartos.
Ultrarealista, cinematográfico, mañana soleada.”
Vídeo del objeto central (Start/End)
Objeto [modelo y color], FIJO en [escenario].
El objeto NO se mueve; la CÁMARA pasa de [ángulo inicial] a [ángulo final].
Mismo entorno e iluminación [hora]; proporciones consistentes.
Movimiento de cámara [tipo]; estilo [realismo]; leve motion blur.
Ejemplo:
“Sandero gris; cámara de perfil lateral a frontal heroico bajo.
Ultrarealista, luz de mañana.”
Protagonista — imagen (frame fijo)
Misma persona, consistencia en [rasgos y estilo].
Viste [ropa] y lleva [accesorios].
Escena en [lugar]; cámara [plano/ángulo].
Acción [gesto]; expresión [tipo].
Estilo [realismo]; iluminación [hora].
Ejemplo:
“Mujer joven, pelo castaño liso, camiseta de rayas y chaqueta gris,
cartera hombro izq. y llaves. Plano de espaldas saliendo del ascensor.
Cinematográfico, mañana luminosa.”
Protagonista — vídeo (Start/End)
Misma persona (misma ropa y accesorios).
Escenario [lugar].
La cámara pasa de [ángulo inicial] a [ángulo final] mostrando [acción].
Mismo entorno e iluminación [hora]; proporciones coherentes.
Movimiento de cámara [tipo]; estilo [realismo].
Ejemplo:
“Plano medio en ascensor a plano de espaldas saliendo a la calle;
camina con decisión. Luz de mañana; movimiento fluido.”
Lee también:
¿Cómo Crear Vídeos de Producto con Inteligencia Artificial?: Guía Práctica y Ejemplos Reales
7) Método replicable en 8 pasos
-
- Investiga marca/estilo y escribe el mapa.
- Lista frames con hora, cámara y acción.
- Genera imágenes con misma cámara/lente.
- Escala cada frame clave.
- Encadena Start/End en Kling o apóyate en Higgsfield.
- Monta en Premiere (o tu editor).
- Voz en ElevenLabs + música en Suno con intención.
- Itera: cambia un solo parámetro por versión y compara.
La IA no sustituye tu labor. Tú decides primero y la herramienta genera después. Con un panel claro reduces reintentos y mantienes coherencia visual.
Accesos directos útiles
Preguntas frecuentes
¿Cómo evito la inconsistencia del personaje?
Fija rasgos, ropa y accesorios en todos los prompts. No mezcles estilos entre tomas.
¿Cómo simulo movimiento sin mover el objeto central (coche)?
Deja el objeto quieto y mueve solo la cámara (paneo, rotación o dolly). Decláralo explícito en el prompt.
¿Por qué el spot dura 45 segundos?
Da ritmo natural amanecer→atardecer sin relleno. Puedes ajustar la duración, mantén foco y cadencia.
¿Qué pido para que la música no suene a stock?
Un híbrido urbano–cinemático, con bajo profundo y percusión ligera, acompañando los cambios de plano.
¿Qué herramientas se usaron en este caso?
Imágenes: Midjourney, Nano Banana (Gemini Flash 2.5). Vídeo: Kling AI, Higgsfield. Assets: Freepik. Música: SUNO AI.