- Actualización de imagen “Nano Banana” potencia mejores videos: La última actualización Nano Banana de Google es un nuevo modelo de imagen de última generación (Gemini 2.5 Flash Image) que mejora el realismo fotográfico y la consistencia [1]. Permite que Gemini mantenga la semejanza exacta de una persona a través de ediciones y combine múltiples imágenes, e incluso utilice esas imágenes mejoradas para la generación de videos [2] [3]. Esta actualización sienta las bases para transformaciones de foto a video de alta calidad en la app Gemini.
- Fotos a videos de 8 segundos con sonido: La app Gemini ahora permite a los usuarios transformar cualquier foto fija en un videoclip de 8 segundos con audio (efectos de sonido, ruido de fondo, incluso diálogo) [4]. Impulsada por el modelo de video con IA Veo 3 de Google DeepMind, esta función anima tu imagen según un texto, produciendo un video corto completo con música o sonido ambiental. Google afirma que ya ha visto una explosión de creatividad: más de 40 millones de videos generados por IA en solo siete semanas desde el lanzamiento [5].
- Interfaz fácil, acceso solo para profesionales: Usar la herramienta de video de Gemini es sencillo: selecciona “Videos” en la aplicación, sube una foto y describe la escena y el audio que deseas [6]. En aproximadamente 1–2 minutos, Gemini genera un videoclip en 720p, 24 fps [7]. (Los suscriptores de Google AI Pro obtienen Veo 3 Fast para videos rápidos de 8 s, mientras que los suscriptores Ultra acceden al modelo de mayor calidad Veo 3 [8] [9].) La disponibilidad está limitada a los niveles de pago: los usuarios Pro pueden crear 3 videos/día y los usuarios Ultra 5/día [10] [11] – y la función se está implementando en países seleccionados [12]. Todos los videos generados por IA están claramente marcados, con una marca de agua visible “AI” y una marca de agua digital invisible SynthID incrustada [13].
- Nuevos trucos y consejos creativos de Google: En una publicación del blog de Google, un productor creativo comparte 3 formas de usar la herramienta de foto a video de Gemini. Primero, anima ilustraciones: da vida a dibujos o gráficos como imágenes en movimiento [14]. (Los videos se generan en formato horizontal 16:9, y se añaden barras negras si tu imagen no es panorámica [15]). Segundo, convierte la fotografía en una película: comienza con una foto real y añade giros imaginativos o nuevos personajes; Gemini “rellenará los huecos” y animará la escena [16]. (Consejo: la foto original se convierte en el primer fotograma del video, así que un sujeto claro y en primer plano da un mejor resultado [17]). Tercero, articula una visión artística: usa indicaciones detalladas para visualizar guiones gráficos o conceptos para presentaciones [18]. El autor señala que puede ser más rápido y efectivo que los bocetos estáticos, ayudando a otros a “visualizar mejor mi concepto” con representaciones realistas de IA [19]. La creación de indicaciones requiere práctica: puedes perfeccionar las indicaciones con varios intentos [20]. Incluso puedes pedirle a Gemini que sugiera ángulos de cámara o ediciones para mejorar el video [21]. Y si los resultados parecen demasiado reales, recuerda: las etiquetas y marcas de agua de SynthID están ahí para garantizar la transparencia de que es hecho por IA [22].
- Calidad cinematográfica a través de Veo 3 y Flow: Bajo el capó, la creación de video de Gemini está impulsada por Veo 3, el último modelo generativo de video de Google DeepMind. Presentado en Google I/O 2025, Veo 3 es un generador de video con IA de calidad cinematográfica capaz de crear imágenes ultra realistas (incluso hasta 4K en laboratorios) con física precisa, movimiento fluido y generación de audio nativo [23] [24]. No solo produce imágenes vívidas, sino que también sincroniza efectos de sonido, ruido ambiental y líneas habladas, todo a partir de un texto como indicación [25] [26]. Este enfoque todo en uno significa que tu personaje creado por IA puede moverse y hablar de manera creíble en pantalla, una ventaja única sobre algunos competidores. Google también presentó Flow, una interfaz avanzada de creación cinematográfica con IA construida sobre Veo 3 [27]. Disponible para usuarios Pro/Ultra en Labs, Flow permite a los creadores unir múltiples tomas generadas por IA en escenas más largas, con control tipo storyboard. Puedes generar una serie de clips con personajes y entornos consistentes, usar controles de cámara (paneos, acercamientos, cambios de ángulo) e incluso “extender” escenas generando lo que ocurre antes o después de una toma [28] [29]. En resumen, Flow + Gemini buscan ser un estudio de cine virtual: gestionando imágenes, cámara, y audio, para que creadores individuales puedan producir historias de varias escenas completamente con IA [30] [31].
- Cómo se compara Gemini con Sora, Runway, Pika y Firefly: El impulso de Google en el video con IA llega en medio de un campo saturado de herramientas de texto a video. Sora de OpenAI (lanzado recientemente a través de ChatGPT) también puede generar clips cortos a partir de indicaciones. Sora es elogiado por su calidad excepcional y estilo cinematográfico, con una fuerte consistencia temporal entre cuadros [32]. Utiliza una interfaz de indicaciones más tipo “storyboard”, que algunos creadores encuentran intuitiva [33]. Sin embargo, el acceso a Sora es escalonado: los usuarios de ChatGPT Plus pueden crear videos de hasta 720p, 10 segundos, mientras que ChatGPT Pro ($200/mes) permite 1080p hasta 20 segundos y salidas más rápidas [34] [35]. Sora tampoco tiene generación de audio nativa, lo que significa que produce videos mudos (tendrías que agregar el sonido manualmente) [36]. En cambio, Veo 3 de Gemini incorpora el diseño de sonido automáticamente, lo cual es una ventaja significativa [37]. Runway ML, pionero temprano en video generativo, ha evolucionado rápidamente desde Gen-1 hasta Gen-2 y ahora Gen-3. Runway Gen-2 (lanzado por primera vez en 2023) fue el primer modelo de texto a video disponible comercialmente y sorprendió a los usuarios con su progreso [38] [39]. Una actualización a finales de 2023 de Gen-2 fue ampliamente considerada como “revolucionaria” por sus grandes mejoras en la fidelidad y consistencia del video [40]. Permitió clips más largos (inicialmente ~4 segundos, luego hasta 18 segundos) e introdujo funciones de “Director Mode” como el control de movimientos simulados de cámara (paneo, zoom, etc.) en la escena de IA [41] <a href=»https://venturebeat.com/ai/runways-gen septiembre, Runway actualizó aún más, permitiendo que Gen-2 pudiera tomar una imagen de entrada y animarla (similar a la función de foto a video de Gemini) e incluso aumentar la resolución de salida (una actualización incrementó la salida de video basada en imágenes fijas a ~1536p) [42]. Ahora, en 2025, Runway’s Gen-3 (alpha) sigue impulsando el realismo y el control de edición, acercándose a una calidad de salida de nivel profesional [43]. Los creadores elogian a Runway por su conjunto de herramientas integral (ofrece un editor web completo con keyframing, in-painting, etc.), aunque el uso intensivo puede resultar costoso y puede haber colas en horas pico [44] [45]. Al igual que Gemini, los videos de Runway actualmente son mudos (sin audio automático), centrándose únicamente en lo visual. Pika Labs es otro actor emergente, conocido por un enfoque más lúdico y estilizado del video con IA. Lanzado en 2023 por una pequeña startup (y respaldado por una financiación significativa), Pika ganó popularidad por sus exclusivos “Pika Effects”: preajustes que añaden animaciones caprichosas o estilos visuales de moda a los videos [46]. Admite texto a video e imagen a video, y es elogiado por ser fácil de usar y rápido, lo que lo hace ideal para contenido en redes sociales. Las salidas de Pika tienden a ser clips cortos y estilizados (perfectos para memes, visuales musicales, etc.) en lugar de cine hiperrealista. Como señaló un análisis, herramientas como Runway y Pika han “encontrado nichos para contenido estilizado o experimental”, mientras que Gemini/Veo de Google “apunta al realismo y lo está logrando” [47]. En otras palabras, Pika Labs destaca en expresión creativa y facilidad de uso, aunque puede que no iguale el fotorrealismo de Gemini. Los precios de Pika son relativamente accesibles (ofrece una prueba gratuita y planes de ~$10/mes con créditos de video establecidos) [48] [49], lo que lo hace popular entre creadores independientes. El gigante de la industria Adobe también ha entrado en la arena con Adobe Firefly video generativo (actualmente en beta). Las herramientas de texto a video e imagen a video de Firefly están integradas en la plataforma web de Adobe, apuntando a 1080p/strong> clips de alta calidad de unos pocos segundos. Adobe está enfatizando la generación de video con IA “segura para marcas”: el modelo de Firefly está entrenado con contenido con licencia o de Adobe Stock para evitar problemas de derechos de autor, y se comercializa como el primer generador de video “seguro para uso comercial” y apto para empresas. En la práctica, Firefly puede animar imágenes o generar escenas cortas con un nivel de detalle impresionante (Adobe muestra ejemplos como paisajes naturales cinematográficos, tomas de productos con movimientos de cámara y hasta primeros planos de rostros humanos) [50] [51]. También ofrece algunos deslizadores de control de cámara y estilos, aprovechando la experiencia de Adobe en efectos visuales. La contrapartida es que Firefly está bastante limitado para asegurar que los resultados sean “legalmente seguros” y debidamente licenciados [52]. El enfoque de Adobe está en los creadores profesionales que necesitan material libre de derechos y autorizado; por ejemplo, los equipos de marketing podrían generar rápidamente B-roll o guiones gráficos sin preocuparse por violaciones de propiedad intelectual. Si bien la fidelidad visual de Firefly es sólida, Gemini de Google tiene ventaja al generar audio de manera fluida y escenas más dinámicas y largas (y, por supuesto, Google tiene la ventaja de una base de usuarios establecida a través de la app Gemini). La competencia es feroz, pero cada plataforma – Sora, Runway, Pika, Firefly y Gemini – ofrece una combinación ligeramente diferente de capacidades para distintos públicos y casos de uso.
- Recepción: Lo que dicen los creadores y expertos: La reacción pública a las herramientas de video de Gemini ha sido en gran parte entusiasta. Muchos usuarios han compartido ejemplos sorprendentes en redes sociales: desde fotos familiares antiguas traídas a la vida con sutil movimiento, hasta pinturas fantásticas animadas en cortometrajes. Los críticos tecnológicos de Tom’s Guide pusieron a prueba el Veo 3 de Gemini y quedaron impresionados. “Debo admitir que se ve bastante legítimo”, escribió un crítico después de convertir una selfie en un video de sí mismo corriendo en la playa, señalando que aunque algunos detalles finos eran un poco suaves, “el video se ve preciso” e incluso incluía el sonido de las olas y los pasos, lo que “lo hacía sentir más creíble” [53] [54]. En otra prueba, la IA añadió con éxito una “invasión alienígena” a una simple foto de un parque: el resultado tenía algunos artefactos curiosos (ovnis apareciendo y desapareciendo), pero en general era una pequeña escena de ciencia ficción convincente generada en minutos [55] [56]. Estas experiencias destacan tanto la emoción como las limitaciones actuales: Gemini puede producir imágenes y sonidos increíblemente realistas, pero los usuarios más atentos aún pueden notar fallos o desenfoques ocasionales. Las opiniones de expertos sugieren que Google está a la vanguardia de un campo que evoluciona rápidamente. El equipo de Stockimg.ai, al comparar los principales modelos de video, señaló que “en términos de calidad de salida pura, Sora y VEO3 actualmente lideran el grupo,” y ambos producen videos que pueden ser “difíciles de distinguir de imágenes reales” [57]. Destacaron la ventaja de Gemini de tener audio nativo y el sólido respaldo de IA de Google [58]. Otro analista destacó que la integración de estas herramientas de Google (Gemini, Veo, Flow) crea “algo así como un estudio completo al alcance de tu mano,” mientras que otros pueden requerir soluciones por separado para sonido o edición [59]. Aun así, se reconoce que ningún modelo es perfecto todavía: por ejemplo, Veo 3 puede tener dificultades con movimientos muy rápidos o interacciones complejas (por ejemplo, varias personas hablando), y evita deliberadamente generar rostros reconocibles o personajes con derechos de autor por razones éticas. Es notable que Google está abordando conscientemente las preocupaciones éticas y de seguridad en torno al video generativo. En su anuncio, Google enfatizó una extensa“red teaming” y aplicación de políticas para prevenir el uso indebido de videos de IA [60]. Cada video creado con Gemini lleva una marca de agua para desalentar el engaño [61]. Este enfoque cauteloso ha sido bien recibido por la mayoría de los expertos, quienes coinciden en que es fundamental etiquetar claramente el contenido de IA a medida que se vuelve más realista. Algunos creadores siguen sintiéndose incómodos con las imágenes generadas por IA; incluso una productora de Google admite que “oscila entre sentirse emocionada e incómoda” al usar estas herramientas, pero finalmente considera que el arte generado por IA le permite crear imágenes que no habrían existido de otra manera, mejorando su trabajo en lugar de reemplazarlo [62]. Ese optimismo cauteloso —abrazar el nuevo potencial creativo mientras se mantienen atentos a los posibles inconvenientes— resume gran parte del sentimiento público.
En el transcurso de unos pocos meses, la actualización “Nano Banana” de Google Gemini y las funciones de generación de video han catapultado la plataforma a la vanguardia de la creatividad en IA. Al combinar un potente editor de imágenes con un motor generativo de video, Gemini permite que cualquier persona con una suscripción y algo de imaginación produzca cortos “filmes” a partir de una sola foto o indicación. Esta convergencia de IA de imagen y video – junto con competidores que avanzan a la par – sugiere que estamos entrando en una nueva era donde la narración podría comenzar simplemente con un texto y un sueño. Y el mensaje de Google para los creadores es claro: ¡Luces. Cámara. Acción-IA! [63]
Fuentes:
- Blog de Google – “La edición de imágenes en Gemini acaba de recibir una gran actualización” (actualización Nano Banana) [64] [65]
- Blog de Google – “Convierte tus fotos en videos en Gemini” (David Sharon) [66] [67] [68] [69] [70]
- Blog de Google – “3 formas de usar la función de foto a video en Gemini” (Tatiana Gonzalez) [71] [72] [73] [74] [75] [76]
- Tom’s Guide – “Transformé fotos en videos con Veo 3 de Google: resultados impresionantes” [77] [78] [79]
- ProTunes One – “La nueva herramienta de creación de videos de Gemini: qué significa para los creadores” [80] [81] [82]
- Stockimg AI Blog – “Comparando los mejores modelos de generación de video con IA: Sora, VEO3, Runway y más” [83] [84] [85] [86] [87]
- VentureBeat – “Actualización Gen-2 de Runway… increíble video de IA” [88] [89] [90]
- OpenAI – Página del producto Sora [91] [92]
- Adobe – Página del generador de video Firefly AI [93] [94]
References
1. blog.google, 2. blog.google, 3. blog.google, 4. blog.google, 5. blog.google, 6. blog.google, 7. www.tomsguide.com, 8. gemini.google, 9. gemini.google, 10. blog.google, 11. blog.google, 12. blog.google, 13. blog.google, 14. blog.google, 15. blog.google, 16. blog.google, 17. blog.google, 18. blog.google, 19. blog.google, 20. blog.google, 21. blog.google, 22. blog.google, 23. protunesone.com, 24. protunesone.com, 25. protunesone.com, 26. protunesone.com, 27. protunesone.com, 28. venturebeat.com, 29. venturebeat.com, 30. protunesone.com, 31. blog.google, 32. stockimg.ai, 33. stockimg.ai, 34. openai.com, 35. openai.com, 36. protunesone.com, 37. stockimg.ai, 38. venturebeat.com, 39. venturebeat.com, 40. venturebeat.com, 41. venturebeat.com, 42. venturebeat.com, 43. stockimg.ai, 44. stockimg.ai, 45. stockimg.ai, 46. generativeai.pub, 47. protunesone.com, 48. www.tomsguide.com, 49. www.tomsguide.com, 50. www.adobe.com, 51. www.adobe.com, 52. www.adobe.com, 53. www.tomsguide.com, 54. www.tomsguide.com, 55. www.tomsguide.com, 56. www.tomsguide.com, 57. stockimg.ai, 58. stockimg.ai, 59. protunesone.com, 60. blog.google, 61. blog.google, 62. blog.google, 63. blog.google, 64. blog.google, 65. blog.google, 66. blog.google, 67. blog.google, 68. blog.google, 69. blog.google, 70. blog.google, 71. blog.google, 72. blog.google, 73. blog.google, 74. blog.google, 75. blog.google, 76. blog.google, 77. www.tomsguide.com, 78. www.tomsguide.com, 79. www.tomsguide.com, 80. protunesone.com, 81. protunesone.com, 82. protunesone.com, 83. stockimg.ai, 84. stockimg.ai, 85. stockimg.ai, 86. stockimg.ai, 87. stockimg.ai, 88. venturebeat.com, 89. venturebeat.com, 90. venturebeat.com, 91. openai.com, 92. openai.com, 93. www.adobe.com, 94. www.adobe.com