En los últimos años la inteligencia artificial ha demostrado ser una tecnología transformadora en una amplia variedad de campos, incluyendo los efectos visuales. Pero, ¿qué es realmente la inteligencia artificial y cómo se aplica en el mundo de los efectos visuales? En este artículo escrito por Aitor Echeveste, antiguo alumno de U-tad, compositor digital en WetaFX y fundador de la web Inteligencia Artificial Hoy, explicamos los conceptos básicos de la inteligencia artificial y su aplicación en la creación de efectos visuales, así como las ventajas y desventajas de utilizar esta tecnología. También analizamos los desafíos que enfrenta la inteligencia artificial en el mundo de los efectos visuales y cómo se espera que evolucione en el futuro. En última instancia, reflexionamos sobre el impacto que esta tecnología tiene en la producción de efectos visuales y su papel en el futuro de la industria.
¿Qué es la inteligencia artificial?
La inteligencia artificial se refiere a un conjunto de tecnologías que permiten llevar a cabo actividades «intelectuales» sin necesidad de interacción humana. Estas actividades pueden incluir razonamiento, análisis, toma de decisiones y resolución de problemas.
Es sorprendente la cantidad de productos y servicios que utilizamos diariamente que incorporan algún tipo de inteligencia artificial. Desde asistentes virtuales como Siri y Alexa, hasta algoritmos que nos recomiendan productos en línea. La inteligencia artificial también está presente en sectores como la atención médica, la industria automotriz y la agricultura, donde se utiliza para optimizar procesos y mejorar la eficiencia. Incluso los servicios financieros y bancarios se han visto transformados por la IA, capaz de predecir el comportamiento del mercado y mitigar los riesgos.
Entre las tecnologías que impulsan la inteligencia artificial, se encuentran las redes neuronales, el aprendizaje automático y los algoritmos, que son ampliamente reconocidos en la industria.
Aplicaciones de la inteligencia artificial
Aunque la inteligencia artificial todavía puede causar asombro o curiosidad, la realidad es que lleva presente en nuestras vidas más tiempo del que pensamos:
- Asistentes de voz inteligentes: Siri, Alexa y Google Assistant son asistentes de voz que utilizan la IA para comprender y responder a las preguntas y órdenes de los usuarios.
- Análisis de datos en redes sociales: las redes sociales utilizan la IA para analizar los datos de los usuarios,y proporcionar recomendaciones personalizadas y anuncios relevantes.
- Reconocimiento facial: la tecnología de reconocimiento facial utiliza la IA para identificar y clasificar rostros en fotografías y vídeos.
- Traducción automática: los servicios de traducción automática, como Google Translate, utilizan la IA para comprender y traducir diferentes idiomas de manera fluida.
- Compras personalizadas en línea: los sitios de compras en línea, como Amazon, utilizan la IA para ofrecer recomendaciones de productos personalizados y crear una experiencia de compra única.
- Automatización de procesos: la IA se utiliza en la automatización de procesos empresariales, incluyendo el procesamiento de facturas, la gestión de inventarios y la atención al cliente automatizada.
En los últimos tiempos, la inteligencia artificial ha alcanzado un nivel más interactivo y ha empezado a desempeñar funciones más similares a las de los humanos, como la escritura de textos, la respuesta a preguntas y la creación de arte digital. Algunos ejemplos de ello son Mid Journey, Chat GPT, DALL-E y Stable Diffusion.
¿Qué es la IA Generativa?
La IA Generativa utiliza técnicas de inteligencia artificial para crear contenidos nuevos, tal y como imágenes, vídeos, música, textos y otras formas de datos. Utiliza algoritmos y modelos de aprendizaje automático para generar contenido que imita o simula la creatividad humana.
Los sistemas de IA Generativa aprovechan algoritmos de aprendizaje profundo como las redes generativas adversarias (GAN), los auto-codificadores variacionales (VAE) y las redes neuronales recurrentes (RNN) para crear contenido basado en patrones y entrada de datos, o los más utilizados actualmente, los modelos de difusión. Estos algoritmos pueden aprender de vastas cantidades de datos y generar nuevos.
¿Cómo puede la inteligencia artificial crear piezas artísticas?
La IA ofrece una serie de herramientas y técnicas que permiten a los artistas explorar y desarrollar su creatividad de manera única. Estas herramientas incluyen redes generativas adversarias (GANs), modelos de difusión, algoritmos de estilo de imagen, herramientas de dibujo asistido por ordenador, sistemas de clasificación de imágenes y chatbots. Todas estas herramientas utilizan una técnica de aprendizaje automático llamada aprendizaje profundo.
Modelos de difusión
El aprendizaje automático utiliza diferentes tipos de modelos generativos para generar nuevos datos a partir de los de entrenamiento. Esto es lo que ocurre con las redes generativas adversarias (GAN), los autoencoders variacionales (VAE) y los modelos basados en flujo, capaces de producir imágenes de alta calidad, aunque con limitaciones.
Los modelos de difusión, por su parte, destruyen los datos de entrenamiento al agregar ruido para luego recuperar los originales. Es decir, aprenden a generar imágenes coherentes a partir de ruido. Si se combinan con la guía de texto a imagen, estos modelos pueden crear una cantidad infinita de imágenes a partir de texto.
Entre los modelos de difusión más populares se encuentran los siguientes:
- Dall-E 2 de Open AI
- Imagen de Google
- Stable Diffusion de Stability AI.
Inteligencia artificial y efectos visuales: evolución
Los efectos CGI innovadores de Jurassic Park revolucionaron más de cien años de tradición de efectos visuales. Y es que los ordenadores habían logrado por primera vez la capacidad de generar objetos sólidos y fotorrealistas, prometiendo relegar las incómodas cargas del mundo físico y fotoquímico de los efectos visuales. Ahora, 25 años después, parece que el agua está volviendo a agitarse debido a las nuevas técnicas de aprendizaje automático que se están adentrando en los flujos de trabajo establecidos de la CGI.
El cambio de paradigma en las industrias de efectos visuales ha llevado a los artistas a cuestionarse si la inteligencia artificial acabará por tomar el control. No obstante, hay que tener en cuenta que la IA en los VFX no tiene como objetivo reemplazar a los artistas, sino potenciar el proceso de llevar los efectos a la pantalla grande.
Con la IA todo el trabajo tedioso, manual y monótono que recae en manos de los artistas puede ser completado por el aprendizaje profundo y la red neuronal profunda, con el fin de que estos puedan enfocarse en el aspecto creativo. Así, el aprendizaje automático en IA ayuda a optimizar el flujo de trabajo, al mismo tiempo que aumenta la eficiencia y simplifica las tareas de fotograma a fotograma.
Inteligencia artificial en producciones audiovisuales
Fase de preproducción
La IA permite a los productores, directores y ejecutivos de estudio tomar decisiones informadas, minimizar el riesgo financiero y asignar recursos de manera más efectiva. Si bien las predicciones impulsadas por la inteligencia artificial no reemplazan la creatividad humana, son una herramienta valiosa para mejorar las habilidades de los profesionales de la industria. Al aprovechar el poder del aprendizaje automático, la industria cinematográfica puede mejorar la calidad de su producción, aumentar la probabilidad de éxito en taquilla y, en última instancia, crear experiencias cinematográficas más atractivas y convincentes para las audiencias de todo el mundo.
Análisis y desarrollo de guiones
El análisis de guiones por inteligencia artificial se está convirtiendo en una herramienta para mejorar el arte de contar historias. Al utilizar algoritmos de aprendizaje automático estas tecnologías pueden analizar grandes cantidades de datos para identificar patrones exitosos de narración, tropos y temas de una amplia gama de películas y guiones, proporcionando conocimientos valiosos a los guionistas.
Este enfoque impulsado por los datos empodera a los escritores para que amplíen los límites de la narración convencional y exploren nuevas vías creativas, lo que en última instancia les ayuda a crear narrativas más atractivas que conecten con las audiencias. A través del análisis de guiones impulsado por la inteligencia artificial, los cineastas pueden desbloquear un nuevo potencial narrativo y crear películas más impactantes y emocionalmente resonantes que cautiven e inspiren a las audiencias.
Una de las herramientas que se utilizan con este fin es ChatGPT de OpenAI, un chatbot conversacional que puede responder preguntas de seguimiento, admitir errores, cuestionar premisas incorrectas y rechazar solicitudes inapropiadas. Ahora está incorporado a Microsoft Bing.
Análisis de sentimientos del espectador
El análisis de sentimientos es un aspecto esencial del análisis de guiones. Impulsado por la inteligencia artificial, implica el uso de procesamiento de lenguaje natural y lingüística computacional para extraer y cuantificar información subjetiva del texto.
El análisis de sentimientos puede proporcionar información valiosa sobre el tono emocional y el impacto del guion, lo que ayuda a los cineastas a comprender cómo las audiencias podrían reaccionar ante los personajes, diálogos y desarrollos de la trama. Al evaluar el arco de los personajes e identificar el tono emocional general de una película, el análisis de sentimiento puede ayudar a los guionistas a crear personajes más atractivos con los que las audiencias puedan identificarse, así como a garantizar que sus películas logren el equilibrio adecuado entre diferentes emociones.
A medida que las tecnologías de inteligencia artificial continúan evolucionando, se espera que el análisis de sentimiento se convierta en una parte cada vez más integral del desarrollo de guiones, desbloqueando un nuevo potencial narrativo para los cineastas y creando experiencias cinematográficas inolvidables.
Desarrollo de personajes
Los personajes impulsan la fuerza emocional de una historia. Para crear personajes atractivos y relacionales los escritores deben invertir tiempo y esfuerzo en su desarrollo, asegurándose de que sean capaces de impulsar la trama, resuenen con las audiencias y dejen una impresión duradera.
Fase de producción
La IA se utiliza cada vez más en la producción de películas para mejorar la eficiencia, reducir costes y crear efectos visuales más realistas y convincentes. Por ejemplo, los algoritmos de aprendizaje profundo se utilizan para crear personajes virtuales y entornos digitales complejos que se integran perfectamente con imágenes reales. Además, la IA se utiliza para acelerar la renderización de imágenes y reducir el tiempo necesario para procesar efectos visuales complejos.
Generadores de imágenes
Ayudan a la previsualización, el storyboard, el desarrollo de conceptos y la presentación de proyectos. Estos son algunos de lo más utilizados:
- Midjourney: mediante un servidor de Discord, los usuarios usan el comando /imagine y escriben una indicación; luego el bot devuelve una imagen.
- Dall-E: crea imágenes a partir de descripciones de texto para una amplia gama de conceptos expresables en lenguaje natural.
- Stable Diffusion: genera imágenes detalladas condicionadas por descripciones de texto. También se puede aplicar a la interpolación, la extrapolación y la generación de traducciones de imágenes guiadas por una indicación de texto.
- ControlNET: ayuda a controlar modelos de Stable Diffusion mediante la adición de parámetros, mejorando el control y la precisión de las imágenes generadas.
- Cuebric: toma arte generado por inteligencia artificial y lo convierte en entornos listos para su uso en Unreal Engine para producción virtual.
Generación de vídeo
Actores digitales altamente precisos utilizados para el retargeting de actuaciones en un rostro diferente o en el mismo a una edad diferente, rejuvenecimiento, captura de movimiento y el uso de personajes no antropomórficos impulsados por actuaciones humanas.
- Synthesia: permite crear rápidamente vídeos con avatares IA en más de 120 idiomas. Incluye plantillas, un grabador de pantalla y una biblioteca de medios, entre otras herramientas.
- NVidia GET3D: genera mallas 3D con topología compleja, detalles geométricos ricos y texturas de alta fidelidad.
- Weta Simulcam: sistema de cámara virtual diseñado para la película Avatar. Capaz de crear una composición en tiempo real de elementos virtuales y prácticos y alimentarla en el visor de la cámara de producción para que el operador vea todo el mundo compuesto en casi tiempo real. Todos los componentes están registrados y alineados en un espacio 3D para mantener la escala adecuada de los elementos prácticos y virtuales para el operador de la cámara (y para aquellos que ven el monitor de producción), lo que permite el encuadre simultáneo en tiempo real de los elementos prácticos y virtuales.
Fase de postproducción
Deep Fakes
Los deep fakes son vídeos generados por inteligencia artificial que imitan a personas y eventos reales. Aunque pueden ser entretenidos, se deben considerar las posibles implicaciones de esta tecnología, ya que podrían usarse para difundir desinformación y propaganda, crear noticias falsas y dañar reputaciones. Sin embargo, también existen beneficios potenciales, como la creación de efectos especiales más verosímiles e inmersivos y simulaciones de entrenamiento más realistas para diversas profesiones.
La diferencia entre una malla de CGI y un modelo de Deep Learning
Un enfoque CGI tradicional para generar un rostro humano implica crear o generar una malla 3D de la persona y asignar imágenes de textura apropiadas al modelo. Si el rostro necesita moverse, como parpadear o sonreír, estas variaciones tendrán que ser esculpidas minuciosamente en el modelo como parámetros. Para ello, se pueden necesitar simulaciones de músculos y piel, además de sistemas de cabello o pelo facial, para simular cejas y barbas.
Un modelo basado en aprendizaje automático es mucho más abstracto en su naturaleza. Se crea mediante el proceso de analizar y asimilar miles de imágenes de origen del mundo real de los dos sujetos que se están procesando, la persona «objetivo» que aparecerá en el trabajo final y la persona «fuente» de la que se extrae la información.
Durante la extracción de datos de las imágenes de origen, el software aplica la estimación de pose facial para comprender el ángulo y la expresión del rostro en cada imagen. Estos puntos de referencia faciales se utilizan para realizar conversiones efectivas y, opcionalmente, para entrenar el modelo de manera más eficiente. El modelo resultante aprende implícitamente cómo transferir características faciales entre los dos sujetos en los datos de entrenamiento.
Rotoscopia
La capacidad de grabar imágenes para composiciones sin necesidad de una pared LED o una pantalla verde. Las herramientas pueden deducir la profundidad a partir de imágenes puras.
- Electric Sheep ML Rotoscope: algoritmo desarrollado para ser robusto, rápido y flexible a los requisitos de efectos visuales mientras entrega mates luma automatizados y de alta calidad rápidamente.
Transferencia de estilos
La transferencia de estilos con machine learning es una técnica que permite aplicar el estilo de una imagen de referencia a otra imagen de contenido, creando así una imagen híbrida que combina ambos estilos.
- Nuke CopyCat: copia efectos específicos de secuencia, como el enmascaramiento de basura, las reparaciones de belleza o el desenfoque de un pequeño número de fotogramas en una secuencia. Luego, entrena una red para replicar este efecto en toda la secuencia, ahorrando mucho esfuerzo y tiempo manual.
- Gen-1 de Runway: sintetiza nuevos vídeos aplicando la composición y el estilo de una imagen o indicación de texto a la estructura del vídeo de origen.
- EBsynth: aprendizaje automático para animar imágenes fijas con precisión realista.
- Adobe Premiere Sensei: cuenta con herramientas para igualar el color, la transición de corte de morfología o el etiquetado/clasificación automático.
Audio y doblaje
La tecnología de machine learning puede utilizarse para mejorar la calidad del sonido, reducir el ruido de fondo y crear doblajes automáticos más precisos y naturales.
- Re-speecher: sirve para tomar una voz de origen y entrenar un modelo de aprendizaje para hablar con esa voz, automatizar la localización de idiomas y ADR, redirigir una grabación de voz de origen a un estilo vocal diferente y generar efectos de sonido y música basados en indicaciones de texto. Este método se utilizó para la voz de Darth Vader en la serie Obi-Wan para Disney+ y para la voz de un joven Luke Skywalker en The Book of Boba Fett, por ejemplo.
- Flawless: doblaje visual. Permite la sustitución de diálogos, la eliminación de palabras obscenas o la traducción a otros idiomas mientras se mantiene la sincronización de labios.
Las ventajas del código abierto
Las casas de efectos visuales han sido pioneras en la adopción de herramientas basadas en inteligencia artificial (IA) para mejorar su flujo de trabajo y la calidad de los resultados finales. Hasta hace poco la mayoría de estas herramientas eran propiedad exclusiva de las empresas que las desarrollaban, lo que limitaba su accesibilidad. Sin embargo, recientemente se ha producido un cambio de paradigma que ha fomentado un enfoque más abierto y colaborativo en el desarrollo de herramientas de IA para efectos visuales. Estos son algunos ejemplos de proyectos de los que ahora disponemos de código abierto:
- Universal Scene Description (USD) de Pixar Animation Studio.
- La biblioteca C++ OpenVDB fue iniciada por Dreamworks.
- Gestión de color OpenColorIO (OCIO).
- Archivos Alembic, desarrollado por Sony Pictures Imageworks e ILM
- El sistema de almacenamiento de datos voxel Field3D de Sony Imageworks.
- El proyector OpenEXR iniciado por ILM.
Otro ejemplo es la herramienta GANPaint Studio, creada por investigadores de NVIDIA, que permite a los artistas de efectos visuales «pintar» texturas y objetos realistas a partir de bocetos rudimentarios utilizando la tecnología de redes generativas adversarias (GAN).
Este enfoque de código abierto tiene el potencial de democratizar el acceso a herramientas de IA avanzadas para efectos visuales, permitiendo que los artistas independientes y los estudios de menor tamaño puedan competir con los grandes estudios de Hollywood. Además, al abrir el proceso de desarrollo a la comunidad, se puede mejorar la calidad y la eficacia de estas herramientas al aprovechar la experiencia y el conocimiento de una amplia gama de expertos en el campo.
Conclusión
El uso de la inteligencia artificial (IA) está cambiando la industria cinematográfica a un ritmo vertiginoso. Y es que esta tecnología se está utilizando en diversos aspectos de la realización de películas, como la escritura de guiones, el reparto, los efectos especiales y la distribución por su capacidad para ahorrar tiempo y recursos.
Sin embargo, también existen posibles desventajas en el uso de IA en la industria cinematográfica, como la pérdida de empleos, de la creatividad y del toque humano. Para combatir este problema, las personas deben centrarse en potenciar las habilidades «humanas», como la emoción, la empatía y las habilidades sociales, así como mantenerse competitivas aprendiendo a manejar estas nuevas herramientas.