Sora, la nueva herramienta de OpenAI que asusta al mundo entero – Novedades Tecnología – Tecnología


Aunque nada más lejano a Vladimir Lenin que el apogeo de la inteligencia artificial (IA), una frase de él resume lo que pasó hace unos días con el anuncio de Sora, la herramienta de IA de OpenAI (los mismos desarrolladores de Chat GPT y Dall-e) capaz de crear video con un nivel de detalle que podría pasar imperceptible ante una persona ajena al mundo audiovisual. “Hay décadas donde no pasa nada y hay semanas donde pasan décadas”, dijo años atrás el líder soviético, quien murió en 1924, a los 54 años.

Bueno, la única relación que podría guardar Lenin con la IA son los intentos de esta, tras procesar una orden humana, de revivir al dirigente bolchevique a través de una imagen o un video de él en tiempo presente. Arbitrariedades se han visto, como el montaje del rostro del reguetonero Bad Bunny en el cuerpo de la española Rosalía, en el que se le escucha hablar como la cantante.

La frase de Lenin, para ser honestos, se ha trillado en el mundo de la tecnología. Y con toda razón. De tanto en tanto empresas de la industria anuncian las creaciones o las mejoras de productos y servicios que en el ideal deberían de prestar ayuda, quitar cargas mecánicas a las personas en sus tareas diarias, mejorarles la salud y ampliar su expectativa de vida para tener más tiempo con los suyos. Y ,de hecho, hasta cierta medida lo cumplen. Pero no debería generar temores y miedos.

Pese a que aún no está disponible para el público, los adelantos que dio OpenAI sobre Sora son sorprendentes, a la vez que producen un nivel de alarma. Con esa misma tecnología de IA se ha engañado, manipulado y estafado a cientos de personas usurpando la identidad de voz. También se ha vulnerado la intimidad de usuarios de las redes sociales y se ha sexualizado a niños, niñas, adolescentes y mujeres que publican una foto que parece inofensiva y después termina montada en un video o imagen con connotación sexual. Ni hablar de los problemas de derecho de autor que la IA ha supuesto o de la idea escalofriante que Chat GPT arrojó cuando le preguntaron cómo matar a la mayor cantidad de gente con apenas un dólar y consultas similares que ha recibido.

¿Qué se sabe de Sora?

Sora es el nuevo modelo impulsado por inteligencia artificial generativa de OpenAI capaz de crear escenas realistas de video de hasta 60 segundos a partir de instrucciones de texto, con un resultado detallado, un movimiento de cámara complejo y múltiples personajes con emociones.

Según la empresa, Sora puede “generar escenas complejas con varios personajes, movimientos específicos y detalles precisos, con calidad visual y respetando la demanda del usuario”. También permite crear un video a partir de una imagen fija, animando el contenido con precisión y sin perder detalle, y alargar videos ya existentes o completar algunos fotogramas.

Básicamente lo que OpenAI ha hecho es entrenar a su IA de texto (Chat GPT) e imagen (Dall-e) para que comprenda y simule el mundo físico en movimiento. Y, hasta lo que hemos visto, sí que lo ha logrado.

ChatGPT Enterprise ofrece una serie de beneficios clave para las empresas.

En algunos videos compartidos por la empresa para atestiguar su último invento se pueden ver imágenes de dos perros subiendo por la nieve en una montaña, una Land Rover Defender avanzando por una carretera acantilada y boscosa, una señora de la tercera edad cocinando lo que parece una torta, entre otros videos animados o inverosímiles, como animales marinos montando bicicleta en medio del mar.
Para la creación de estos videos, los usuarios que hasta ahora han interactuado con la herramienta tan solo le han proporcionado a Sora una serie de indicaciones detallando qué características tiene que incluir la escena, como los personajes y las acciones que llevarán a cabo, el entorno, el clima y los movimientos de cámara que se deban recrear.
Incluso, con el anuncio de la nueva IA de video, Sam Altman, CEO de OpenAI, invitó a que la gente lanzara ideas de video a través de su cuenta de X (Twitter). En su perfil, se ve cómo responde con pequeños videos a las propuestas de sus seguidores: dos golden retrievers haciendo un pódcast en una montaña o una carrera de drones en Marte con el atardecer de fondo.

Por ejemplo, estas son las indicaciones que se le dio a Sora para producir uno de los videos con los que OpenAI está promocionando la herramienta: primer plano del parpadeo del ojo de una mujer de 24 años, de pie en Marrakech durante el atardecer, película cinematográfica rodada en 70 mm, profundidad de campo, colores vivos, cinematográfico. Cuanta más precisión en las órdenes, más realismo.

La compañía explicó que el modelo puede llevar a cabo escenas tan precisas porque no solo comprende lo que el usuario solicita en sus indicaciones de texto, sino que también es capaz de comprender cómo existen esas cosas en el mundo físico, incluso las emociones.

En cuanto a su funcionamiento, Sora genera un video a partir de otros videos que, según OpenAI, parecen “ruido estático”. De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas.

Asimismo, al igual que los modelos GPT, utiliza una “arquitectura de transformador” con la que, según la compañía, se desbloquea un rendimiento de escalado superior. Concretamente, las imágenes del video se representan como “colecciones de unidades de datos más pequeñas”, a las que se refiere como parches. Así, cada parche es el equivalente a un token en GPT.

Defectuosa

Como ya se mencionó, Sora aún no está disponible para el público general, ni siquiera para quienes estén dispuestos a pagar por ella. Su uso solo está disponible para los miembros del equipo rojo de OpenAI, el equipo dedicado a la investigación del servicio, de cara a ponerlo a prueba y comprobar qué fallos presenta y cuáles son sus posibles riesgos.

Además de ellos, también un grupo de artistas visuales, diseñadores y cineastas la están explorando para dar recomendaciones de mejoras y hacer que sea lo más útil posible para los profesionales creativos, según ha explicado la compañía.

Y es que el actual modelo de la plataforma presenta defectos, como dificultades para representar algún espacio, errores en los tiros de cámara o planos, confusión entre izquierda y derecha o la imposibilidad de mantener una continuidad visual durante toda la extensión del video (causa y efecto). “Por ejemplo, una persona puede comer una galleta, pero luego en la galleta no se aprecia la mordedura”, explicó OpenAI.

Por otro lado está el tema de seguridad. La empresa manifestó que este asunto es clave y delicado y están enfocados en que el modelo que lancen públicamente no esté al servicio de estafadores o delincuentes. En este período de pruebas con técnicos y expertos en seguridad, desinformación, contenidos discriminatorios y que incitan al odio, habrá simulaciones con usuarios a los que se les pedirá tratar de provocar errores o crear contenido inapropiado para poder definir mejor los límites de la plataforma.

“Involucraremos a tomadores de decisiones, educadores y artistas en el mundo para comprender sus preocupaciones e identificar los casos positivos de uso de esta nueva tecnología”, prometió OpenAI.

Por otra parte, la compañía está desarrollando herramientas para detectar contenido engañoso. Se trata de una serie de funciones que permitirán clasificar los videos generados por Sora, para identificarlos frente a otro tipo de videos con IA o videos reales. Una de estas funciones es la implementación de metadatos de C2PA, un estándar que verifica el origen del contenido y la información relacionada.
Además de todo ello, actualmente también se están utilizando los métodos de seguridad que ya utilizan otros productos de la tecnológica impulsados por Dall-e 3 que, según ha dicho, también son aplicables a Sora.

Estos métodos de seguridad verifican y rechazan las solicitudes de ingreso de texto que infrinjan las políticas de uso, como es el caso de cuestiones relacionadas con violencia extrema, contenido sexual, imágenes de odio o imágenes personales. Igualmente, también disponen de clasificadores de imágenes que revisan los fotogramas de cada video para garantizar que se cumplan las políticas de la compañía, antes de mostrarlo al usuario.

No obstante estos esfuerzos, que se hacen necesarios con base en lo que la evidencia muestra, el episodio que protagonizó OpenAI al año de lanzar Chat GPT deja dudas. A finales de noviembre, la junta directiva de OpenAI despidió a Sam Altman, cofundador de la empresa, por supuestamente “no ser sincero en sus comunicaciones”, “entorpecer el normal ejercicio de sus responsabilidades” y la velocidad vertiginosa de los desarrollos de Altman y su equipo. Argumentos que, leídos desde afuera, dan a entender que había un ambiente de desconfianza sobre el principal responsable en los avances de una tecnología que está revolucionando y desafiando el mundo. La inteligencia artificial generativa es un sistema altamente autónomo que superaría a los humanos en la mayoría de las tareas económicamente rentables.

Altman regresó a los pocos días a OpenAI gracias a la presión de decenas de empleados que amenazaron con irse también. Para su regreso, el joven desarrollador exigió el cargo de CEO de la empresa y la potestad para nombrar una nueva junta directiva de toda su confianza.

ChatGPT

OpenAI ha respondido a este descubrimiento implementando nuevas políticas.

El consejo directivo que despidió a Altman no pertenecía a OpenAI y estaban allí ad honorem como un órgano independiente a los intereses comerciales de la empresa y con la tarea de “garantizar que la inteligencia artificial general beneficie a toda la humanidad”. Y bajo esa premisa se asume que la junta tomó la decisión de revocar a Altman de sus funciones.

OpenAI es una compañía con ánimo de lucro que forma parte de una fundación sin ánimo de lucro, una figura que complejiza el avance tecnológico altruista y responsable al tiempo que, como toda empresa, OpenAI busca ganancias y competir en el mercado con ánimos de superar a contrincantes.

Hasta ahora, Sora es la herramienta que muestra más progreso y realismo en el desarrollo de videos creados con inteligencia artificial generativa. Sin embargo, Meta, Google y Runway AI, que trabajan en aplicaciones similares conocidas como text-to-video (que permiten pasar una idea escrita a video), también están en esa carrera y han presentado muestras de sus avances.

REDACCIÓN DOMINGO
EL TIEMPO
(*) Con información de Europa Press y AFP

Más noticias



Leave a Reply

Your email address will not be published. Required fields are marked *