{"id":14228,"date":"2024-02-27T10:30:59","date_gmt":"2024-02-27T13:30:59","guid":{"rendered":"https:\/\/www.fie.undef.edu.ar\/ceptm\/?p=14228"},"modified":"2024-02-27T10:30:59","modified_gmt":"2024-02-27T13:30:59","slug":"sora-una-ia-que-crea-videos-realistas-de-cualquier-cosa","status":"publish","type":"post","link":"https:\/\/www.fie.undef.edu.ar\/ceptm\/?p=14228","title":{"rendered":"Sora, una IA que crea v\u00eddeos realistas de cualquier cosa"},"content":{"rendered":"<p>OpenAI ha creado un nuevo y sorprendente modelo de video generativo llamado Sora que puede tomar una breve descripci\u00f3n de texto y convertirla en un clip de pel\u00edcula detallado de alta definici\u00f3n de hasta un minuto de duraci\u00f3n.<\/p>\n<hr \/>\n<p>Basado en cuatro videos de muestra que\u00a0<a href=\"https:\/\/www.technologyreview.com\/2023\/10\/26\/1082398\/exclusive-ilya-sutskever-openais-chief-scientist-on-his-hopes-and-fears-for-the-future-of-ai\/\" target=\"_blank\" rel=\"noopener\">OpenAI<\/a>\u00a0ha compartido con MIT Technology Review antes del anuncio de hoy, la empresa\u00a0con sede en San Francisco ha superado los l\u00edmites de lo que es posible con\u00a0<a href=\"https:\/\/www.technologyreview.com\/2022\/09\/29\/1060472\/meta-text-to-video-ai\/\" target=\"_blank\" rel=\"noopener\">la generaci\u00f3n de texto a video<\/a>\u00a0(una nueva y candente l\u00ednea de investigaci\u00f3n que se\u00f1alamos como una de las\u00a0<a href=\"https:\/\/www.technologyreview.es\/listas\/tecnologias-emergentes\/2024\" target=\"_blank\" rel=\"noopener\">10 Tecnolog\u00edas Emergentes para 2024<\/a>.<\/p>\n<p>&#8220;Creemos que crear modelos capaces de entender el v\u00eddeo y todas las complejas interacciones de nuestro mundo es un paso importante para los sistemas de IA del futuro&#8221;, afirma Tim Brooks, cient\u00edfico de OpenAI.<\/p>\n<p>Pero hay un descargo de responsabilidad. OpenAI nos dio un anticipo de Sora (que significa cielo en japon\u00e9s) en condiciones de estricto secreto. En una maniobra poco habitual, la empresa s\u00f3lo compartir\u00eda informaci\u00f3n sobre Sora si acced\u00edamos a esperar a que se hicieran p\u00fablicas las noticias sobre el modelo para recabar la opini\u00f3n de expertos externos. [OpenAI no ha publicado ning\u00fan informe t\u00e9cnico ni ha demostrado que el modelo funcione realmente. Y dice que no lanzar\u00e1 Sora en breve].<\/p>\n<div style=\"width: 790px;\" class=\"wp-video\"><!--[if lt IE 9]><script>document.createElement('video');<\/script><![endif]-->\n<video class=\"wp-video-shortcode\" id=\"video-14228-1\" width=\"790\" height=\"448\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.fie.undef.edu.ar\/ceptm\/wp-content\/uploads\/2024\/02\/monster.mp4?_=1\" \/><a href=\"https:\/\/www.fie.undef.edu.ar\/ceptm\/wp-content\/uploads\/2024\/02\/monster.mp4\">https:\/\/www.fie.undef.edu.ar\/ceptm\/wp-content\/uploads\/2024\/02\/monster.mp4<\/a><\/video><\/div>\n<p>La escena animada presenta un primer plano de un monstruo bajo y esponjoso arrodillado junto a una vela roja que se derrite. El estilo art\u00edstico es 3D y realista, con especial atenci\u00f3n a la iluminaci\u00f3n y la textura. El ambiente de la pintura es de asombro y curiosidad, mientras el monstruo mira la llama con los ojos muy abiertos y la boca abierta. su pose y expresi\u00f3n transmiten una sensaci\u00f3n de inocencia y alegr\u00eda, como si estuviera explorando el mundo que lo rodea por primera vez. el uso de colores c\u00e1lidos y una iluminaci\u00f3n espectacular realza a\u00fan m\u00e1s la atm\u00f3sfera acogedora de la imagen. (Cr\u00e9dito: OpenAI)<\/p>\n<p>Los primeros modelos generativos que pod\u00edan producir videos a partir de fragmentos de texto aparecieron a fines de 2022. Pero\u00a0<a href=\"https:\/\/www.technologyreview.com\/2022\/09\/29\/1060472\/meta-text-to-video-ai\/\" target=\"_blank\" rel=\"noopener\">los primeros ejemplos de Meta<\/a>\u00a0, Google y una startup llamada\u00a0<a href=\"https:\/\/www.technologyreview.com\/2023\/02\/06\/1067897\/runway-stable-diffusion-gen-1-generative-ai-for-video\/\" target=\"_blank\" rel=\"noopener\">Runway<\/a>\u00a0ten\u00edan fallos y baja definici\u00f3n. Desde entonces, la tecnolog\u00eda ha mejorado r\u00e1pidamente. El modelo gen-2 de Runway, lanzado el a\u00f1o pasado, puede producir clips cortos de una calidad similar a la de las animaciones de los grandes estudios. Pero la mayor\u00eda de estos ejemplos siguen durando s\u00f3lo unos segundos.<\/p>\n<p>Los v\u00eddeos de muestra de Sora, de OpenAI,\u00a0<strong>son de alta definici\u00f3n y est\u00e1n llenos de detalles.\u00a0<\/strong>OpenAI tambi\u00e9n dice que puede generar v\u00eddeos de hasta un minuto de duraci\u00f3n. Un v\u00eddeo de una calle de Tokio muestra que Sora ha aprendido c\u00f3mo encajan los objetos en 3D: la c\u00e1mara se adentra en la escena para seguir a una pareja que pasa por delante de una hilera de tiendas.<\/p>\n<p>OpenAI tambi\u00e9n afirma que Sora maneja bien la oclusi\u00f3n. Uno de los problemas de los modelos existentes es que\u00a0<strong>pueden no seguir la pista de los objetos cuando desaparecen de la vista.\u00a0<\/strong>Por ejemplo, si un cami\u00f3n pasa por delante de una se\u00f1al de tr\u00e1fico, puede que la se\u00f1al no vuelva a aparecer despu\u00e9s.<\/p>\n<p>En un v\u00eddeo de una escena submarina de papel\u00a0<em>mach\u00e9<\/em>, Sora ha a\u00f1adido lo que parecen cortes entre distintas piezas de metraje, y el modelo ha mantenido un estilo coherente entre ellas.<\/p>\n<p><strong>No es perfecto.\u00a0<\/strong>En el v\u00eddeo de Tokio, los coches de la izquierda parecen m\u00e1s peque\u00f1os que las personas que caminan a su lado. Tambi\u00e9n aparecen y desaparecen entre las ramas de los \u00e1rboles. &#8220;Queda mucho por hacer en t\u00e9rminos de coherencia en el tiempo. Por ejemplo, si alguien desaparece de la vista durante mucho tiempo, no vuelve. El modelo se olvida de que deber\u00eda estar all\u00ed&#8221;, detalla Brooks.<\/p>\n<p><strong>Provocaci\u00f3n tecnol\u00f3gica<\/strong><\/p>\n<p>Por impresionantes que sean, no cabe duda de que los v\u00eddeos de muestra mostrados aqu\u00ed se han seleccionado para\u00a0<strong>mostrar lo mejor de Sora.<\/strong>\u00a0Sin m\u00e1s informaci\u00f3n, es dif\u00edcil saber hasta qu\u00e9 punto son representativos del rendimiento t\u00edpico del modelo.<\/p>\n<p>Puede que tardemos en saberlo. El anuncio de Sora por parte de OpenAI es una\u00a0<strong>provocaci\u00f3n tecnol\u00f3gica\u00a0<\/strong>y la empresa afirma que no tiene planes de lanzarlo al p\u00fablico. En su lugar, OpenAI empezar\u00e1 hoy a compartir por primera vez el modelo con probadores de seguridad externos.<\/p>\n<p>En concreto, la empresa est\u00e1 preocupada por los posibles usos indebidos de v\u00eddeos falsos pero fotorrealistas. &#8220;Estamos teniendo cuidado con el despliegue y asegur\u00e1ndonos de que tenemos todas las bases cubiertas antes de poner esto en manos del p\u00fablico en general&#8221;, explica Aditya Ramesh, cient\u00edfico de OpenAI, que cre\u00f3 el modelo DALL-E de texto a imagen de la empresa.<\/p>\n<p>Pero OpenAI tiene previsto lanzar el producto en el futuro. Adem\u00e1s de los probadores de seguridad, la empresa tambi\u00e9n est\u00e1\u00a0<strong>compartiendo el modelo con un grupo selecto de creadores de v\u00eddeo y artistas<\/strong>\u00a0para obtener informaci\u00f3n sobre c\u00f3mo hacer que Sora sea lo m\u00e1s \u00fatil posible para los profesionales creativos. &#8220;El otro objetivo es mostrar a todo el mundo lo que hay en el horizonte y\u00a0dar un anticipo de lo que ser\u00e1n capaces de hacer estos modelos&#8221;, afirma Ramesh.<\/p>\n<p>Para crear Sora, el equipo adapt\u00f3 la tecnolog\u00eda de DALL-E 3, la \u00faltima versi\u00f3n del modelo de texto a imagen insignia de OpenAI. Como la mayor\u00eda de los modelos de texto a imagen, DALL-E 3 utiliza lo que se conoce como modelo de difusi\u00f3n. Estos modelos se entrenan para convertir una mara\u00f1a de p\u00edxeles aleatorios en una imagen.<\/p>\n<p>Sora adopta este enfoque y lo aplica a v\u00eddeos en lugar de im\u00e1genes fijas. Pero los investigadores tambi\u00e9n a\u00f1adieron otra t\u00e9cnica a la mezcla. A diferencia de DALL-E o la mayor\u00eda de los otros modelos de v\u00eddeo generativo,<strong>\u00a0Sora combina su modelo de difusi\u00f3n con un tipo de red neuronal llamada transformador.<\/strong><\/p>\n<p>Los transformadores son excelentes para\u00a0<strong>procesar largas secuencias de datos<\/strong>, como palabras. Eso los ha convertido en la salsa especial dentro de grandes modelos de lenguaje como\u00a0<a href=\"https:\/\/www.technologyreview.com\/2023\/03\/14\/1069823\/gpt-4-is-bigger-and-better-chatgpt-openai\/\" target=\"_blank\" rel=\"noopener\">GPT-4<\/a>\u00a0de OpenAI y\u00a0<a href=\"https:\/\/www.technologyreview.com\/2023\/12\/06\/1084471\/google-deepminds-new-gemini-model-looks-amazing-but-could-signal-peak-ai-hype\/\" target=\"_blank\" rel=\"noopener\">Gemini<\/a>\u00a0de Google DeepMind. Pero los v\u00eddeos no est\u00e1n hechos de palabras. En cambio, los investigadores tuvieron que encontrar una manera de cortar los v\u00eddeos en trozos que pudieran tratarse como si lo fueran. El enfoque que se les ocurri\u00f3 fue dividir los v\u00eddeos en el espacio y el tiempo. &#8220;Es como si tuvieras una pila de todos los fotogramas de v\u00eddeo y cortaras peque\u00f1os cubos de ella&#8221;, dice Brooks.<\/p>\n<p>El transformador dentro de Sora puede luego procesar estos fragmentos de datos de video de la misma manera que el transformador dentro de un modelo de lenguaje grande procesa palabras en un bloque de texto. Los investigadores dicen que esto les permiti\u00f3\u00a0<strong>entrenar a Sora en muchas m\u00e1s variedades de contenido<\/strong>\u00a0que otros modelos de texto a video, incluidas diferentes resoluciones, duraciones, relaciones de aspecto y orientaci\u00f3n. &#8220;Esto realmente ayud\u00f3\u00a0al modelo y no sabemos de ning\u00fan otro trabajo que haya hecho esto&#8221;, se\u00f1ala Brooks.<\/p>\n<div style=\"width: 790px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-14228-2\" width=\"790\" height=\"444\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.fie.undef.edu.ar\/ceptm\/wp-content\/uploads\/2024\/02\/mammoth.mp4?_=2\" \/><a href=\"https:\/\/www.fie.undef.edu.ar\/ceptm\/wp-content\/uploads\/2024\/02\/mammoth.mp4\">https:\/\/www.fie.undef.edu.ar\/ceptm\/wp-content\/uploads\/2024\/02\/mammoth.mp4<\/a><\/video><\/div>\n<p>Varios mamuts lanudos gigantes se acercan caminando por una pradera nevada, su largo pelaje lanudo se mueve ligeramente con el viento mientras caminan, \u00e1rboles cubiertos de nieve y espectaculares monta\u00f1as cubiertas de nieve en la distancia, luz de media tarde con nubes tenues y un sol alto en el la distancia crea un brillo c\u00e1lido, la vista baja de la c\u00e1mara es impresionante y captura al gran mam\u00edfero peludo con hermosas fotograf\u00edas y profundidad de campo (Cr\u00e9dito: OpenAI)<\/p>\n<p>\u201cDesde una perspectiva t\u00e9cnica, parece u<strong>n avance muy significativo<\/strong>\u201d, afirma Sam Gregory, director ejecutivo de Witness, una organizaci\u00f3n de derechos humanos que se especializa en el uso y mal uso de la tecnolog\u00eda de v\u00eddeo. \u201cPero la moneda tiene dos caras. Las capacidades expresivas ofrecen el potencial para que muchas m\u00e1s personas se conviertan en narradores utilizando v\u00eddeo. Y tambi\u00e9n existen posibilidades reales de uso indebido\u201d, considera.<\/p>\n<p>OpenAI es muy consciente de los riesgos que conlleva un modelo de v\u00eddeo generativo. Ya estamos viendo el\u00a0<a href=\"https:\/\/www.technologyreview.com\/2024\/01\/29\/1087376\/dear-taylor-swift-were-sorry-about-those-explicit-deepfakes\/\" target=\"_blank\" rel=\"noopener\">uso indebido a gran escala de im\u00e1genes\u00a0<em>deepfake<\/em><\/a><em>\u00a0<\/em>. El v\u00eddeo fotorrealista lleva esto a otro nivel.<\/p>\n<p>Gregory se\u00f1ala que se podr\u00eda utilizar esta tecnolog\u00eda como para desinformar sobre zonas de conflicto o protestas. La variedad de estilos tambi\u00e9n es interesante, afirma. Si se pudieran\u00a0generar im\u00e1genes temblorosas que parecieran tomadas con un tel\u00e9fono, parecer\u00edan a\u00fan\u00a0m\u00e1s aut\u00e9nticas.<\/p>\n<p>La tecnolog\u00eda a\u00fan no est\u00e1 ah\u00ed, pero el video generativo pas\u00f3 de cero a Sora en solo 18 meses. &#8220;Vamos a entrar en un universo en el que habr\u00e1 contenido totalmente sint\u00e9tico, contenido generado por humanos y una mezcla de ambos&#8221;, afirma Gregory.<\/p>\n<p>El equipo de OpenAI planea aprovechar las pruebas de seguridad que realiz\u00f3 el a\u00f1o pasado para DALL-E 3. Sora ya incluye un filtro que se ejecuta en todas las indicaciones enviadas al modelo y que\u00a0<strong>bloquear\u00e1 las solicitudes de im\u00e1genes violentas, sexuales o que fomenten el odio<\/strong>, as\u00ed como Im\u00e1genes de personas conocidas. Otro filtro observar\u00e1 fotogramas de videos generados y bloquear\u00e1 material que viole las pol\u00edticas de seguridad de OpenAI.<\/p>\n<p>OpenAI\u00a0asegura que tambi\u00e9n est\u00e1 adaptando un detector de im\u00e1genes falsas desarrollado para DALL-E 3 para usarlo con Sora. Y la compa\u00f1\u00eda incorporar\u00e1\u00a0<a href=\"https:\/\/www.technologyreview.com\/2024\/02\/13\/1088103\/why-big-techs-watermarking-plans-are-some-welcome-good-news\/\" target=\"_blank\" rel=\"noopener\">etiquetas C2PA est\u00e1ndar de la industria<\/a>\u00a0, metadatos que indican c\u00f3mo se gener\u00f3 una imagen, en toda la producci\u00f3n de Sora. Pero estas medidas est\u00e1n lejos de ser infalibles. Los detectores de im\u00e1genes falsas son impredecibles. Los metadatos son f\u00e1ciles de eliminar y la mayor\u00eda de redes sociales los quitan de las im\u00e1genes que suben sus usuarios de forma predeterminada.<\/p>\n<p>&#8220;Definitivamente, necesitaremos recibir m\u00e1s comentarios y aprender m\u00e1s sobre los riesgos que hay que abordar en relaci\u00f3n a los v\u00eddeos\u00a0antes de que tenga sentido lanzar esto&#8221;, explica Ramesh.<\/p>\n<p>Brooks est\u00e1 de acuerdo:\u00a0&#8220;Una de las razones por las que\u00a0publicamos esta investigaci\u00f3n ahora es para empezar a\u00a0tener informaci\u00f3n y\u00a0poder trabajar en saber c\u00f3mo implementarlo\u00a0de manera segura&#8221;, se\u00f1ala.<\/p>\n<p><strong>Fuente: <\/strong><a href=\"https:\/\/www.technologyreview.es\/s\/16170\/openai-muestra-sora-una-ia-que-crea-videos-realistas-de-cualquier-cosa\" target=\"_blank\" rel=\"noopener\"><em>https:\/\/www.technologyreview.es<\/em><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>OpenAI ha creado un nuevo y sorprendente modelo de video generativo llamado Sora que puede tomar una breve descripci\u00f3n de texto y convertirla en un&hellip; <\/p>\n","protected":false},"author":1,"featured_media":14229,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[2,23],"tags":[],"_links":{"self":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/14228"}],"collection":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=14228"}],"version-history":[{"count":1,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/14228\/revisions"}],"predecessor-version":[{"id":14232,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/14228\/revisions\/14232"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/media\/14229"}],"wp:attachment":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=14228"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=14228"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=14228"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}