{"id":2576,"date":"2017-12-20T13:43:39","date_gmt":"2017-12-20T16:43:39","guid":{"rendered":"https:\/\/www.nachodelatorre.com.ar\/mosconi\/?p=2576"},"modified":"2017-12-20T13:43:39","modified_gmt":"2017-12-20T16:43:39","slug":"la-inteligencia-artificial-empieza-a-entender-que-pasa-en-los-videos","status":"publish","type":"post","link":"https:\/\/www.fie.undef.edu.ar\/ceptm\/?p=2576","title":{"rendered":"La inteligencia artificial empieza a entender qu\u00e9 pasa en los v\u00eddeos"},"content":{"rendered":"<p>Comprender no s\u00f3lo qu\u00e9 objetos hay en una imagen en movimiento sino qu\u00e9 est\u00e1 sucediendo y aplicar ese conocimiento a otros contenidos similares ser\u00eda un gran avance para la tecnolog\u00eda, con m\u00faltiples aplicaciones pr\u00e1cticas como la conducci\u00f3n aut\u00f3noma y el cuidado de las personas mayores.<!--more--><\/p>\n<p><img loading=\"lazy\" class=\" alignright\" src=\"https:\/\/www.technologyreview.es\/sites\/default\/files\/mit-images\/feed_mit_image_videosteachingmachines.png\" alt=\"\" width=\"379\" height=\"217\" \/>La capacidad de un ordenador de\u00a0<strong>reconocer un gato o un pato dentro de una imagen fija es bastante impresionante<\/strong>. Pero la inteligencia artificial (IA) debe abordar un reto a\u00fan m\u00e1s complicado: entender cu\u00e1ndo el gato est\u00e1 montado sobre una\u00a0Roomba y\u00a0<a href=\"https:\/\/www.youtube.com\/watch?v=KIblMtZ0EYk\" target=\"_blank\" rel=\"noopener noreferrer\">persiguiendo al pato alrededor de una cocina<\/a>, como se ve en este v\u00eddeo.<\/p>\n<p>Esta semana, el\u00a0Instituto Tecnol\u00f3gico de Massachusetts (MIT, EEUU) e IBM han publicado\u00a0un gran conjunto de datos de videoclips minuciosamente etiquetados con detalles de la acci\u00f3n que se est\u00e1 llevando a cabo. El\u00a0<a href=\"http:\/\/moments.csail.mit.edu\/\" target=\"_blank\" rel=\"noopener noreferrer\">conjunto de datos, llamado\u00a0Moments in Time<\/a>, incluye<strong>fragmentos de tres segundos de todo tipo de cosas, desde la pesca hasta el\u00a0<em>break<\/em><em>\u00a0dance<\/em>.<\/strong><\/p>\n<p>&#8220;En\u00a0el mundo muchas cosas cambian de un segundo a otro&#8221;, se\u00f1ala la investigadora principal del MIT involucrada en el proyecto\u00a0<a href=\"http:\/\/cvcl.mit.edu\/audeoliva.html\" target=\"_blank\" rel=\"noopener noreferrer\">Aude Oliva<\/a>. La responsable a\u00f1ade: &#8220;Si quieres entender por qu\u00e9 algo est\u00e1 sucediendo,<strong>\u00a0el movimiento te proporciona mucha informaci\u00f3n que no puedes captar en un solo fotograma<\/strong>&#8220;.<\/p>\n<p>El auge actual de la inteligencia artificial (IA) se debe, en parte, al logro de haber podido\u00a0ense\u00f1ar a los ordenadores a reconocer los contenidos de im\u00e1genes est\u00e1ticas\u00a0a trav\u00e9s de redes neuronales profundas entrenadas con grandes conjuntos de datos (ver<a href=\"https:\/\/www.technologyreview.es\/s\/7285\/que-los-ordenadores-reconozcan-los-objetos-mejor-que-tu-es-cuestion-de-tiempo\" target=\"_blank\" rel=\"noopener noreferrer\"><em>\u00a0Que los ordenadores reconozcan los objetos mejor que t\u00fa es cuesti\u00f3n de tiempo<\/em><\/a>). Los sistemas de IA que\u00a0actualmente interpretan contenido en\u00a0v\u00eddeo, incluidos los sistemas de\u00a0algunos coches aut\u00f3nomos,\u00a0<strong>a menudo se basan en identificar objetos en im\u00e1genes est\u00e1ticas en lugar de interpretar acciones<\/strong>(ver\u00a0<a href=\"https:\/\/www.technologyreview.es\/s\/8476\/esta-imagen-vale-mas-que-mil-palabras-para-analizar-los-riesgos-de-la-conduccion-autonoma\" target=\"_blank\" rel=\"noopener noreferrer\"><em>Esta imagen vale m\u00e1s que mil palabras para analizar los riesgos de la conducci\u00f3n aut\u00f3noma<\/em><\/a>). El lunes, Google lanz\u00f3 una herramienta capaz de reconocer los objetos en im\u00e1genes de v\u00eddeo como parte de su servicio Cloud Platform, que ya incluye herramientas de inteligencia artificial para procesar im\u00e1genes, audio y texto.<\/p>\n<div class=\"media_embed\"><iframe loading=\"lazy\" src=\"https:\/\/player.ooyala.com\/static\/v4\/candidate\/latest\/skin-plugin\/iframe.html?ec=B5cTlrZDE6HL-BNOhUZHFGXLleVDjvIw&amp;pbid=5ad1946db28d45cdb4325c91c7751266&amp;pcode=FvbGkyOtJVFD33j_Rd0xPLSo0Jiv\" width=\"640px\" height=\"480px\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/div>\n<p><strong><em>V\u00eddeo:<\/em>\u00a0<\/strong><em>Esto muestra las \u00e1reas de los fotogramas de v\u00eddeo en las que se est\u00e1 centrando una red neuronal para reconocer el evento en el v\u00eddeo.<\/em><\/p>\n<p>El siguiente reto podr\u00eda consistir en que las m\u00e1quinas no s\u00f3lo entiendan los elementos que aparecen en un v\u00eddeo sino tambi\u00e9n qu\u00e9 est\u00e1 sucediendo. Eso podr\u00eda tener algunos beneficios pr\u00e1cticos, que tal vez conduzcan a nuevas y potentes formas de buscar, anotar y minar secuencias de v\u00eddeo. Tambi\u00e9n promete\u00a0<strong>dotar a los robots y\u00a0coches aut\u00f3nomos una mejor comprensi\u00f3n de c\u00f3mo se desarrolla el mundo a su alrededor.<\/strong><\/p>\n<p>El proyecto MIT-IBM\u00a0no es el \u00fanico.<strong>\u00a0Ya hay\u00a0varios conjuntos de datos de video dise\u00f1ados para estimular los progresos del entrenamiento de las m\u00e1quinas<\/strong>\u00a0para comprender las acciones en el mundo f\u00edsico. El a\u00f1o pasado, por ejemplo, Google lanz\u00f3 un conjunto de\u00a0<a href=\"https:\/\/research.google.com\/youtube8m\/\" target=\"_blank\" rel=\"noopener noreferrer\">ocho millones de v\u00eddeos de YouTube<\/a>\u00a0etiquetados llamados YouTube-8M. Y Facebook est\u00e1 desarrollando un conjunto de datos etiquedados de acciones de v\u00eddeo llamado Scenes, Actions and Objects (escenas, acciones y objetos).<\/p>\n<p>La profesora adjunta de la Universidad de Princeton (EEUU) Olga Russakovsky, especializada en visi\u00f3n artificial, explica que\u00a0<strong>generar datos de v\u00eddeo \u00fatiles es m\u00e1s complicado que con im\u00e1genes f\u00edsicas\u00a0debido a las mayores necesidades de almacenamiento y procesamiento\u00a0<\/strong>computacional. La experta a\u00f1ade: &#8220;Me emociona poder jugar con esta nueva informaci\u00f3n. Creo que la duraci\u00f3n de tres segundos es excelente: proporciona un contexto temporal a la vez que mantiene bajos los requisitos de almacenamiento y computaci\u00f3n&#8221;.<\/p>\n<p>Otros est\u00e1n adoptando un enfoque m\u00e1s creativo.\u00a0<a href=\"https:\/\/www.twentybn.com\/\" target=\"_blank\" rel=\"noopener noreferrer\">Twenty Billion Neurons<\/a>, una\u00a0<em>start-up<\/em>\u00a0con sedes en Toronto (Canad\u00e1) y Berl\u00edn (Alemania), ha creado un conjunto de datos personalizado mediante\u00a0<em>crowdsourcing<\/em>\u00a0con voluntarios que han recibido ingresos para ejecutar tareas sencillas. El cofundador\u00a0de la compa\u00f1\u00eda\u00a0<a href=\"http:\/\/www.iro.umontreal.ca\/~memisevr\/\" target=\"_blank\" rel=\"noopener noreferrer\">Roland Memisevic<\/a>\u00a0a\u00f1ade que\u00a0tambi\u00e9n usa una red neuronal dise\u00f1ada espec\u00edficamente para procesar datos de visi\u00f3n.<\/p>\n<p>El responsable detalla: &#8220;Las redes entrenadas con otros conjuntos de datos pueden indicar si el v\u00eddeo muestra un partido de f\u00fatbol o una fiesta.<strong>\u00a0Las nuestras son capaces de identificar\u00a0si alguien acaba de entrar en la habitaci\u00f3n&#8221;.<\/strong><\/p>\n<p>El investigador de IBM Danny Gutfreund, que colabor\u00f3 \u200b\u200ben el proyecto, dice que reconocer\u00a0acciones con eficacia requerir\u00e1 que las m\u00e1quinas aprendan a distinguir\u00a0cosas como\u00a0una persona que realiza una acci\u00f3n, y<strong>\u00a0sean capaces de aplicar\u00a0ese conocimiento para identificar, por ejemplo, a un animal que realiza la misma acci\u00f3n.\u00a0<\/strong>El progreso en esta \u00e1rea, conocido como aprendizaje de transferencia, ser\u00e1 importante para el futuro de la inteligencia artificial. El responsable detalla: &#8220;Veamos c\u00f3mo las m\u00e1quinas pueden hacer este aprendizaje de transferencia, esta analog\u00eda, que nosotros hacemos muy bien&#8221;.<\/p>\n<p>Y a\u00f1ade que la tecnolog\u00eda podr\u00eda tener varias aplicaciones pr\u00e1cticas.\u00a0 Seg\u00fan Gutfreund, &#8220;<strong>podr\u00eda utilizarse para el cuidado de personas mayores<\/strong>, y para indicar si alguien se ha ca\u00eddo o si ha tomado su medicamento. Tambi\u00e9n podr\u00edan integrarse en dispositivos de<strong>\u00a0ayuda para las personas ciegas<\/strong>&#8220;.<\/p>\n<p><strong>Fuente:<\/strong>\u00a0<em><a href=\"https:\/\/www.technologyreview.es\/s\/9837\/la-inteligencia-artificial-empieza-entender-que-pasa-en-los-videos\" target=\"_blank\" rel=\"noopener noreferrer\">https:\/\/www.technologyreview.es<\/a><\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Comprender no s\u00f3lo qu\u00e9 objetos hay en una imagen en movimiento sino qu\u00e9 est\u00e1 sucediendo y aplicar ese conocimiento a otros contenidos similares ser\u00eda un&hellip; <\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[23,29],"tags":[],"_links":{"self":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/2576"}],"collection":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2576"}],"version-history":[{"count":0,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/2576\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2576"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2576"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2576"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}