{"id":16027,"date":"2024-11-29T07:42:16","date_gmt":"2024-11-29T10:42:16","guid":{"rendered":"https:\/\/www.fie.undef.edu.ar\/ceptm\/?p=16027"},"modified":"2024-11-29T07:42:16","modified_gmt":"2024-11-29T10:42:16","slug":"medir-la-ia-sigue-siendo-un-desafio-pendiente","status":"publish","type":"post","link":"https:\/\/www.fie.undef.edu.ar\/ceptm\/?p=16027","title":{"rendered":"Medir la IA sigue siendo un desaf\u00edo pendiente"},"content":{"rendered":"<p>Las empresas de inteligencia artificial\u00a0suelen presentar\u00a0los\u00a0<i>benchmarks<\/i>\u00a0como evidencia del \u00e9xito de sus nuevos modelos. &#8220;Los desarrolladores tienden a\u00a0optimizar sus sistemas para destacar en pruebas\u00a0espec\u00edficas&#8221;, explica Anna Ivanova, catedr\u00e1tica de Psicolog\u00eda en el Instituto de Tecnolog\u00eda de Georgia y directora del Laboratorio de Lenguaje, Inteligencia y Pensamiento (LIT).<\/p>\n<hr \/>\n<p>Cada vez que se lanza un\u00a0<strong>nuevo modelo de inteligencia artificial<\/strong>, se promociona como el mejor seg\u00fan una serie de pruebas comparativas.\u00a0<a href=\"https:\/\/openai.com\/index\/hello-gpt-4o\/\" target=\"_blank\" rel=\"noopener\">GPT-4o<\/a>, de OpenAI, no fue la excepci\u00f3n: en su lanzamiento, presentaron resultados que demostraban su superioridad frente a modelos m\u00e1s recientes de otras compa\u00f1\u00edas.<\/p>\n<p>El problema es que, seg\u00fan\u00a0<a href=\"https:\/\/arxiv.org\/abs\/2411.12990\" target=\"_blank\" rel=\"noopener\">un estudio<\/a>,\u00a0<strong>esas pruebas est\u00e1n mal planteadas<\/strong>, con resultados dif\u00edciles de replicar y par\u00e1metros arbitrarios. Esto es crucial, ya que las puntuaciones que alcanzan los modelos de IA definen el grado de escrutinio y regulaci\u00f3n al que ser\u00e1n sometidos.<\/p>\n<p>&#8220;No tenemos unos est\u00e1ndares claros para la evaluaci\u00f3n, es como si fuera el lejano Oeste&#8221;, afirma\u00a0<strong>Anka Reuel<\/strong>, autora del estudio, estudiante de doctorado en inform\u00e1tica en la Universidad de Stanford (EE UU) y miembro del\u00a0Centro para la Seguridad de la IA (CAIS, por sus siglas en ingl\u00e9s).<\/p>\n<p>Un\u00a0<em>benchmark<\/em>\u00a0es, en esencia, una prueba dise\u00f1ada para\u00a0<strong>evaluar el desempe\u00f1o de una IA<\/strong>. Puede adoptar formatos, como un cuestionario de opci\u00f3n m\u00faltiple, siendo el\u00a0<em><a href=\"https:\/\/arxiv.org\/abs\/2009.03300\" target=\"_blank\" rel=\"noopener\">Massive Multitask Language Understanding<\/a><\/em>\u00a0(MMLU) uno de los m\u00e1s conocidos, medir la capacidad del modelo para realizar tareas concretas o analizar la calidad de sus respuestas ante diferentes preguntas.<\/p>\n<p>Las empresas de inteligencia artificial\u00a0<a href=\"https:\/\/www.anthropic.com\/news\/claude-3-5-sonnet\" target=\"_blank\" rel=\"noopener\">suelen presentar<\/a>\u00a0los\u00a0<em>benchmarks<\/em>\u00a0como evidencia del \u00e9xito de sus nuevos modelos. &#8220;Los desarrolladores tienden a\u00a0<strong>optimizar sus sistemas para destacar en pruebas<\/strong>\u00a0espec\u00edficas&#8221;, explica Anna Ivanova, catedr\u00e1tica de Psicolog\u00eda en el Instituto de Tecnolog\u00eda de Georgia y directora del Laboratorio de Lenguaje, Inteligencia y Pensamiento (LIT).<\/p>\n<p>Los\u00a0<em>benchmarks<\/em>\u00a0ya se han incorporado a los planes de regulaci\u00f3n de la inteligencia artificial de algunos gobiernos. La\u00a0<strong>ley de IA de la Uni\u00f3n Europea<\/strong>, que entrar\u00e1 en vigor en agosto de 2025,\u00a0<a href=\"https:\/\/artificialintelligenceact.eu\/article\/51\/\" target=\"_blank\" rel=\"noopener\">los menciona<\/a>\u00a0como herramienta clave para evaluar si un modelo representa un<strong>\u00a0&#8220;riesgo sist\u00e9mico&#8221;<\/strong>. Si se determina que lo hace, estar\u00e1 sujeto a un mayor nivel de escrutinio y regulaci\u00f3n. Por su parte, el Instituto de Seguridad de la IA del Reino Unido cuenta con\u00a0<a href=\"https:\/\/inspect.ai-safety-institute.org.uk\/\" target=\"_blank\" rel=\"noopener\">Inspect<\/a>, una herramienta de evaluaci\u00f3n dise\u00f1ada por el gobierno brit\u00e1nico para evaluar la seguridad de los modelos ling\u00fc\u00edsticos de gran tama\u00f1o (LLM, por sus siglas en ingl\u00e9s).<\/p>\n<p>Sin embargo, es posible que los\u00a0<em>benchmarks<\/em>\u00a0actuales no sirvan para ese prop\u00f3sito. &#8220;Hay una falsa sensaci\u00f3n de seguridad que podr\u00edamos estar fomentando si los\u00a0<em>benchmarks<\/em>\u00a0no est\u00e1n bien dise\u00f1ados, especialmente en escenarios de alto riesgo.\u00a0<strong>Puede dar la impresi\u00f3n de que el modelo es seguro, cuando en realidad no lo es<\/strong>&#8220;, advierte Reuel.<\/p>\n<p>Ante la creciente relevancia de los\u00a0<em>benchmarks<\/em>, Reuel y su equipo decidieron\u00a0<strong>analizar los m\u00e1s utilizados<\/strong>\u00a0para determinar cu\u00e1les son sus caracter\u00edsticas y si tienen suficiente calidad. El primer paso, fue reproducir los resultados de las pruebas de rendimiento publicadas por los desarrolladores, pero en muchos casos no fue posible. Por lo general, para evaluar un\u00a0<em>benchmark<\/em>\u00a0se necesitan instrucciones o un c\u00f3digo que permita ejecutarlo en un modelo, pero muchos no hacen p\u00fablico ese c\u00f3digo y, en otras ocasiones, el disponible estaba desactualizado.<\/p>\n<p>Los desarrolladores de estas pruebas no suelen compartir de manera p\u00fablica las preguntas y respuestas de sus conjuntos de datos. Si lo hicieran, las empresas podr\u00edan entrenar sus modelos directamente con esa informaci\u00f3n, lo que ser\u00eda equivalente a permitir que un estudiante pudiera\u00a0<strong>ver las preguntas del examen antes de realizarlo<\/strong>. Sin embargo, esta\u00a0<strong>falta de transparencia\u00a0<\/strong>complica la tarea de evaluarlas de manera efectiva.<\/p>\n<p>Otro factor a tener en cuenta es que muchos de\u00a0<strong>estos\u00a0<em>benchmarks<\/em><\/strong>\u00a0<strong>ya est\u00e1n &#8220;superados&#8221;.<\/strong>\u00a0Es decir, que los problemas planteados ya est\u00e1n resueltos. Por ejemplo, imaginemos una prueba con problemas matem\u00e1ticos sencillos. La primera versi\u00f3n de un modelo de IA obtiene un 20% de aciertos, la segunda un 90% y la tercera un 93%. A simple vista,\u00a0<strong>alguien podr\u00eda pensar que el progreso de la IA se ha estancado.<\/strong>\u00a0Sin embargo, una interpretaci\u00f3n m\u00e1s acertada podr\u00eda ser que el punto de referencia ya ha sido resuelto, lo que hace que no refleje adecuadamente las mejoras logradas entre la segunda y la tercera generaci\u00f3n del modelo.<\/p>\n<p>Uno de los objetivos de la investigaci\u00f3n fue establecer una lista de criterios para definir qu\u00e9 constituye un buen\u00a0<em>benchmark<\/em>. &#8220;<strong>Es fundamental debatir sobre la calidad de los\u00a0<em>benchmarks<\/em><\/strong>, lo que esperamos de ellos y lo que realmente necesitamos&#8221;, observa Ivanova. &#8220;El problema es que no existe una norma clara para definirlos. Este documento intenta ofrecer una serie de criterios de evaluaci\u00f3n, y eso es muy \u00fatil&#8221;, a\u00f1ade la catedr\u00e1tica.<\/p>\n<p>La investigaci\u00f3n se lanz\u00f3 junto con\u00a0<a href=\"https:\/\/betterbench.stanford.edu\/\" target=\"_blank\" rel=\"noopener\">Better Bench<\/a>, una p\u00e1gina web que\u00a0<strong>clasifica los\u00a0<em>benchmarks<\/em>\u00a0de IA m\u00e1s conocidos.<\/strong>\u00a0La clasificaci\u00f3n se basa en varios factores, como si consultaron a expertos para su desarrollo, si la capacidad que mide est\u00e1 definida y otros aspectos importantes, como la existencia de un canal de retroalimentaci\u00f3n para que los usuarios puedan enviar comentarios.<\/p>\n<p>En cuanto a las calificaciones, el\u00a0<em>benchmark<\/em>\u00a0MMLU recibi\u00f3 las m\u00e1s bajas. &#8220;No estoy de acuerdo. De hecho, soy autor de algunos de los mejor valorados, y dir\u00eda que algunos de los\u00a0<em>benchmarks<\/em>\u00a0peor clasificados son m\u00e1s efectivos que los m\u00edos&#8221;, afirma Dan Hendrycks, director del Centro para la Seguridad de la IA (CAIS) y uno de los creadores de MMLU. A pesar de todo, Hendrycks sigue creyendo que la clave para avanzar en este campo est\u00e1\u00a0<strong>en desarrollar mejores\u00a0<em>benchmarks<\/em>.<\/strong><\/p>\n<p>Algunos opinan que los criterios utilizados para el an\u00e1lisis podr\u00edan estar\u00a0<strong>obviando el contexto de manera m\u00e1s general.<\/strong>\u00a0&#8220;La investigaci\u00f3n es valiosa. Los criterios para su aplicaci\u00f3n y documentaci\u00f3n son importantes y mejoran los\u00a0<em>benchmarks<\/em>. Sin embargo, para m\u00ed, la pregunta clave es:\u00a0<strong>\u00bfestamos midiendo lo correcto?\u00a0<\/strong>Puedes cumplir con todos estos requisitos, pero aun as\u00ed tener un\u00a0<em>benchmark<\/em>\u00a0deficiente&#8221;, se\u00f1ala\u00a0<strong>Marius Hobbhahn<\/strong>, director general de Apollo Research, organizaci\u00f3n especializada en evaluaciones de IA.<\/p>\n<p>Un\u00a0<em>benchmark<\/em>\u00a0podr\u00eda estar perfectamente dise\u00f1ado para\u00a0<strong>evaluar la capacidad de un modelo de analizar los sonetos de Shakespeare<\/strong>. Sin embargo, si lo que se necesita es medir la habilidad de una IA para detectar t\u00e9cnicas de pirater\u00eda, entonces no ser\u00eda \u00fatil.<\/p>\n<p>&#8220;Puede existir un\u00a0<em>bechmark<\/em>\u00a0para medir\u00a0<strong>el razonamiento moral<\/strong>. No obstante, lo que eso significa no est\u00e1 bien definido.\u00a0Adem\u00e1s, \u00bfincorpora la opini\u00f3n de expertos en el proceso? A menudo, eso no sucede&#8221;, afirma Amelia Hardy, otra de las autoras del art\u00edculo e investigadora de IA en la Universidad de Stanford (EE UU).<\/p>\n<p>Existen organizaciones que est\u00e1n trabajando de manera para mejorar esta situaci\u00f3n. Un ejemplo es\u00a0<a href=\"\/\/166989BA-FA54-41C4-BD2F-3533797FDC58\/xisten%20organizaciones%20que%20est%C3%A1n%20trabajando%20activamente%20para%20mejorar%20esta%20situaci%C3%B3n.%20Un%20ejemplo%20es%20un%20nuevo%20benchmark%20desarrollado%20por%20Epoch%20AI,%20una%20organizaci%C3%B3n%20de%20investigaci%C3%B3n,%20que%20cont%C3%B3%20con%20la%20colaboraci%C3%B3n%20de%2060%20matem%C3%A1ticos%20y%20fue%20validado%20como%20desafiante%20por%20dos%20ganadores%20de%20la%20Medalla%20Fields,%20el%20m%C3%A1ximo%20galard%C3%B3n%20en%20matem%C3%A1ticas.%20La%20participaci%C3%B3n%20de%20estos%20expertos%20cumple%20con%20uno%20de%20los%20criterios%20de%20evaluaci%C3%B3n%20de%20Better%20Bench.%20Los%20modelos%20de%20IA%20m%C3%A1s%20avanzados%20actualmente%20solo%20logran%20responder%20correctamente%20a%20menos%20del%202%25%20de%20las%20preguntas%20del%20banco%20de%20pruebas,%20lo%20que%20indica%20que%20a%C3%BAn%20queda%20un%20largo%20camino%20por%20recorrer%20antes%20de%20que%20este%20benchmark%20se%20considere%20resuelto.\" target=\"_blank\" rel=\"noopener\">un nuevo\u00a0<em>benchmark<\/em><\/a>\u00a0desarrollado por Epoch AI, una organizaci\u00f3n de investigaci\u00f3n, que cont\u00f3 con\u00a0<strong>la colaboraci\u00f3n de 60 matem\u00e1ticos\u00a0<\/strong>y fue validado por dos ganadores de la Medalla Fields, el m\u00e1ximo galard\u00f3n en matem\u00e1ticas. Al contar con la participaci\u00f3n de expertos, se\u00a0<strong>cumple uno de los criterios de evaluaci\u00f3n<\/strong>\u00a0de Better Bench. En la actualidad, los modelos de IA m\u00e1s avanzados solo logran responder correctamente a menos del 2% de las preguntas del banco de pruebas, lo que muestra que a\u00fan queda mucho por avanzar antes de superar este\u00a0<em>benchmark<\/em>.<\/p>\n<p>&#8220;Hemos intentado reflejar toda la amplitud y profundidad de la investigaci\u00f3n matem\u00e1tica actual&#8221;, afirma Tamay Besiroglu, director asociado de Epoch AI. A pesar de la complejidad de la evaluaci\u00f3n de Better Bench, el experto considera que los modelos de IA\u00a0<strong>lograr\u00e1n buenos resultados en unos cuatro o cinco a\u00f1os.<\/strong><\/p>\n<p>Por su parte, el Centro para la Seguridad de la IA est\u00e1 colaborando con Scale AI en el desarrollo de un nuevo\u00a0<em>benchmark<\/em>\u00a0denominado\u00a0<strong><em>Humanity\u2019s Last Exam<\/em><\/strong>\u00a0(El \u00faltimo examen de la humanidad, en espa\u00f1ol), cuyo objetivo es evaluar c\u00f3mo los modelos de IA se acercan al conocimiento humano. &#8220;Ha sido creado por un equipo internacional de acad\u00e9micos y expertos en la materia, e incorporar por preguntas imposibles de buscar y cuya resoluci\u00f3n requiere\u00a0<strong>un conocimiento a nivel doctoral<\/strong>&#8220;, asegura Dan Hendrycks. Si quieres aportar alguna pregunta, puedes hacerlo en\u00a0<a href=\"https:\/\/agi.safe.ai\/submit\" target=\"_blank\" rel=\"noopener\">su p\u00e1gina web<\/a>.<\/p>\n<p>Aunque hay un amplio desacuerdo sobre qu\u00e9 debe medirse exactamente, muchos investigadores coinciden en la\u00a0<strong>necesidad de contar con\u00a0<em>benchmarks<\/em>\u00a0m\u00e1s s\u00f3lidos<\/strong>, especialmente porque estos orientan a las empresas y son herramientas clave para los gobiernos.<\/p>\n<p>&#8220;Los\u00a0<em>benchmarks<\/em>\u00a0deben ser muy buenos&#8221;, afirma Hardy. &#8220;Tambi\u00e9n importante\u00a0<strong>entender qu\u00e9 significa exactamente\u00a0<\/strong><strong>\u00ab<\/strong><strong>alta calidad<\/strong><strong>\u00bb<\/strong>. Algo que, por ahora, desconocemos&#8221;.<\/p>\n<p><strong>Fuente:<\/strong> <a href=\"https:\/\/www.technologyreview.es\/s\/16914\/por-que-medir-la-ia-sigue-siendo-un-desafio-pendiente\" target=\"_blank\" rel=\"noopener\"><em>https:\/\/www.technologyreview.es<\/em><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Las empresas de inteligencia artificial\u00a0suelen presentar\u00a0los\u00a0benchmarks\u00a0como evidencia del \u00e9xito de sus nuevos modelos. &#8220;Los desarrolladores tienden a\u00a0optimizar sus sistemas para destacar en pruebas\u00a0espec\u00edficas&#8221;, explica Anna&hellip; <\/p>\n","protected":false},"author":1,"featured_media":16028,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[37,23],"tags":[],"_links":{"self":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/16027"}],"collection":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=16027"}],"version-history":[{"count":1,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/16027\/revisions"}],"predecessor-version":[{"id":16029,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/posts\/16027\/revisions\/16029"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=\/wp\/v2\/media\/16028"}],"wp:attachment":[{"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=16027"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=16027"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.fie.undef.edu.ar\/ceptm\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=16027"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}