01 Agosto, 2020
Escribiendo en la frontera – GPT3
–
GTP3: el modelo de AI demasiado peligroso como para no hacerlo público. O bien: “In Argentina, unless you look like you have money, you don´t deserve it”.
Hace algo más de un año se hablaba de un modelo de inteligencia artificial demasiado peligroso como para abrirse al público. Era el GTP2, un modelo que permitía generar textos casi iguales a los que escribe cualquier humano. Entrenado con cientos de millones de parámetros, la prensa especializada titulaba “La AI demasiado peligrosa como para ser lanzada al mercado” (Deep Learning, 29 de Abril de 2019), “La AI que escribe prosa convincente nos pone en riesgo de la producción en masa de fake-news” (Technology Review, 14 de Febrero de 2019). Se trata de un modelo que viene a coronar una tendencia llamada “Transformers” – no como los Decepticons de las películas, sino una serie de modelos de generación de texto en forma “inteligente” que comenzó allá por el 2017 y dio luz a modelos con nombres como Elmo y Bert. Una versión de GTP2, entrenado con más de mil millones de parámetros, vió la luz en noviembre de 2019. En una presentación sobre Ética y AI yo comenté sobre la huella de carbono que genera entrenar uno de estos modelos monstruosos: el equivalente a años de un auto, en algunos casos más que lo que genera un auto (a nafta) en su vida útil completa.
Poco antes de eso, en el laboratorio de Practia habíamos entrenado un modelo generativo mucho más modesto con las obras completas de Borges. Nos maravillaba el uso de palabras “borgeanas”, cómo el modelo iba descubriendo los signos de puntuación y las reglas para acentuar correctamente. Pero las frases no tenían sentido. Poco más de 3 años después, OpenAI está liberando el GPT3, el modelo más sofisticado de generación de lenguaje hasta ahora y un salto significativo incluso con respecto al GPT2. No se trata de que se descubrió una forma distinta de modelar el lenguaje: se trata de cantidad. Y en AI, la cantidad de datos con la que se entrena un modelo hace toda la diferencia. No hay información aún sobre la huella de carbono de entrenar este modelo, pero debemos estar hablando de una pequeña fábrica: este modelo puede definirse como masivo.
El modelo ya está disponible via una API de OpenAI para pruebas y trabajos académicos. Sushant Kumar armó un pequeño programa que, dada una palabra, la “inyecta” al modelo y le pide que genere una frase sobre esa palabra. Por supuesto, la frase no es única, puede generar varias distintas. Por ejemplo, GTP3 opina que “In Argentina, unless you look like you have money, you don’t deserve it.” (https://thoughts.sushant-kumar.com/argentina). Más interesante resulta su opinión sobre blockchain: “All cryptocurrency is fraud. It is backed by nothing real and it is made out of thin air (except the electricity used).” El salto en generación de lenguaje es enorme. Otros investigadores hicieron pruebas en la escritura de artículos basados en unas pocas palabras o el perfil de un usuario. Los resultados sorprenden. No es perfecto, claro, y en algunos casos uno sospecha, pero por lo general los textos podrían haber sido escritos por un humano.
El potencial de este tipo de modelos usados para el mal es enorme: podemos pensar en la generación de noticias falsas adaptadas a cada usuario, para llevarlo sutilmente a votar por quién queremos, a comprar lo que queremos venderle o a aumentar su odio e indignación. Hay bastante literatura escrita sobre el daño que pueden causar las fake news, y después de experiencias como el Brexit (el uso de noticias falsas en el Brexit está bien documentado, hay una charla Ted que presenta muy claramente el tema) hay mucho cuidado en brindar herramientas que faciliten la manipulación social. Pero el potencial de su uso para el bien también es enorme. No sólo humanizando AI y la interacción con las computadoras, también con aplicaciones en educación, cuidado de niños y ancianos, explicando el uso de aparatos, entre otras. Y también es posible pensar en nuevos usos, más creativos. Paul Yacoubian nos muestra en Twitter como, alimentando GPT3 con una semilla, el modelo puede ofrecernos ideas novedosas en el formato “tormenta de ideas”. Algunos ejemplos: una story wall, que cuente las historias de la familia; un microondas que pueda ver y así decidir cómo cocinar… en realidad, no es creatividad, es sólo una mezcla que un modelo hace en función de su uso del lenguaje. Pero se parece demasiado a tener ideas.
¿Cuándo vamos a poder tenerlo en español? Difícil saberlo. Algunos modelos Transformers ya existen en español – y muchos son open source. Pero el trabajo que requiere generar un GPT3 en español no es banal, porque la traducción literal del modelo en inglés da resultados bastante pobres. Hace falta un trabajo adicional. En muchos países de habla hispana existen expertos en procesamiento de lenguaje (NLP) con amplios conocimientos de la lengua y de estos modelos (por lo general, estos grupos incorporan lingüistas). Y dado el potencial es posible que en poco tiempo contemos con versiones español. Esperemos que estas versiones sean usadas para el bien.
Practia.global, Todos los derechos Reservados, 2020