Inteligencia artificial y procesamiento de lenguaje

22 Julio, 2020

Inteligencia Artificial y procesamiento de lenguaje

RPA

Son muchas las investigaciones mundiales que trabajan denodadamente para entender la complejidad subyacente en nuestro lenguaje. ¿Para qué? Para poder enseñarles a las máquinas a responder con órdenes de voz de manera cada vez más natural.

Aquí dos investigadores nos cuentan por dónde andamos.

A diario empleamos el len-guaje oral sin percatarnos de la cantidad y la comple-jidad de los procesos involucrados. Y muchos de dichos procesos plantean tremendas dificultades para los sistemas informáticos. Uno de los temas que me ocupan como investiga-dor es modelar la coordinación que te-nemos los humanos en una conversa-ción, para incorporar ese conocimiento a los sistemas de diálogo hablado. Existen múltiples manifestaciones de esa coordinación. Una es el timing preciso de los intercambios de turnos conversacionales, que se alternan con marcada fluidez. Otra es la mimetiza-ción entre hablantes, que consiste en la alineación o sincronización de deter-minadas características del habla entre los participantes de un diálogo. De esta última nos ocuparemos en estas líneas. Todas estas formas de coordinación involucran un componente clave: la prosodia, la cual incluye variables ta-les como el nivel tonal (agudo/grave), la intensidad (volumen alto/bajo), el uso de contornos de entonación y la velocidad del habla, entre otras.

La variación prosódica es extrema-damente compleja y los sistemas de procesamiento del habla todavía no son capaces de manejar estas caracte-rísticas en forma correcta, debido a la extraordinaria variabilidad del fenó-meno y a las dificultades para descri-birlo formalmente. En consecuencia, la ausencia de un manejo adecuado de la prosodia conduce a que el habla arti-ficial resulte mecánica, extraña y hasta carente de sentido.

Aquí dos investigadores nos cuentan por dónde andamos.

Una característica importante del diálogo entre humanos que aún no ha sido incorporada a los sistemas de diálogo es la mimetización entre interlocutores. En la literatura de la Psicología del Comportamiento se ha observado que, bajo ciertas condicio-nes, cuando una persona mantiene una conversación, va modificando su manera de actuar y de hablar, adaptán-dose dinámicamente a la forma actuar y de hablar de su interlocutor. Así, las dos personas adoptan iguales formas léxicas para referirse a elementos de la realidad, negocian tácitamente des-cripciones compartidas, y hasta usan estructuras sintácticas parecidas. Es un fenómeno subconsciente conocido como “mimetización”, “alineamiento”, “adaptación” o “convergencia”. Este rasgo tan humano juega un rol clave en la coordinación de diálogos, facili-tando la producción y la comprensión del habla entre personas.
Un abordaje sobre el tema que veni-mos empujando en mi grupo de in-vestigación desde hace casi una déca-da involucra la utilización de técnicas estadísticas y de Machine Learning para encontrar modelos descriptivos de la mimetización de diversas varia-bles prosódicas. Por ejemplo, en un corpus de grabaciones en español de Argentina recolectado especialmen-te, observamos que distintos pares de hablantes comenzaban con valores disímiles en una variable prosódica determinada (por ejemplo, la intensi-dad) y a medida en que la conversación avanzaba esos valores se aproximaban entre sí (es decir, convergían).

Los resultados obtenidos de estas in-vestigaciones, no obstante, no siempre fueron claros, y a veces hasta resultaron contradictorios. Cada diálogo analiza-do se encuadró en uno de estos tres es-cenarios: i) existencia de alineamiento, ii) existencia de desalineamiento (¡el fenómeno opuesto!), iii) ninguno de los escenarios anteriores. Es importante resaltar que estos resultados difirieron de una distribución aleatoria: la evi-dencia de la existencia de alineamien-to y desalineamiento fue en todos los casos pronunciada y estadísticamente significativa, lo cual descarta que los resultados observados pudieran ser explicados como una consecuencia del azar. En cambio, nos parece probable que existieran factores determinantes de cuál de los tres escenarios tendrían lugar en cada conversación. En este contexto, hipótesis tomadas de la Psicología del Comportamiento sugieren que la mimetización tiene una presencia más marcada 1) en individuos con fuerte empatía disposicional (la capacidad de ponerse en el lugar del otro) 2) cuando los interlocutores tienen afinidad interpersonal (se caen bien mutuamente) y 3) cuando están compenetrados en la tarea que están desarrollando en conjunto. A partir de estas hipótesis, surgen nuevos interrogantes en nuestra línea de trabajo: ¿cómo afectan a la aparición de mimetización prosódica los rasgos interpersonales de los hablantes y su grado de compenetración en la tarea? ¿Puede ser que la causalidad sea a la inversa: que la mimetización sea una causa de la afinidad y de la compenetración de las personas? Para buscar las respues-tas, necesitamos incorporar nueva in-formación a nuestros estudios, como tipos de personalidad, grados de empa-tía interpersonal y nivel de interés en la tarea desarrollada.

Cada vez más soñamos con crear una máquina que emule nuestros diálogos. Por supuesto, las conversaciones entre humanos y dispositivos tienen aún un arduo camino por recorrer

Además, debimos abandonar el paradigma de estudio de corpus de grabaciones para abordar el problema con un enfoque experimen-tal, en el cual los participantes inte-ractúan con sistemas de diálogo expe-rimentales programados con distintas políticas de mimetización, de modo de observar el efecto de cada política en el desarrollo de los diálogos. Todo lo anterior nos sirve como dis-parador para nuevas investigaciones, que estamos llevando adelante en la actualidad.

A falta de ejemplos, buenos son los puntos en el espacio

Por Laura Alonso Alemany y Milagro Teruel

Laura Alemany es líder técnica en Machinalis y profesora en la Universidad Nacional de Córdoba (Argentina). Milagro Teruel es doctoranda en Informática.

El aprendizaje del lenguaje humano por parte de la inteligencia artificial es uno de los desafíos de nuestro tiempo. Más allá de órdenes sintácticas y semánticas, la aplicación de embeddings neuronales permite partir de representaciones de las palabras en espacios vectoriales, donde cada dimensión aporta a la comprensión del significado.

La decodificación del lenguaje humano es uno de los problemas centrales de la inteligencia artificial, y estamos lejos de resolverlo completamente.
Los matices, las composiciones semánticas, la gran dependencia del contexto vuelven la tarea de comprender el significado del texto mucho más compleja que simplemente buscar en un diccionario las palabras que lo componen.
¿Cómo lo logramos hoy? En lugar de elaborar extensos y sofisticados conjuntos de reglas que dirijan la interpretación, aplicamos algoritmos de aprendizaje automático. Es decir: presentamos ejemplos, como preguntas y sus correspondientes respuestas, y dejamos que un algoritmo aprenda reglas automáticamente. De esta forma permitimos que el algoritmo descubra cómo las palabras y la forma en que están dispuestas en el texto son relevantes a la hora de resolver una tarea, en este caso, responder a una pregunta.

Estos algoritmos son ciertamente muy poderosos, pero solo pueden hacer predicciones confiables sobre casos que hayan visto previamente.
Ante un caso que no tenga nada en común con ninguno de los ejemplos aprendidos, es incapaz de “improvisar”. Esto supone un techo de rendimiento muy difícil de superar para el procesamiento del lenguaje natural basado en ejemplos. Este problema se ha tratado de resolver añadiendo más y más ejemplos, pero esta solución tiene, a su vez, dos limitaciones más: la primera es que el lenguaje natural es infinito y que siempre nos encontraremos ante nuevos casos no vistos. La segunda, que para muchas tareas es costoso generar los ejemplos de aprendizaje, ya que suelen requerir intervención de expertos humanos.

EN BUSCA DE UNA SOLUCIÓN

Para abordar este problema, nos inspiramos en cómo los humanos aprendemos adecuadamente a partir de un número relativamente pequeño de ejemplos: mediante generalización.
Los algoritmos de aprendizaje automático más sofisticados tratan de incorporar mecanismos de generalización que permitan tratar casos nunca vistos.
En particular, en el lenguaje natural, la generalización suele involucrar acercarnos al significado o a la
intención subyacente al texto. Más técnicamente, queremos acercarnos a la causa latente que generó
una expresión lingüística.
Por ejemplo, para describir un texto, en lugar de quedarnos en las palabras que lo componen, queremos llegar hasta los conceptos que expresa (independientemente de las palabras que use para expresarlos) o hasta la intención comunicativa del autor (convencer, conmover, argumentar, cuestionar, apelar…).
En este camino nos encontramos con métodos alentadores: los llamados “proyectivos” o “de embeddings”.

EN BUSCA DE UNA SOLUCIÓN

Ya Zellig Harris, en 1954, desarrolló la hipótesis distribucional, que sostiene que podemos inferir el significado de una palabra sobre la base de las otras que la rodean. Por ejemplo, si no sabemos lo que es un “lichi”, a partir del ejemplo de texto que utiliza esta palabra podemos obtener algunas conclusiones: que los chefs usan lichis en sus platos, que tienen un sabor ligeramente dulce, que son tropicales… de esta forma podemos construir su significado.

La hipótesis distribucional no es nueva y se ha aplicado en diferentes versiones, pero en los últimos años ha conocido un gran desarrollo gracias a los embeddings neuronales. Como en los enfoques clásicos basados en la hipótesis distribucional, los embeddings neuronales parten de una representación de las palabras en un espacio vectorial, donde cada dimensión es una de las palabras que puede acompañar a otra palabra en un texto. Pero los embeddings neuronales aportan dos grandes avances: primero, obtienen información a partir de texto sin procesamiento humano adicional. Por otro lado, se pueden calcular de forma distribuida, y así procesar grandes volúmenes de datos. Estas dos propiedades se complementan perfectamente con dos evoluciones recientes de nuestra sociedad: la gran cantidad de textos disponibles libremente en formato electrónico y la gran capacidad de cómputo.

El resultado de aplicar embeddings neuronales es descubrir nuevas dimensiones en las que describir las palabras o los textos. En estas nuevas dimensiones, las palabras ya no se caracterizan por las otras palabras que las pueden acompañar, sino por conceptos más abstractos, inferidos de su comportamiento en miles de millones de ejemplos.
Por el momento, no podemos interpretar el significado de estas nuevas dimensiones, pero sí observar que se corresponden bien con nuestras intuiciones sobre el significado.

Por ejemplo, si representamos en estas nuevas dimensiones la palabra “rey”, le restamos la representación de “hombre” y le sumamos la representación de “mujer”, obtenemos un punto muy cercano a “reina”. En otras palabras, en estas nuevas dimensiones conseguimos representar que si le sacamos los valores que tienen que ver con lo masculino al concepto “rey” y le agregamos los valores que describen lo femenino, entonces cambiamos su significado a algo similar a “reina”.
Uno de los casos más icónicos es el algoritmo word2vec, implementado por Mikolov en el año 2013.
Este algoritmo y otros semejantes se han aplicado para obtener embeddings neuronales de palabras, mejorando el rendimiento en multitud de tareas de procesamiento del lenguaje natural. Pero su efectividad no se limita al lenguaje natural: también en el procesamiento de imágenes los embeddings neuronales están aportando muy buenos resultados.
Sin embargo, esta es solo la punta del iceberg en el procesamiento del lenguaje natural; aún queda mucho camino que recorrer hasta llegar a una verdadera comprensión del lenguaje humano.

AGUA, MADERA Y CALDO

Pensemos en describir las palabras ´´agua“, ´´caldo“, ´´madera“, con puntos en un gráfico cartesiano con un eje X y un eje Y. Solo tenemos dos dimensiones, por lo que solo podremos representar dos aspectos del significado de ´´agua“, ´´caldo“, ´´madera“. Decidimos, al azar, que en el eje horizontal representaremos qué tan líquido es algo, mientras que en el eje vertical representaremos la cualidad de ser algo artificial. Entonces ´´agua“ y ´´caldo“ tendrán valores altos en el eje horizontal, porque son efectivamente líquidos, mientras que ´´madera“ estará cerca del valor cero. Por otra parte, ´´agua“ y ´´madera“ no son artificiales, y en el eje vertical pondremos esos puntos en el origen, mientras que ´´caldo“ se encontrará más arriba en nuestro gráfico. Sin embargo, para representar adecuadamente conceptos complejos necesitamos muchas más que dos dimensiones, por lo que los embeddings son, en realidad, puntos en un espacio de N dimensiones que no podemos visualizar en nuestras mentes, pero que una computadora puede procesar.

Regresar a Revista Perspectiva