Cuando los humanos hablan con los ordenadores

Decir que los ordenadores superan a los humanos en numerosas áreas seraun eufemismo. Los ordenadores tienen capacidades de calculo y de almacenamiento muy superiores a las del ser humano y permiten resolver problemas antes insolubles. Sin embargo, el contrario también algunas tareas conservan una parte de misterio para los ordenadores. Una tarea en particular caracteriza este fenómeno: la comprensión del lenguaje. Aunque el humano tenga la capacidad de adquirirla muy temprano en su vida (Si bien es una capacidad que el ser humano adquiere pronto en su vida), es muy complejo hacer entender el sentido de las palabras a un ordenador. Peor, es an ms difícil explicar la construcción de una frase, la sintaxis y sobre todo la semántica. Este problema, sin solución por mucho tiempo, tendría sin embargo, aplicaciones en numerosas áreas. Los más evidentes son probablemente la traducción, la corrección automática de textos, la función de auto-completar palabras o también la sugestión de palabras, ahora generalizada en los teléfonos móviles. Algunas podrían plantearse a soñar con ordenadores escritoeriodistas. Entonces, cmo inculcar la comprensión del lenguaje a un ordenador?

¿La llave para hacerse entender? Las mates

Con el propósito de volver el lenguaje humano para un ordenador, es necesario traducirlo a un lenguaje que este pueda comprender. Uno de los principales paragidmas es crear representaciones matemáticas de la frase. La representación ms clásica es la representación llamada vectorial : cada frase, documento o palabra ser representado por una tabla de números, es decir, un vector que permite resumir su contenido y representarlo en el espacio. La granularidad de esta representación, es decir, la cantidad de datos contenidos, variará en función de la complejidad de la representación elegida.

Las estadísticas entran en escena

Históricamente, una de las primeras estadísticas es el saco de palabras. El principio es el siguiente: una frase está representada por un vector compuesto de 0 y 1. Este vector es del tamaño total de lo que se llama vocabulario, el conjunto de palabras que la frase podría potencialmente contener. Cada palabra del vocabulario está asociada a una casilla del vector. Si la palabra está efectivamente presente en la frase, entonces el número en esta casilla será igual a 1. Si la palabra no está presente en la frase, el numero representándola en este vector será igual a 0. Así, el mecanismo del bolso de palabras permite representar una frase con la ayuda de la presencia o la ausencia en este de cada palabra del vocabulario.

Figura 1 – Ejemplo de bolso de palabras.

Esta representación es simplista y expresa algunas limitaciones. El orden de las palabras no está para nada tomado en cuenta. Tampoco es posible saber si una palabra aparece varias veces en una misma frase. Además, si una palabra presente en la frase no fue incluida al vocabulario, no podrá ser representada. Para terminar, cada palabra presente en la frase tiene la misma importancia en la representación. Esta es seguramente la mayor limitación citada: en una frase, es evidente que algunas palabras, como por ejemplo los nombres y los verbos, son portadores de más datos que otros, como los determinantes.

Para paliar este problema, unas representaciones estadísticas más complejas fueron propuestas. La más generalizada es llamada TF-IDF (Term Frequency -I nvert Document Frequency, que se puede traducir por “Frecuencia del Término - Frecuencia Inversa del Documento”). Este método es un método de ponderación que permite evaluar la importancia de un término contenido en un documento. Esta ponderación está calculada con la ayuda de la frecuencia del término en el documento en comparación con su importancia en el conjunto del corpus, es decir, el conjunto de documentos que será utilizado como muestra representativa de la lengua para transcribir. Para comprender completamente lo que es un documento y un corpus, he aquí algunos ejemplos: un documento es el poema «El Cuervo y el Zorro » de La Fontaine, mientras que el corpus es el conjunto de su obra. Así, una palabra muy frecuente en un documento, pero también muy frecuente en el corpus es portadora de pocos datos: es probablemente un determinante tal como «el» o «la». En cambio, un término cuya frecuencia es muy elevada en el documento pero muy baja en el corpus será seguramente portadora de muchos datos y permitirá comprender totalmente el tema del documento. El método TF-IDF permite comparar la frecuencia de una palabra en el documento en comparación con su frecuencia en el corpus, y darle ms o menos peso en función de este ratio.

Este método es muy eficaz y todavía es utilizado en la explotación de textos actualmente. Sin embargo, esta técnica también sufre limitaciones, principalmente que no se le da ninguna importancia al sentido del término. Su representación es puramente estadística, tan solo basada sobre las frecuencias de aparición de este término. Ninguna información está integrada en lo que concierne el sentido del término en esta representación.

Aun no creativo pero en constante evolución

Como numerosas áreas de la informática, la representación del lenguaje también está revolucionada por la inteligencia artificial. El primer modelo que revolucion el área es conocido bajo el nombre de Word2vec, palabras hacia vector. Su principio es el siguiente : un modelo de inteligencia artificial, y más precisamente una red de neuronas, va a verse arrastradaa representar una palabra en función del uso que se hace de ella en un corpus de entrenamiento.

En practica, supongamos que queremos entrenar un modelo Word2vec de manera a enseñarle a representar las palabras de la lengua española. El proceso va a ser el siguiente: vamos a facilitarle un gran numero de textos en español, como por ejemplo el conjunto de artículos de Wikipedia La hipótesis según la cual el modelo va a aprender es que dos palabras utilizadas en un contexto similar tiene un sentido próximo. El objetivo final del modelo es producir un vector de representación de la palabra permitiendo traducir el sentido de esta palabra. Así, dos palabras con sentido próximo serán asociados a vectores cuyos valores serán próximos.

Para ilustrar este concepto, el modelo debe producir representaciones para las palabras de tal manera que : rey – hombre + mujer = reina.

A continuación, está realizada sobre los vectores de representación de cada una de estas palabras.

Figura 2 : Ilustración del principio de funcionamiento del modelo Word2vec. (Inspirado de: kawine.github.io/)

Así, el modelo Word2vec va a permitirnos producir, para cada palabra, una representación que fue aprendida al estudiar el contexto en el cual la palabra fue empleada. Cada palabra está entonces asociada a un único vector, este vector que se supone que traduce el conjunto de los sentidos que la palabra puede tomar. En la práctica, no es exactamente el caso. En efecto, esta representación estática está obligatoriamente sesgada por la frecuencia de aparición de cada sentido de la palabra. Por ejemplo, consejo se emplea mucho más a menudo con el sentido del sustantivo consejo, de aconsejar, que como un consejo, cuerpo administrativo o consultivo de gobierno. Así, el modelo, que fue confrontado más a menudo a un sentido que al otro, tendrá tendencia a producir un vector traduciendo más bien el primer sentido. Esta limitación puede ser extralimitada para la representación dinámica de palabras o de documentos.

Las representaciones dinámicas de palabras, que representan el estado de la técnica actual, revolucionan numerosas secciones del tratamiento del lenguaje, como la comprensión de las solicitudes por los motores de búsqueda, la traducción, que ahora se efectúa a la escala de la frase, o también la corrección ortográfica. Esos avances permiten a los ordenadores aprehender una parte de la riqueza que representa el lenguaje humano, a veces incluso al superar su rendimiento en algunas tareas. Si la creatividad aún no es una de sus capacidades, es cierto que la revolución está en proceso en numerosos aspectos de la comunicación.

Fuentes :

1. JONES, Karen Sparck. A statistical interpretation of term specificity and its application in retrieval. Journal of documentation, 1972.

2. DEVLIN, Jacob, CHANG, Ming-Wei, LEE, Kenton, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

3. MIKOLOV, Tomas, SUTSKEVER, Ilya, CHEN, Kai, et al. Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, 2013.

4. https://kawine.github.io/blog/nlp/2019/06/21/word-analogies.html