Esta innovadora herramienta de IA es capaz de rescatar idiomas en peligro de extinción

0
51

Wired.- Esta innovadora IA puede realizar traducciones automáticas basadas en reglas, asistidas por LLM, para idiomas con pocos o ningún recurso. Jared Coleman, quien recientemente obtuvo su doctorado en Ciencias de la Computación por la Universidad del Sur de California, y su profesor, el ingeniero Bhaskar Krishnamachari están utilizando la inteligencia artificial para revitalizar el paiute de Owens Valley, una lengua indígena en peligro de extinción.

Ambos comparten una pasión por los lenguajes, tanto humanos como informáticos.

Krishnamachari, originario de la India, creció hablando tamil, hindi e inglés, y más tarde en la universidad, aprendió francés y chino mandarín. Por su parte, Coleman, anglófono de nacimiento, se enamoró del español en la secundaria y aprendió portugués de su esposa y amigos en la universidad. Durante la pandemia, Coleman comenzó a tomar clases en línea de un idioma menos conocido: el paiute, del Valle de Owens. Como miembro de la tribu Big Pine Paiute del Valle de Owens, Coleman siente una profunda conexión con este idioma ancestral, hablado por su padre, David, quien creció en la reserva de la tribu en Big Pine, California.

“Soy nativo americano y el idioma nativo de mi tribu siempre me ha interesado. He tomado clases y demás, pero es muy difícil aprender un idioma en peligro de extinción porque no hay tantos recursos ni herramientas disponibles. Así que comencé a usar ChatGPT para preguntarle cosas sobre mi idioma, explorando lo que sabía y lo que no sabía sobre el idioma”, explica Jared Coleman, en entrevista con WIRED.

El enfoque de esta innovadora IA combina traductores basados en reglas con grandes modelos lingüísticos, proporcionando una herramienta práctica para su uso en el mundo real. “La herramienta es lo suficientemente inteligente, con algunas pistas, como para poder realizar gran parte de la traducción por sí sola”, explica Krishnamachari a esta revista.

Jared Coleman se preguntó si los modelos de lenguaje de gran tamaño (LLM) como ChatGPT de OpenAI podrían ayudar a perfeccionar las habilidades del habla en idiomas en peligro de extinción. ChatGPT y otros LLM muestran un desempeño a nivel humano en muchas tareas de lenguaje natural en inglés debido a la abundancia de datos disponibles. Sin embargo, el paiute se considera un “idioma sin recursos”, lo que significa que no existen suficientes oraciones en paiute disponibles públicamente traducidas al inglés para entrenar un modelo de aprendizaje automático.

En su nuevo artículo académico, “Traducción automática basada en reglas asistida por LLM para idiomas con pocos o ningún recurso”, Coleman y Krishnamachari proponen un enfoque de traducción automática denominado LLM-RBMT (Traducción automática basada en reglas asistida por LLM) para ayudar a las personas a aprender idiomas sin recursos. Este enfoque combina herramientas de traducción basadas en reglas tradicionales con un modelo de lenguaje extenso (LLM) avanzado basado en lenguaje natural. En el método de los investigadores, el LLM no traduce directamente hacia o desde el paiute del Valle de Owens, sino que ayuda a guiar a los traductores basados en reglas, que se apoyan en reglas gramaticales y de vocabulario para realizar las traducciones entre idiomas. “Básicamente, el LLM actúa como un intermediario sofisticado, utilizando su comprensión avanzada del lenguaje para asegurarse de que el sistema basado en reglas produzca traducciones precisas,” explica Coleman.

(Esta entrevista ha sido ligeramente editada para facilitar su lectura)

Anna Lagos: ¿Qué les inspiró a centrarse en el uso de estos grandes modelos de lenguaje para la investigación de idiomas? ¿Cómo decidieron incluir este idioma en su investigación?

Jared Coleman: La popularidad y efectividad de los grandes modelos de lenguaje, como ChatGPT, me inspiró a investigarlos. Bhaskar Krishnamachari, quien comprendió su poder desde el principio, me motivó a explorar su potencial. Siempre me ha interesado la traducción y el idioma de mi tribu en Owens Valley. Aunque es difícil aprender un idioma en peligro de extinción por la falta de recursos, comencé a usar ChatGPT para explorar lo que sabía sobre nuestro idioma. Al compartir mis ideas con Bhaskar, descubrimos un interés común y comenzamos a trabajar juntos en este proyecto.

Bhaskar Krishnamachari: Encontré GPT-3 aproximadamente un año antes de que se popularizara en la forma de ChatGPT. Mi grupo comenzó a investigar su uso en la educación y descubrimos que sus capacidades eran fenomenales. En esa época, también teníamos otros proyectos aplicando GPT a la enseñanza de idiomas mediante conversaciones. Siempre me han interesado los idiomas; crecí hablando tres en India y durante la universidad aprendí algunos más. GPT es un excelente compañero de conversación para los idiomas que ya conoce bien, pero la pregunta que exploramos en nuestra investigación fue: ¿Qué pasa si es un idioma que aún no conoce? ¿Podemos enseñárselo rápidamente y lograr que traduzca estos idiomas menos conocidos? Jared tiene una conexión muy personal con el idioma de su tribu y queríamos que fuera accesible para que otros puedan aprenderlo. En India, de donde soy, hay entre 750 y 800 idiomas y dialectos. Muchas personas que hablan estos idiomas no tienen acceso al contenido en la web, ya que está en idiomas que no entienden. El trabajo que Jared ha iniciado tiene el potencial de llegar a las personas en sus propios idiomas en todo el mundo. Las implicaciones de este trabajo son realmente asombrosas.

Anna Lagos¿Este proyecto podría ser aplicable a otras lenguas?

Jared Coleman: Sí, claro. Esperamos que nuestro trabajo sea aplicable a otros idiomas en peligro de extinción tanto en los Estados Unidos como en el extranjero, lo que realmente me motiva es preservar mi propio idioma tribal. Actualmente, hay aproximadamente 7000 idiomas en el mundo clasificados como en peligro de extinción. Personalmente, siento una gran conexión con mi idioma tribal, lo que me inspira a realizar este trabajo.

Bhaskar Krishnamachari: En mi experiencia, crecí en el norte de India, donde mi familia hablaba tamil, un idioma del sur de India, mientras que la mayoría de las personas a nuestro alrededor hablaban hindi. Siempre me ha fascinado cómo algunas cosas son más fáciles de expresar en un idioma que en otro. Diferentes idiomas permiten experimentar el mundo de maneras distintas. Mi motivación es ayudar a preservar idiomas en peligro, ya que muchos tienen pocos hablantes y los hablantes más fluidos están envejeciendo. Si podemos desarrollar herramientas computacionales que ayuden a preservar estos idiomas, estaremos protegiendo una parte esencial de la experiencia humana y nuestro patrimonio.

Anna Lagos: ¿Podrían explicar en más detalle esta traducción basada en reglas asistida por LLM?

Jared Coleman: Nuestro proyecto combina la traducción automática basada en reglas con grandes modelos de lenguaje (LLM) como ChatGPT. Aunque la traducción basada en reglas es frágil y obsoleta, es necesaria para idiomas con pocos datos, como el Owens Valley Paiute. Usamos LLM para facilitar la creación y uso del traductor, conectando métodos antiguos con tecnología moderna.

Bhaskar Krishnamachari: Con los LLM, no se necesita programar complejas reglas en un lenguaje de programación. Es como hablar con una persona inteligente: se le explican las reglas del idioma y se le pide que traduzca. Esto permite que los LLM aprendan y apliquen reglas sin necesidad de conocer el idioma de antemano, haciendo la traducción más accesible y efectiva.

Anna Lagos: ¿Cuáles fueron algunos de los mayores desafíos que enfrentaron al desarrollar esto?

Jared Coleman: El principal desafío de desarrollar la traducción basada en reglas asistida por LLM fue la necesidad de expertos en el idioma para proporcionar las reglas y construir frases simples, un proceso laborioso. Superamos este reto simplificando frases complejas para que el modelo las tradujera en partes más manejables, manteniendo el significado original. Otro desafío fue evaluar la calidad de la traducción sin depender de hablantes nativos, lo cual no es escalable. Usamos un esquema de evaluación de traducción de ida y vuelta y una tecnología de similitud semántica para medir cuánto se mantiene el significado de la frase durante la traducción, priorizando la retención del significado sobre la precisión gramatical.

Anna Lagos: ¿Cuál es el impacto potencial que ves o prevés que esta investigación tendrá en los esfuerzos de preservación de idiomas?

Jared Coleman: Uno de los mayores desafíos para aprender un idioma en peligro de extinción es la falta de inmersión constante. Por ejemplo, aprendí portugués rápidamente porque mi esposa es brasileña, pero he estado estudiando paiute durante años sin alcanzar el mismo nivel de fluidez. Este trabajo busca hacer que el idioma sea accesible desde cualquier lugar, permitiendo a las personas estar rodeadas del idioma y practicarlo constantemente. Para mi tribu y otras con idiomas en peligro, esto significa tener acceso a herramientas que permitan el aprendizaje continuo fuera de las clases formales, lo que es crucial para la preservación del idioma.

Bhaskar Krishnamachari: La tecnología puede ofrecer capacidades significativas para la preservación de idiomas. Este trabajo es solo un paso hacia la revitalización de idiomas en peligro, pero hay muchas direcciones futuras posibles. Integrar tecnología de texto a voz y voz a texto, así como la realidad virtual para crear entornos inmersivos, puede enriquecer significativamente el aprendizaje de idiomas. Con estas tecnologías, podemos crear experiencias de inmersión completas que faciliten el aprendizaje y preservación de idiomas con pocos recursos.

Anna Lagos: ¿Cómo imaginas que este trabajo influya en las futuras direcciones de investigación en el campo de la traducción automática para idiomas con pocos o ningún recurso?

Jared Coleman: Espero que este trabajo inspire a otros a utilizar LLM para la revitalización de idiomas en peligro. Este es uno de los primeros trabajos que utiliza LLM para este propósito y demuestra que se pueden aplicar a idiomas con pocos recursos. Espero que esto se convierta en un área de investigación más amplia.

Bhaskar Krishnamachari: Hay dos direcciones futuras importantes. Primero, generalizar este marco para que pueda aplicarse a otros idiomas, permitiendo que personas con diferentes idiomas proporcionen reglas y vocabulario básicos para replicar este enfoque. Segundo, aplicar el concepto de aprendizaje de transferencia, donde se usa un modelo entrenado en un idioma con más recursos para mejorar la traducción de un idioma relacionado con pocos recursos. Por ejemplo, el Paiute del Norte, que tiene más hablantes y recursos, podría ayudar a mejorar la traducción del Owens Valley Paiute.

Anna Lagos: ¿Hay alguna característica nueva o mejoras que planeen añadir a la traducción en el futuro?

Jared Coleman: Sí, lo más inmediato es apoyar frases más complejas. Hasta ahora, hemos proporcionado reglas para construir frases simples. Extender esto a frases más complejas ofrecerá un valor añadido significativo para los hablantes de Owens Valley.

Anna Lagos: ¿De qué manera crees que este proyecto puede ayudar a preservar y revitalizar el idioma y la cultura de Owens Valley?

Jared Coleman: Ha habido muchos esfuerzos para preservar y revitalizar nuestro idioma, incluyendo la grabación de nuestros ancianos y la creación de diccionarios. Sin embargo, el mayor desafío es el acceso continuo al idioma. Es muy difícil aprender un idioma cuando no está disponible todo el tiempo. Espero que este trabajo ayude a que el idioma sea más accesible para los miembros de la tribu, en sus hogares o donde se encuentren.

Anna Lagos: ¿Cuáles fueron algunos de los hallazgos más sorprendentes o inesperados durante su investigación?

Jared: Uno de nuestros coautores, el profesor Carlin del departamento de lingüística, se sorprendió mucho al ver el estado actual de los grandes modelos de lenguaje para la traducción automática. Para alguien con décadas de experiencia en lingüística, fue impactante ver cuánto han mejorado estos modelos, como ChatGPT, en solo dos años. Hace dos años, no habríamos pensado que este trabajo sería posible. La tecnología ha avanzado a un nivel de comprensión casi humana, lo cual es sorprendente incluso para los expertos en lingüística. Esto valida que nuestro enfoque es muy prometedor, aprovechando las nuevas capacidades que nos brinda la IA.

Compartir en:

Leave a reply