Traducción automática a partir del aprendizaje no tan profundo

 

Jonathan Tennenbaum*

Un grupo selecto se reúne en las oficinas de la International Business Machines Corporation (IBM) para ser testigos de la primera demostración pública de una traducción automática. IBM 701, el primer computador científico comercial de la empresa ocupaba la sala entera.

 

Con una capacidad de memoria de cerca de 20 kilobytes (Kb) y con la capacidad para realizar 2 mil multiplicaciones por segundo, el 701 estaba cerca de ser un millón de veces menos poderoso que los computadores personales actuales. Sin embargo, esta reunión, que se conocería como el experimento Georgetown-IBM, en homenaje a su copatrocinador académico, entró a la Historia.

 

El cerebro tras la reunión era Léon Dostert, cofundador del Instituto de Lenguas y Lingüística de la Universidad de Georgetown y uno de los lingüistas más destacados de su época. Durante la Segunda guerra mundial, Dostert fue el intérprete personal del general y futuro presidente de Estados Unidos, Dwight D. Eisenhower, y, luego del conflicto, se encargó de organizar el mecanismo de traducción simultánea que se utilizó en el Tribunal de Nuremberg. También era amigo de mucho tiempo del fundador de IBM, Thomas J. Watson.

 

Lo forma de abordar la traducción automática (TA) iniciada por Dostert y otros en los 1950 so conoce con el nombre de “basada en reglas”: los lingüistas elaboran conjuntos de reglas que rigen el funcionamiento de las lenguas en cuestión -reglas que se pueden expresar de forma matemática.

 

El ordenador, cuando se le programa adecuadamente, debería ser capaz de analizar un texto de entrada y transformarlo con el uso de diccionarios bilingües apropiados y de reglas de transformación, en una frase correcta gramaticalmente en el idioma de destino. El texto de salida debe expresar el mismo significado que el texto de entrada, en la medida de los posible, en un estilo natural fluido del idioma de destino.

 

Una solución amplia exigiría claramente un gran número de reglas y de otros datos, además de capacidades de cómputo mucho más allá de las existentes en aquella ápoca. Para reducir los requisitos, Dostert escogió frases con estructuras muy simples, un mínimo de ambigüedades y un vocabulario relativamente restringido. La mayoría trataba de química y fueron escritas en “ruso científico”.

 

Después de muchos esfuerzos. Dostert y sus colegas consiguieron formular seis reglas elementales de demostración. Las reglas se escribieron en el programa del ordenador junto con el equivalente a un diccionario ruso-inglés de 250 palabras.

 

Antes de la ejecución del programa, Dostert realizó una prueba con humanos. Lo describió así en su informe de 1954, “Un experimento de traducción automática: aspectos del programa general”:

 

“Esto incluía dar a individuos que la sabían el idioma de origen, el ruso, frases escritas en ese idioma en caracteres latinos. Se les oriento por escrito para que hicieran una consulta, no sólo de aspectos del léxico, sino también de manipulaciones sintácticas. La consulta partió de instrucciones reducidas a términos estrictamente mecánicos, en lugar de operaciones de “pensamiento”… Los individuos fueron capaces de captar una frase que se les presentó en ruso latinizado y de proporcionar una traducción correcta de las frases de ruso al inglés, con el empleo de instrucciones que una máquina podría seguir… El hecho más significativo es que, sin conocer la lengua rusa y, por lo tanto, sin contribuir con nada más que su capacidad de investigar, que es lo que el computador es capaz de hacer, consiguieron una versión en inglés correcta”.

 

Las oraciones rusas, trasliteradas fonéticamente al alfabeto latino, se codificaron en cartones perforados y se ejecutaron en la máquina. Ante los ojos de los testigos reunidos ahí, el computador tradujo 60 frases del ruso al inglés, a un ritmo de una cada seis o siete segundos. Esta hazaña sensacional fue ampliamente divulgada por la prensa.

 

El experimento Georgetown IBM dio un enorme ímpetu al desarrollo inicial de la Inteligencia Artificial (IA), gran parte de la cual se concentró originalmente en el campo de la traducción automática (TA) y recibió el financiamiento de instituciones de la defensa de Estados Unidos para ese fin. Dostert se convirtió en uno de los principales defensores de la TA.

 

En un aspecto, sin embargo, el experimento fue demasiado exitoso

Al igual que la demostración de ELIZA, en 1966, de Joseph Weizenbaum -un programa que podía realizar diálogos escritos en inglés (ver parte 8 de esta serie) la hazaña de Dostert dio lugar a expectativas muy exageradas. La selección favorable de las oraciones rusas, en especial, creo ilusiones sobre el poder real del sistema. Siguió luego la desilusión, que culminaría una década después en el devastador “Informe ALPAC”, que causó la suspensión súbita del financiamiento de las investigaciones de TA y de la IA en general (véase Parte 9).

 

La traducción automática a partir de reglas demostró ser mucho más difícil que se esperaba originalmente. En las décadas de 1950 y 1960, los esfuerzos para resolverla produjeron progresos notables en la teoría lingüística, pero no crearon sistemas de TA viables. La predicción de Yehoshua Bar-Hillel de 1960, de que la traducción totalmente automática de alta calidad era imposible, parecía confirmada por los progresos de los 30 años siguientes.

 

En ese ínterin, sin embargo, el aumento de los órdenes de magnitud de la velocidad, de la memoria y de los recursos de procesamiento d datos de los ordenadores modernos le devolvieron la vida a la TA de reglas. Con esto, ya se puede programar un número incomparablemente mayor de reglas y de otros datos de las lenguas de origen y de destino.

 

Se incluyen ahí relaciones semánticas generales. Por ejemplo, un “terrier” es un perro; un perro es un animal; un animal es un organismo vivo. Agréguese a esto relaciones más complejas, que se sobrepongan al dominio de los datos del mundo real, como las relaciones entre “comer”, “comida”, “hambre”, “sabor”, “cocinar”, “estómago”, “dientes”, “agricultura”, “restaurante”, y así sucesivamente.

 

Las relaciones semánticas elementales de la vida cotidiana están entre las cosas que el pionero de la IA John McCarthy tenía en mente cuando insistió, a partir del final de la década de 1950, en que los sistemas de IA deben adquirir una base amplia de “conocimiento del sentido común”, como condición para alcanzar en desempeño más semejante al humano. Como dije en la Parte 3 de esta serie, el esfuerzo heroico de Douglas Bruce Lenat para integrar el conocimiento de sentido común en su sistema de IA, o Cyc, exigió la programación de más de 2 millones de datos y de 24 millones de reglas y afirmaciones de sentido común en el sistema. Muchos de ellos los tuvieron que escribir los colaboradores del grupo de Lenat.

 

La traducción automática de reglas, por fortuna, puede funcionar bien sin exigir toda la gama y la amplitud del “sentido común”. Probó su habilidad en varios campos, pero sigue siendo un procedimiento trabajoso.

 

Tengo, una vez más, la impresión de que la IA necesita producir más información que la que se invirtió en ella. (¡No hace falta decir que eso no impide que la IA sea indispensable y altamente productiva en otros aspectos!)

 

En un plano fundamental, el procedimiento de reglas para la TA, aunque sea útil en aplicaciones, casi no tiene nada que ver con la forma en la que los seres humanos adquieren realmente el lenguaje y los conocimientos del mundo.

 

Los bebés no nacen con la gramática del lenguaje programada en sus cabezas. Las lenguas se aprenden. Lo mismo ocurre con la mayor parte de lo que llamamos sentido común. Además, los niños adquieren fluidez en sus primeras lenguas sin haber estudiado ninguna gramática y, en general, antes de saber incluso qué es la gramática. También se puede dudar si lo que llamamos sentido común no es tan sólo un saco de datos y reglas.

 

A medida que la IA aspira a alcanzar la verdadera inteligencia humana, el procedimiento de reglas tiene un carácter no natural y ad hoc.

 

Con las cosas así, es interesante notar que el inicio de la traducción automática se sobrepone fuertemente a la criptografía de la Segunda guerra mundial -el esfuerzo exitoso del pionero de la IA, Alan Turing, para descifrar los códigos secretos que usaban las fuerzas armadas alemanas, y también al trabajo de Claude Shannon, criptógrafo también sirvió en la guerra.

 

Warren Weaver, cuyo “Memorando sobre traducción” de 1949 inició efectivamente la empresa de traducción automática, profirió la famosa frase: “Las personas se preguntan, naturalmente, si el problema de la traducción podría concebirse al tratarlo como un problema de criptografía. Cuando leo un artículo en ruso, digo: “Esto está escrito realmente en inglés, pero fue codificado en algunos símbolos extraños. Ahora voy a hacer la descodificación”.” Pero ¿Será que las lenguas humanas, en su uso real, funcionan realmente como códigos?

 

Entra el aprendizaje de la máquina

No es ninguna sorpresa que los avances espectaculares de la TA de las últimas décadas provengan de sistemas de IA que han adquirido su capacidad por medio de una especie de “aprendizaje”. Son sistemas que “entrenan” para traducir con el uso de grandes bancos de datos (corpuses) de pares de frases originales y traducidas por humanos.

 

No es necesario insertar ninguna información sobre la estructura gramatical o semántica de las lenguas dadas. Ni siquiera un diccionario bilingüe. Esos sistemas generan todo el “conocimiento” que se precisa para convertirse en traductores versados, mientras trabajen con bancos de datos.

 

Los resultados parecen nada menos que milagrosos. En cierta medida de desempeño, los sistemas más nuevos parecen estarse aproximando al desempeño de los traductores humanos -y hasta de capacidades sobre humanas en lo que respecta a la velocidad de traducción.

 

La evolución de esos sistemas ha exigido enormes cantidades de esfuerzo y de ingenio. Pasó por dos estadios de principales: primero, la que se llamó traducción automática estadística (SMT, por sus siglas en inglés), seguida, en los últimos años, por la traducción automática neuronal NMT, por sus siglas en inglés) que utiliza redes neuronales artificiales y “aprendizaje profundo”. Más recientemente se ha presentado la tendencia creciente de sistemas híbridos de TA que combinan NMT con una cierta cantidad de procesamiento “de reglas”.

 

En lugar de tratar de describir la AMT y la NMT aquí, haré tan sólo una observación que viene al caso para mi teses sobre la estupidez de la inteligencia artificial.

 

No hay hada sorprendente per se en el hecho de que los ordenadores con recursos computacionales suficientes pudieran adquirir la capacidad de traducir textos de rutina con banco de datos muy grande de traducciones humanas,

 

La SMT y la NMT, así como el aprendizaje de máquina en general no son en esencia nada más que formas extremadamente sofisticadas de ajuste de curvas, aplicados a tipos específicos de problemas. En lenguaje más matemático: interpolación y extrapolación de un conjunto de puntos dados (o pares de textos debidamente codificados en formato digital) con métodos de optimización estadística.

 

“Aprendizaje” equivale, en general, a un proceso interactivo para determinar los valores de los parámetros para la función de entrada-salida, que el computador usa para generar sus traducciones. El objetivo es obtener una función de entrada-salida que se aproxime a la salida de un traductor humano ideal cuando sea “alimentado” con un texto de entrada.

 

El famoso lingüista Noam Chomsky se refiere a la metodología actual de la TA como un punto de vista de “fuerza bruta”.

 

Yo preguntaría: ¿El tipo de aprendizaje realizado por los actuales sistemas de IA es realmente semejante al humano? ¿Esos sistemas entienden -de alguna forma significativa- los textos que están traduciendo?

 

La respuesta a la última pregunta es claramente no. Eso, irónicamente, es lo que hacía tan optimista a Léon Dostert en lo tocante a las perspectivas de traducción automática: ¡traducir sin entender!

*MSIa Informa

 

Foto: Especial