Temporal
por Miquel Barceló (blo@isi.upc.es)

    LAS MÚLTIPLES FORMAS DEL LENGUAJE

   Algo hoy tan conocido como la Web fue inventada, en su origen, para lograr que investigadores de campos distintos pudieran conocer lo que estaban haciendo sus compañeros. Ocurrió en el CERN de Ginebra, y fue Tim Berners-Lee quien decidió usar el HTML como lenguaje de hipertexto para vehicular esas informaciones. Poco después, Marc Andreseen programaría el primer navegador, el Mosaic, antecesor directo del Navigator y el Communicator de Netscape.
   Pero a veces, aunque las informaciones estén accesibles para todos en la telaraña mundial (WWW), el no saber que existen es una inevitable barrera para su conocimiento y difusión. Afortunadamente, ese turismo interno de tipo científico que sirve para seleccionar personal en los concursos-oposición del ministerio me sirve, a veces, para conocer que en algunos lugares del país se hacen cosas de lo más interesante.
   Al inicio de este verano, tuve la oportunidad de formar parte de la comisión que actuaría en un concurso- oposición en el campus de Tafira de la Universidad de Las Palmas de Gran Canaria. Y ahí descubrí el interesante trabajo del Grupo de Estructuras de Datos y Lingüística Computacional que dirige Octavio Santana, catedrático de Lenguajes y Sistemas Informáticos.
   El tema del tratamiento informatizado del lenguaje forma parte del imaginario social en torno a lo que deben conseguir los ordenadores en un futuro más o me nos inmediato: lograr que nos podamos dirigir a ellos en eso que llamamos "lenguaje natural" y, además, que los programas nos ayuden con otencialidades lingüísticas como diccionarios de sinónimos y antónimos, análisis de textos, traducción automática y todo aquello que nos pueda ser útil para superar la torre de babel de los lenguajes que tantas veces nos separan.
   Aún no siendo mi especialidad, a lo largo de los años he tenido la oportunidad de conocer e interesarme por diversos proyectos de investigación en el tratamiento informatizado del lenguaje. Las más de las veces se trata de proyectos de gran ambición pero que, ¡ay!, no siempre obtienen resultados concretos que me parezcan útiles.
   No ocurre así con el trabajo del Grupo de Estructuras de Datos y Lingüística Computacional con resultados probados y espectaculares. Evidentemente, aunque yo lo ignorase hasta junio, el grupo dispone de una página Web (http://protos.dis.ulpgc.es) para difundir los resultados de sus investigaciones. En ella se permite, in cluso, que todo el mundo pueda operar y probar discrecionalmente su más reciente resultado: un procesador morfológico para todas las formas del español ( FLAPE en http://protos.dis.ulpgc.es/morfolog-/morfolog.htm).
   Una lengua como el español dispone de una serie de formas canónicas ( casa, azul, leer, etc. ) que pueden resultar flexionadas y derivadas por múltiples causas: variaciones de género y número en los sustantivos, adjetivos, artículos y participios verbales; conjugación de verbos; derivaciones apreciativas; diminutivos y superlativos; y un largo etcétera que el grupo de Octavio Santana conoce y domina hoy a la perfección.
   La realidad es que, según cálculos del Grupo, las 124.444 formas canónicas distintas disponibles  procedentes de diversos diccionarios) se convierten al flexionarlas y derivarlas en un universo de más de 3.300.000 formas no verbales; 1.000.000 de formas conjugadas simples y otras tantas compuestas; y hasta unos 20.000.000 de formas verbales al incorporar uno, dos, o tres pronombres enclíticos. Nuestro cerebro, entrenado tras largos años de aprendizaje, es capaz de operar con todas esas formas y reconocerlas, pero su simple almacenaje rutinario, imprescindible si no se dispusiera de un programa como FLAPE, ocuparía seguramente más de treinta gigabytes.
   Con FLAPE no hace falta almacenarlo todo, bastan las formas canónicas, las reglas de formación de flexiones y derivaciones y las siempre tan abundantes excepciones. FLAPE es un lematizador que, dada cualquier palabra del español, identifica la forma canónica de la que procede con indicación de su categoría gramatical y la flexión o derivación. También, en sentido contrario, puede operar como un flexionador capaz de generar una determinada forma flexionada o derivada a partir de la forma canónica. Quien lo desee puede probarlo.
   Un proyecto hoy ya operativo que puede ser la primera piedra sobre la cual construir cualquier procesador de lenguaje natural. Hay aplicaciones inmediatas en la enseñanza de la lengua, el manejo de diccionarios, la creación de motores para búsquedas textuales, el análisis y la generación de texto, etc.
   En concreto, muy pronto va a estar también en Internet el Analizador de Textos que prepara el Grupo de Estructuras de Datos y Lingüística Computacional de Canarias.
   Una investigación en informática que, tal vez excepcionalmente, da sus frutos concretos y los pone al alcance de todos. Y también nos permite sorprendernos de cómo un dispositivo como nuestro cerebro es capaz de poner orden en la escalofriante multiplicidad de formas de las palabras con las que nos expresamos cada día. Si herramientas como el FLAPE nos pueden sorprender, todavía sigue haciéndolo eso que tal vez pronto acabemos llamando el "cerebro natural"...


144 BYTE