Reconocimiento y Generación de Palabras Compuestas en Español

Autora: Virginia Gutiérrez Rodríguez

Director: Octavio Santana Suárez

Codirector: José R. Pérez Aguiar

Resumen:

Los avances científicos, tecnológicos y la propia dinámica social, hace que los hablantes creen expresiones y formas de nuevo cuño, factores representativos de una genuina modalidad de creación léxica. Disponer de procesos automáticos que permitan crear nuevas palabras a partir de elementos existentes favorece el dinamismo lingüístico, reflejo de los cambios que tienen lugar en la lengua española. Uno de los medios con los que cuenta la lengua española para ampliar el conjunto de voces del idioma consiste en la utilización de mecanismos de tipo morfológico para formar neologismos: la composición es, sin duda, uno de los procesos de formación de palabras de mayor importancia de los que dispone la lengua para la renovación y enriquecimiento del léxico, aunque haya recibido escaso tratamiento por parte de la bibliografía.
La composición se basa en coordinar o interaccionar específicamente dos o más lexemas, o raíces cultas, para formar una nueva palabra que compone una unidad semántica y sintáctica. En esta Tesis se estudian únicamente aquellos casos en los que la palabra compuesta se ha consolidado como la unión gráfica de los elementos que la producen de forma regular o irregular. La metodología empleada consiste en extraer de diferentes fuentes léxicas los distintos compuestos y se examina los mecanismos aplicados para establecer su comportamiento morfosemántico y su generación. Se obtiene así un conjunto de reglas, de formación y cambio gráfico, y sus excepciones que permiten el reconocimiento y la generación automática de palabras compuestas, construidas a partir del comportamiento mayoritario observado. Se exponen las normas aplicadas que se inducen a partir de la realidad en exploración que permitan solventar barreras lingüísticas a través del dominio informático y que pongan de manifiesto las irregularidades que afloren en el tratamiento. La investigación se fundamenta en un corpus con una cantidad significativa de compuestos, alrededor de 11 000, que provienen de diversos repertorios lexicográficos de la lengua española. Se hacen imprescindibles unos procesos automáticos que sean capaces de identificar las palabras interesadas y situarlas en un contexto lingüístico adecuado.

Descargar la tesis en formato pdf (3601Kb)

9 - Marzo - 2016