Reconocimiento y Generación de Palabras Compuestas en Español
Autora: Virginia Gutiérrez Rodríguez
Director: Octavio
Santana
Suárez
Codirector:
José R. Pérez
Aguiar
Resumen:
Los avances científicos, tecnológicos y la propia dinámica social, hace que
los hablantes creen expresiones y formas de nuevo cuño, factores representativos de una
genuina modalidad de creación léxica. Disponer de procesos automáticos que
permitan crear nuevas palabras a partir de elementos existentes favorece el dinamismo
lingüístico, reflejo de los cambios que tienen lugar en la lengua española.
Uno de los medios con los que cuenta la lengua española para ampliar el conjunto de voces
del idioma consiste en la utilización de mecanismos de tipo morfológico para formar
neologismos: la composición es, sin duda, uno de los procesos de formación de
palabras de mayor importancia de los que dispone la lengua para la renovación y enriquecimiento
del léxico, aunque haya recibido escaso tratamiento por parte de la bibliografía.
La composición se basa en coordinar o interaccionar específicamente dos o más
lexemas, o raíces cultas, para formar una nueva palabra que compone una unidad semántica
y sintáctica. En esta Tesis se estudian únicamente aquellos casos en los que la palabra
compuesta se ha consolidado como la unión gráfica de los elementos que la producen de
forma regular o irregular. La metodología empleada consiste en extraer de diferentes fuentes
léxicas los distintos compuestos y se examina los mecanismos aplicados para establecer su
comportamiento morfosemántico y su generación. Se obtiene así un conjunto de
reglas, de formación y cambio gráfico, y sus excepciones que permiten el reconocimiento
y la generación automática de palabras compuestas, construidas a partir del comportamiento
mayoritario observado. Se exponen las normas aplicadas que se inducen a partir de la realidad en
exploración que permitan solventar barreras lingüísticas a través del
dominio informático y que pongan de manifiesto las irregularidades que afloren en el tratamiento.
La investigación se fundamenta en un corpus con una cantidad significativa de compuestos,
alrededor de 11 000, que provienen de diversos repertorios lexicográficos de la lengua española.
Se hacen imprescindibles unos procesos automáticos que sean capaces de identificar las palabras
interesadas y situarlas en un contexto lingüístico adecuado.
Descargar la tesis en formato pdf (3601Kb)
9 - Marzo - 2016