Extracción Automática de Nexos Léxicos
Autora: Isabel Sánchez Berriel
Director: Octavio
Santana
Suárez
Codirector:
José R. Pérez
Aguiar
Resumen:
Las colocaciones son combinaciones recurrentes de palabras cuyo significado no es totalmente composicional,
sino que uno de sus elementos selecciona una acepción especial en el otro. Además cabe destacar que el
nexo no se establece entre palabras aisladas sino que lo hace entre grupos semánticos. El trabajo de
investigación se centra en la detección automática de colocaciones léxicas del
español, dentro del campo de la lingüística computacional. Por una parte se analiza
el estado del arte, tanto desde el punto de vista lingüístico como del enfoque estadístico
para la extracción automática. Se procede a la extracción de colocaciones de un corpus
extenso mediante técnicas basadas en las frecuencias de palabras, dándose soluciones a la
inestabilidad que producen las marcadas diferencias entre las frecuencias de uso de las distintas palabras
en el corpus. Por una parte, se diseña una metodología de análisis centrada en la palabra,
y por otra se definen nuevos indicadores, las propuestas se orientan de modo que sean válidas en corpus
menos extensos. Se hace necesario también establecer grupos de palabras con cierta similitud
semántica, con los que se establece el vínculo; se enfoca el estudio hacia la determinación
de clases semánticas entre los elementos que combinan con una determinada palabra, se lleva a cabo
un repaso de las técnicas que permiten extraer tales grupos de forma automática. Se opta por
adaptar el indicador asociación de selección (Resnik, 1997), que mide el vínculo
entre un grupo de argumentos y su predicado, utilizando para evaluarlos diccionarios ideológicos
del español. Producto de la investigación es una herramienta de consulta de la combinatoria del
español, especialmente útil para investigaciones lingüísticas.
Descargar la tesis en formato pdf (3113Kb)
25 - Septiembre - 2015