Extracción Automática de Nexos Léxicos

Autora: Isabel Sánchez Berriel

Director: Octavio Santana Suárez

Codirector: José R. Pérez Aguiar

Resumen:

Las colocaciones son combinaciones recurrentes de palabras cuyo significado no es totalmente composicional, sino que uno de sus elementos selecciona una acepción especial en el otro. Además cabe destacar que el nexo no se establece entre palabras aisladas sino que lo hace entre grupos semánticos. El trabajo de investigación se centra en la detección automática de colocaciones léxicas del español, dentro del campo de la lingüística computacional. Por una parte se analiza el estado del arte, tanto desde el punto de vista lingüístico como del enfoque estadístico para la extracción automática. Se procede a la extracción de colocaciones de un corpus extenso mediante técnicas basadas en las frecuencias de palabras, dándose soluciones a la inestabilidad que producen las marcadas diferencias entre las frecuencias de uso de las distintas palabras en el corpus. Por una parte, se diseña una metodología de análisis centrada en la palabra, y por otra se definen nuevos indicadores, las propuestas se orientan de modo que sean válidas en corpus menos extensos. Se hace necesario también establecer grupos de palabras con cierta similitud semántica, con los que se establece el vínculo; se enfoca el estudio hacia la determinación de clases semánticas entre los elementos que combinan con una determinada palabra, se lleva a cabo un repaso de las técnicas que permiten extraer tales grupos de forma automática. Se opta por adaptar el indicador asociación de selección (Resnik, 1997), que mide el vínculo entre un grupo de argumentos y su predicado, utilizando para evaluarlos diccionarios ideológicos del español. Producto de la investigación es una herramienta de consulta de la combinatoria del español, especialmente útil para investigaciones lingüísticas.

Descargar la tesis en formato pdf (3113Kb)

25 - Septiembre - 2015