![]() |
![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]() |
Seminario
temático La
educación en la naciente sociedad de la información |
Resúmenes de las intervenciones de los ponentes
Xavier Gómez Guinovart
Seminario de Lingüística Informática (SLI)
Facultade de Humanidades, Universidade de Vigo
Correo electrónico: jgomez@uvigo.es
URL: http://www.uvigo.es/webs/h06/webh06/sli/Investigación y formación en lingüística informática
La lingüística informática en el currículum académico universitario. Dimensión interdisciplinaria y plurilingüe de la especialidad. Recursos lingüísticos y herramientas informáticas en la investigación y formación en lingüística informática.
1. Ámbito de la lingüística informática
- Informática aplicada a la lingüística
- Lingüística computacional
- Ingeniería lingüística, procesamiento del lenguaje natural e industrias de la lengua
2. Aplicaciones lingüísticas de la informática
- Herramientas de ayuda a la escritura
- Herramientas de ayuda a la traducción
- Aplicaciones de las tecnologías del habla
- Sistemas de gestión documental
- Aplicaciones didácticas para la enseñanza de lenguas
- Sistemas de diálogo
3. Dimensión interdisciplinaria y plurilingüe de la lingüística informática
- Relación con otras disciplinas: inteligencia artificial; lingüística teórica; psicolingüística; lingüística aplicada; ingeniería de telecomunicaciones; ciencias de la documentación; traductología; didáctica de las lenguas; análisis del discurso; lexicografía
- La lingüística informática en la sociedad de la información
4. La lingüística informática en el currículum académico universitario
- La lingüística informática en los planes de estudio
- La lingüística informática en los programas de doctorado y en la investigación
5. Recursos lingüísticos y herramientas informáticas en la investigación y formación en lingüística informática
Octavio Santana y José R. Pérez Aguiar
Grupo de Estructura de Datos
Departamento de Informática y Sistemas, Universidad de Las Palmas de Gran Canaria
Correo electrónico: osantana@dis.ulpgc.es
URL: http://protos.dis.ulpgc.es/~osantana/
http://protos.dis.ulpgc.es/Exposición y demostración de un flexionador y lematizador automático
La aplicación informática que se presenta lematiza cualquier palabra del español al identificar su forma canónica, categoría gramatical y la flexión o derivación que la produce, y obtiene las formas correspondientes a partir de una forma canónica y de la flexión o derivación solicitada; tanto el reconocimiento como la generación operan sobre una misma estructura de datos, recorrerla en sentidos contrarios implica que la herramienta funcione en una u otra modalidad. En los verbos, trata la conjugación simple y compuesta, la aparición de pronombres enclíticos, la flexión del participio como adjetivo verbal (género, número, grado superlativo y adverbialización) y el diminutivo del gerundio. Con las formas no verbales, considera: género y número en los sustantivos, adjetivos, pronombres y artículos; heteronimia por cambio de sexo en los sustantivos; grado superlativo en los adjetivos y adverbios; adverbialización del superlativo en los adjetivos; derivación apreciativa en los sustantivos, adjetivos y adverbios; formas canónicas múltiples en todas las categorías gramaticales; formas invariantes tales como preposiciones, conjunciones, exclamaciones, palabras de otros idiomas y locuciones o frases. El sistema incluye derivación con cambio de categoría gramatical entre verbos, sustantivos y adjetivos y composición por prefijación.
El universo de trabajo contiene todas las entradas del Diccionario de la Lengua Española de la Real Academia Española, del Diccionario General de la Lengua Española Vox, del Diccionario de Uso del Español de María Moliner, del Gran Diccionario de la Lengua Española de Larousse Planeta, del Diccionario de voces de uso actual dirigido por Manuel Alvar Ezquerra, del Gran Diccionario de Sinónimos y Antónimos de Espasa-Calpe y del Dicionario ideológico de la lengua española de Julio Casares.
Maria Antònia Martí
Laboratori d'Investigació en Lingüística Computacional (LaReLC-UB) y Centre de Lingüística i Computació (CLiC)
Àrea de Lingüística General
Departament de Filologia Romànica, Facultat de Filologia
Universitat de Barcelona
Correo electrónico: amarti@lingua.fil.ub.es
URL: http://www.ub.es/ling/tonicat.htm
http://www.ub.es/ling/labcas.htm
http://www.ub.es/ling/clic.htmRecursos lingüísticos para la enseñanza de segundas lenguas
Presentación de diversos recursos lingüísticos del castellano
- Analizador morfológico y lematizador
- Parentizador sintáctico
- Red léxico-conceptual
- Aplicaciones de dichos recursos para el desarrollo de material orientado al aprendizaje de lenguas.
MACO- Analizador morfológico de la lengua española 1
1. Introducción
MACO (Atserias et al.) es una analizador de la lengua española desarrollado por el Laboratori de Recerca en Lingüística Computacional de la Universitat deBarcelona y por el grupo de Lenguaje Natural de la Universitat Politécnica de Catalunya.
MACO puede utilizarse tanto para analizar textos como para generar formas a partir de un lema o de una raíz. El sistema trata diversos tipos de unidades:
Formas simples: gato, solía, cantaré, ...
Formas complejas: mientras que, en tanto que, verlo, ...
Nombres propios
FechasLa cobertura actual del sistema es aproximadamente de un millón de formas, que se obtienen a partir de 100.000 raíces que corresponden a unos 93.000 lemas. El número de raíces es superior al de lemas ya que algunos lemas tienen más de una raíz:
lema: volver
raíces: volv- vuelv- vuelt-Los lemas corresponden a 12.000 verbos, 80.000 nombres y adjetivos y 1.000 preposiciones, adverbios, conjunciones y deteminantes.
2. Organización interna
El sistema está organizado internamente en un diccionario de raíces, un diccionario de sufijos y un conjunto de reglas de combinatoria de los mismos. Cada una de las raíces y sufijos tiene asociado un modelo de flexión. Las reglas indican que combinaciones de modelos son las corectas.
Estructura del diccionario de Raíces
Raíz Modelo Lema dorm- M1 dormir duerm- M2 dormir durm- M3 dormir salt- M4 saltar am- M4 amar zurr- M4 zurrar ventan- NF ventana Como se puede observar, las raíces que comparten un mismo paradigma flexivo tienen el mismo modelo. Cuando un verbo tiene más de una raíz, cada una de las raíces tiene un modelo distinto.
En el diccionario de sufijos se indica, para cada sufijo, su número de interpretación, el modelo y los atributos asociados al sufijo:
Sufijo Modelo Atributos 2 -o 1 IP P =1 T=P N=S -o 2 MS G=M N=S -a 1 IP P =3 T=P M=I N=S -a 2 IMP P=2 M=IMP N=S -a 3 FA G=F N=S -as 1 FA G=F N=PL Las reglas del analizador indican que el modelo de raíz M4 combina con los modelos de sufijo IP e IMP, que MF combina con FA, etc. De esta manera las reglas constituyen generalizaciones sobre comportamiento morfológico, especificando las características de los paradigmas flexivos.
3. Resultados del proceso de análisis
Como resultado del proceso de análisis se obtienen todas las interpretaciones posibles de cada forma, sin tener en cuenta el contexto:
bajo VM1PIS 3 bajar ACMS 4 bajo NCMS 5 bajo P 6 bajo rueda VM3PIS rodar NCFS rueda El analizador puede utilizarse asociado a un desambiguador, de manera que se tiene en cuenta el contexto y sólo se obtiene la interpretación correspondiente al contexto en que se encuentra la forma. Así, en la frase "La rueda rueda bajo el camión" como resultado del proceso de análisis obtenemos todas las interpretaciones posibles para cada forma:
La PP3FS ARTFS rueda VM3PIS NCFS rueda VM3PIS NCFS bajo VM1PIS ACMS NCMS P el ARTMS camión NCMS y una vez aplicado el desambiguador sólo se obtiene la interpretación correcta en el contexto:
La ARTFS rueda NCFS rueda VM3PIS bajo P el ARTMS camión NCMS 4. Acceso a los datos
Los diccionarios de raíces y sufijos y las reglas estan indexados de manera que se puede acceder a ellos para realizar consultas o bien para actualizarlos. Las consultas se realizan mediante una interfaz y se pueden obtener datos del tipo siguiente:
Todas las raíces que pertenecen a un mismo modelo flexivo;
El listado de lemas verbales /nominales ...;
El listado de sufijos, de raíces o modelos que cumplen una determinada condición, como tener el atributo CAT =N o bien CAT= VERBO, GEN=F, etc;
Todas las raíces asociadas a un determinado lema;
etc.5. Aplicaciones
El analizador morfológico se puede utilizar para el etiquetado morfosintáctico y lematización de corpus:
La [la-ARTFS] cena [cena-NCFS] se celebra [celebrar-VMPI1S] a [a-P] las [la-ARTFP] 7 [Z]
Además de esta aplicación básica, como los datos que constituyen el analizador están estructurados en un formato de base de datos, se dispone de una clasificación morfológica del léxico que se puede utilizar para la consulta de profesores y alumnos de español como segunda lengua.
Las consultas pueden estar orientadas a la elaboración de material didáctico o a la obtención de datos sobre la morfologia del español.
Notas
1 Demostración del sistema: http://nipadio.lsi.upc.es/cgi-bin/demo.pl
2 P persona; N número; T tiempo; G género; M masculino; F femenino; 1, 2, 3 son los valores de P; M modo.
3 VM1PIS, verbo principal (VM) primera persona (1) del presente (P) de indicativo (I) singular (S).
4 ACMS, adjetivo (A), calificativo (C), masculino (M), singular (S).
5 CMS, nombre común (NC), masculino, singular.
6 P, preposición.
7 CAT, categoría.Referencias
Jordi Atserias, J. Carmona, Irene Castellón, Sergi Cervell, Montserrat Civit, Lluís Márquez, M. Antònia Martí, Lluís Padró, y Mariona Taulé, Jordi Turmo (1998) "An Environment for Morphosyntactic Processing of Unrestricted Spanish Text." In Proceedings of 1st International Conference on Language Resources and Evaluation, LREC'98. Granada, Spain.
José Simón Granda
Departamento de Filología Moderna
Facultad de Filosofía y Letras
Universidad de Alcalá de Henares
Correo electrónico: jsg38746@teleline.es
URL: http://www.alcala.es/investigacion/Mem95-96/Memoria/filomod.htmHerramientas auxiliares para la confección de materiales didácticos
Nuestro trabajo, tanto en la universidad como en TECNOLINGUA, se encamina fundamentalmente a la explotación de corpora textuales con miras a la elaboración de materiales para la enseñanza de lenguas: diccionarios monolingües y bilingües, gramáticas y métodos, tanto en su formato tradicional, como en soporte electrónico (CD e Internet). En esta comunicación presentaremos las herramientas básicas que hemos preparado en estos años, así como los primeros productos editoriales que se han elaborado con nuestra tecnología o que hacen uso de la misma:
- IntelLex, sistema de consulta de diccionarios que combina, además de las búsquedas en listas convencionales, búsqueda con lematización y generación de alternativas ortográficas, así como remisión hipertextual automática para todo el diccionario.
- Concorde, sistema de indexación y elaboración de concordancias para grandes volúmenes de texto.
- TlTag, sistema automático de etiquetado morfo-sintáctico que combina procedimientos estadísticos de decisión con reglas
- InterLex, proyecto MLIS-103 que tiene por objetivo la elaboración de bases de datos terminológicas y lexicográficas multilingües a partir de diccionarios convencionales para su publicación electrónica, en CD y en Internet.
Santiago Aguilera
Laboratorio de Tecnología de la Rehabilitación
Departamento de Ingeniería Electrónica, Escuela Técnica Superior de Ingenieros de Telecomunicación
Universidad Politécnica de Madrid
Correo electrónico: aguilera@die.upm.es
URL: http://ltr.die.upm.es/Santiago.htm
http://ltr.die.upm.es/Sistemas para el aprendizaje de la fonética y la redacción de textos
Santiago Aguilera Navarro, José Lázaro Rodrigo Mateos, Sira E. Palazuelos Cagigas
{aguilera,rodrigo,sira}@die.upm.es
Laboratorio de Tecnología de Rehabilitación, ETSI de Telecomunicación, Universidad Politécnica de MadridDespués de trabajar durante años en la Tecnología del Habla aplicada a la realización de ayudas para personas discapacitadas, hemos comprobado que algunos de estos sistemas pueden ser utilizados, bien sea directamente o con pequeñas modificaciones, a la enseñanza de segundas lenguas. Este es el caso de los dos ejemplos que vamos a describir.
1. Sistema para entrenamiento de voz
Este sistema extrae y representa en tiempo real parámetros de la voz que nos permiten evaluar su "Calidad", unos fácilmente controlables como Energía, Tono Fundamental, etc. y otros de no tan fácil control como por ejemplo Trayectoria de Formantes.
En la actualidad utiliza una tarjeta de proceso digital de señal conectada a un PC, aunque con la potencia de cálculo de los actuales ordenadores personales, se podrían hacer aplicaciones que no necesitasen de este accesorio.
Con este sistema se hacen ejercicios de imitación de patrones o de control de videojuegos mediante voz, con sus correspondientes métodos de comparación de resultados, que le dan al usuario una medida de la calidad de su emisión.
2. Sistema de predicción de palabras
La predicción de palabras es una parte de la lingüística computacional, que consiste en lograr predecir una palabra que está siendo escrita por el usuario. Se basa en el carácter o caracteres ya escritos de la palabra en curso y en cierta información (gramatical, estadística, etc.) asociada a las palabras anteriores. Ej: Si el usuario ha escrito "La ca", el sistema propondrá: casa, calidad, etc.
En una primera etapa se ideó para facilitar la escritura de textos, sobre un ordenador, a personas con graves problemas de movilidad. Al elegir una palabra predicha, se reducirá el número de pulsaciones necesarias para escribir el texto, disminuyendo el número de movimientos del usuario que son, en muchas ocasiones, lentos y difíciles.
En nuestro sistema, utilizamos una combinación de mecanismos de predicción, integrando métodos puramente estadísticos y adaptativos (que aprenden del usuario), con métodos basados en reglas gramaticales. Se trabaja con el léxico de un diccionario predeterminado, en el que están incluidas todas las palabras del sistema con su información gramatical y una información estadística inicial.
El método más sencillo está basado en estadísticas realizadas sobre un corpus reducido del español, considerando solamente las frecuencias absolutas de las palabras, prediciendo en cada momento las palabras más probables que comiencen por las letras escritas desde el último separador. Este método es efectivo, ya que predice en alto grado las palabras más frecuentes, pero muchas de las predicciones resultan incorrectas gramaticalmente, y obstaculizan la aparición de otras palabras.
Los métodos gramaticales realizan un filtrado sobre las palabras antes de mostrarlas. Combinamos dos métodos gramaticales distintos:
Estadísticos: en los que basándose en la categoría de las dos palabras anteriores, se averigua la probabilidad de que la palabra deseada pertenezca a una determinada categoría. Se muestran solamente palabras pertenecientes a las categorías adecuadas.
Reglas declarativas: en estos métodos el filtrado se realiza según se vayan satisfaciendo tales reglas.
Los métodos adaptativos son los más eficaces, y se basan en información obtenida del propio usuario. Analizan los textos escritos aprendiendo el estilo del usuario, incorporando las palabras nuevas a los diccionarios, recalculando las frecuencias, y almacenando secuencias (bigramas y trigramas) de palabras. El sistema aprende a medida que se escribe el texto, y además puede utilizar textos previamente escritos para generar diccionarios temáticos.
3. Módulo de español como lengua extranjera
El hecho de presentar ante el usuario la palabra que desea escribir, abre la puerta de la aplicación del motor predictivo a la enseñanza de lenguas como un pre-corrector ortográfico. El sistema puede ir pre-corrigiendo las opciones del alumno según va escribiendo y así por ejemplo simplemente resolverle la duda de si una palabra se escribe con g o j, b o v, s o z, etc.
A partir de estas reflexiones se ha presentado en nuestro proyecto un módulo de español como lengua extranjera (MELE) tanto para personas discapacitadas como para el público en general.
El motor predictivo se utiliza en varias líneas de trabajo a la hora de desarrollar plantillas de ejercicios. En ejercicios de redacción, dictados o creación de texto escrito, cuando un alumno se enfrenta a la escritura de una palabra con un problema determinado, fundamentalmente ortográfico. Al seleccionar la palabra propuesta, se presenta al usuario la opción de tener una explicación de la regla ortográfica con sus correspondientes ejercicios. Así podemos tratar, por ejemplo, las formas flexivas de verbos irregulares.
En ejercicios de creación de texto guiando al alumno con un determinado conjunto de palabras o estructuras, se le presenta un seguimiento de las reglas que la escritura del enunciado va satisfaciendo y las categorías que se esperan en un determinado momento, es decir se le presenta un análisis. Así podemos tratar, por ejemplo, ciertos casos de los usos de subjuntivo, preposiciones etc.
MELE no está concebido como un método más para aprender español, multimedia o interactivo, sino que a partir de la experiencia multidisciplinar de nuestro equipo, tanto en ingeniería como en lingüística y enseñanza de ELE, preparamos una herramienta abierta a las necesidades concretas de cada profesor en cada situación particular, de tal manera que el profesor puede preparar sus propias clases interactivas con el alumnado, sin por ello tener que saber informática.
MELE consta de una serie de temas, ordenados por niveles en los que se encuentra una explicación teórica seguida de una serie de ejercicios predeterminados, tal y como los puede utilizar un alumno.
Pero además, MELE dará al profesor no sólo la oportunidad de corregir los ejercicios del alumno y de ayudarle a evaluarlos, sino que presenta al profesor de ELE la oportunidad de crear sus propias explicaciones y crear sus propios ejercicios.
Pedro Gómez Vilda
Laboratorio de Tecnología de Computadores
Departamento de Arquitectura y Tecnología de Sistemas Informáticos (DATSI), Facultad de Informática
Universidad Politénica de Madrid
Correo electrónico: pedro@pino.datsi.fi.upm.es
URL: http://tamarisco.datsi.fi.upm.es/PEOPLE/pgomez.html http://tamarisco.datsi.fi.upm.es/Potencial de las representaciones visuales de la voz en enseñanza asistida del lenguaje
Se revisan los diferentes tipos de representaciones visuales que pueden producirse a partir de la traza de voz, tanto en el dominio del tiempo como en el de la frecuencia, y del tipo de información que se obtiene de las mismas, bien en forma directa, bien por medio de su adecuada interpretación.
Se analizan asimismo las posibilidades de que dichas representaciones puedan utilizarse en la enseñanza asistida por computador de la articulación fonética y prosódica, tanto en el caso de una segunda lengua para usuarios de tipo general, como en el caso de la lengua materna para usuarios discapacitados.
Se analizan las razones por las que este tipo de representaciones no son adecuadas para tales aplicaciones, a causa del desajuste semántico existente entre la representación visual y la capacidad de asimilación simbólica del usuario no experto. Como solución se propone el uso de representaciones sobre un plano x-y, compuestas a partir de la detección de los primeros formantes de la voz. Estas representaciones no son directamente interpretables por el usuario, pero permiten ser adaptadas a un tipo de Interfaz de Videojuego controlada por mando microfónico.
Estas ideas han sido desarrolladas en el entorno de varios proyectos de investigación con financiación de fondos nacionales y europeos, de entre los que se ha destacado ALAS (Aprendizaje de Lenguas con Asistencia Sonora). Se pasa una breve revista a los objetivos del proyecto, y se presenta el prototipo de interfaz de representación visual incorporado en el mismo, que desarrolla el concepto de retroalimentación microfónica.
Para más información:
Observatorio Español de Industrias de la Lengua
Instituto Cervantes
Libreros, 23
28801 Alcalá de Henares, Madrid
Teléfono: 91 888 72 94
Fax: 91 888 18 26
Correo electrónico: euromap@cervantes.es