Grupo de Estructuras de Datos
y Lingüística Computacional
Libros publicados por el GEDLC
[-] Relaciones morfoléxicas parasintéticas para el procesamiento del lenguaje natural.
Santana, O.; Carreras, F.; Pérez, J.
Editorial MILETO; ISBN: 84-95282-96-8. Madrid, 2006.
Número de páginas: 156.
Dejando a un lado las disquisiciones teóricas, el componente de la lengua en el que “se fabrican” nuevos significantes para nuevos significados, viene a ser una encrucijada entre los dominios de la morfología (derivativa), la sintaxis y la fonología. Todos ellos coadyuvan en el proceso de formación de las unidades léxicas que se integrarán, una vez creadas, en el componente léxico o lexicón. El potencial creativo que estos procedimientos morfoléxicos tienen y su importancia para el mantenimiento de la vitalidad del idioma han quedado demostrados ampliamente en los diversos estudios que se han realizado a este propósito, pero nunca con tanta precisión y visión de futuro, en cuanto a sus posibles aplicaciones se refiere, como en los trabajos que el Grupo de Estructuras de Datos y Lingüística Computacional (GEDLC) de la Universidad de Las Palmas de Gran Canaria ha venido realizando a lo largo de estos últimos años. De hecho, el presente estudio es el tercero de un conjunto de trabajos que el GEDLC ha dedicado a la morfología derivativa del español. Si en los dos anteriores se abordaban las relaciones morfoléxicas prefijales y sufijales, en este último el objeto de estudio son los procedimientos morfológicos conocidos como “parasíntesis”, es decir, aquellos que permiten crear una unidad léxica nueva mediante la incorporación simultánea de un prefijo y un sufijo a una base léxica o palabra ya dada.

Carátula y prólogo

[-] Relaciones morfoléxicas prefijales para el procesamiento del lenguaje natural.
Santana, O.; Carreras, F.; Pérez, J.
Editorial MILETO; ISBN: 84-95282-92-5. Madrid, 2005.
Número de páginas: 116.
Este libro es el fruto de la continuidad de las investigaciones realizadas por el GEDLC, en el campo de la morfología derivativa. Las relaciones que se presentan ponen en evidencia, desde el punto de vista del tratamiento del lenguaje natural, la necesidad de ampliar el estudio mofoléxico de las palabras del español, primero a las relaciones prefijales, posteriormente, a las relaciones parasintéticas y, por último, a otros mecanismos de formación de palabras del español menos frecuentes. Este libro expone una taxonomía de los prefijos encuadrados en la morfología derivativa (aquellos que matizan el significado de la base a la que se añaden, sin aportar una fuerte carga semántica al resultado final) deducidos a partir de un corpus de 148
798 formas canónicas. Se describen las características morfoléxicas asociadas a cada prefijo aptas para el procesamiento del lenguaje natural --en ocasiones, no tienen por qué coincidir con criterios lingüísticos en sentido estricto. Se detallan los significados que aporta, las reglas de formación establecidas, las irregularidades y las excepciones.

Carátula y prólogo

[-] Relaciones morfoléxicas sufijales para el procesamiento del lenguaje natural.
Santana, O.; Carreras, F.; Pérez, J.
Editorial MILETO; ISBN: 84-95282-91-7. Madrid, 2004.
Número de páginas: 178.
En este libro, se presenta una taxonomía de los sufijos derivativos y terminaciones usadas en español, útiles para el establecimiento de relaciones morfoléxicas, deducidas a partir de un corpus de 134
109 formas canónicas. Se describen las características morfoléxicas asociadas a cada sufijo y terminación aptas para el procesamiento del lenguaje natural --en ocasiones, no tienen por qué coincidir con criterios lingüísticos en sentido estricto. Se detalla la transcategorización de cada sufijo o terminación, los significados que aporta, las reglas de formación establecidas, las irregularidades y las excepciones.

Carátula y prólogo

[-] Manual de la conjugación del español. 12 790 verbos conjugados.
Santana, O.; Carreras, F.; Hernández, Z.; Pérez, J.; Rodríguez, G.
Editorial ARCO/LIBROS, S.L.; ISBN: 84-7635-507-6. Madrid, 2002.
Número de páginas: 352.
Este libro pretende ayudar al lector en la conjugación de cualquier verbo del español. La estructura de la obra permite encontrar con facilidad un verbo y su correspondiente modelo de conjugación. Se proponen 117 modelos que caracterizan, con gran detalle, todas las variaciones de la conjugación verbal, abarcando las variaciones gráficas de todo tipo, incluyendo las más pequeñas, como son los cambios de las tildes acentuales. Los 12790 verbos considerados recogen los verbos en uso (bien es verdad que en algunos casos muy reducido) de las principales fuentes léxicas del español.
Este libro se divide en dos partes: los modelos de conjugación y la relación alfabética de todos los verbos. En cada modelo se llama la atención sobre sus peculiaridades y se muestran los tiempos simples y compuestos del paradigma. La lista de verbos incluye: su modelo de conjugación, la categoría gramatical y los participios que no siguen el modelo.

Carátula y prólogo

Artículos publicados por el GEDLC

  Estudio de los neologismos compositivos en español para la automatización de su reconocimiento.
Santana-Suárez, O.; Pérez-Aguiar, J.; Gutiérrez-Rodríguez, V.
Lingüística Española Actual, XXXIX/1. Ed. Arco/Libros-La Muralla, S.L. ISSN: 0210-6345
127/147.
2017.
Compounding is, without a shadow of a doubt, one of the most fruitful word-formation mechanisms language has in order to produce new lexical units, words and turns of phrase. Technological and scientific progress, together with the proliferation of online social networking services and multi-platform information services, has brought about a process of lexical expansion in Spanish, which favours the creation of morpho-syntactic neologisms and, more specifically, composite neologisms. In spite of the transcendence of this situation, no reference works have been found in the field of automated compounding in this language. This circumstance has prompted the need for automated processes capable of recognizing any such words and place them in the appropriate morphological/semantic context. It is hence necessary to define automatic processes capable of identifying and creating compounds, as well as placing them in the correct linguistic context. It present an investigation based on information obtained from the BOBNEO neologisms database, in order to establish what the most successful training procedures in creating neologisms. This paper reports on the monitoring of ARGCoS –Automatic Recognition and Generation Compounds in Spanish–, a tool that allows for the identification of groups of two or more simple forms that function as a compound lexical unit, and also for the combination of two or more specific simple/compound forms in order to produce new compounds. It includes a rule dependency graph which enables the user to analyze the compunds’ morpho-syntactic behaviour whilst it reflects the variety of mechanisms that activate in the formation of compounds in Spanish. The research is based on a corpus of about 11 000 compound, collected different lexicographical repertories of the Spanish language.
Descargar PDF(16784Kb)

  ARGCoS: Automatic Recognition and Generation Compounds in Spanish.
Gutiérrez-Rodríguez, V.; Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.
Input a Word, Analyze the World: Selected Approaches to Corpus Linguistics. Ed. Cambridge Scholars Publishing. ISBN (10): 1-4438-8513-4
77/90.
01/01/2016.
Capítulo de libro.

  Visualizing Combinatorial Information of Words in an Extensive corpus of Spanish.
Sánchez-Berriel, I.; Santana-Suárez, O.; Pérez-Aguiar, J.; Gutiérrez-Rodríguez, V.
Input a Word, Analyze the World: Selected Approaches to Corpus Linguistics. Ed. Cambridge Scholars Publishing. ISBN (10): 1-4438-8513-4
201/218.
01/01/2016.
Capítulo de libro.

  Técnicas para la extracción automática de relaciones predicado-argumentos: aplicación en un corpus del español.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.; Gutiérrez-Rodríguez, V.
Lingüística Española Actual, XXXVII/2. Ed. Arco/Libros-La Muralla, S.L. ISSN: 0210-6345
279/303.
2015.
Large volume corpus processing to obtain lexical collocations make evident that the bases combining with a fixed collocate belong to a particular lexical classes. These results can be explained from lexical restriction. A specific base is not the only compatible case for a particular collocate, in contrast, it is selected for its semantic features. This approach corresponds to the idea that the classes of bases for a given collocate are cases of the relationship between a predicate and their arguments. This work aims to automate the extraction of such relationships by using selectional association for grammatical structures: verb + noun, noun + adjective and verb + adverb. The study has been performed in a high-volume corpus in Spanish.
Descargar PDF(15961Kb)

  Outlier Detection in Automatic Collocation Extraction.
Santana-Suárez, O.; Sánchez-Berriel, I.; Pérez-Aguiar, J.; Gutiérrez-Rodríguez, V.
Procedia: Social and Behavioral Sciences, 198. Ed. Elsevier. ISSN: 1877-0428. CrossMark. ScienceDirect (www.sciencedirect.com)
433/441.
2015.
In this paper we have analysed different association measures between words, generally used for the automatic extraction of collocations in textual corpus. Specifically, they have been considered: relative frequency, mutual information, z-score, t-score and Dunning’s test. The volume of handled corpus (300000000 words) requires reviewing of the usual approach to this matter, so a solution that is based on methods used to detect statistical outliers is proposed. It is evident from the results that a lot of free combinations extracted with collocations coming from the comparison of words with very different frequencies of use. For this reason, they are applied considering that each word generates a different sample, instead of generating rankings which come from corpus considered as a single sample. The experiment is also performed on a corpus with a much smaller amount of words and the results are reported so contrasted with those obtained with the full corpus. The conclusions and contributions arising give response automatic extraction of collocations from a textual corpus regardless its volume.
Descargar PDF(740Kb)

  COLEXWEB, herramienta de consulta de las capacidades combinatorias de las palabras del español.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.; Gutiérrez-Rodríguez, V.
Lingüística Española Actual, XXXVI/2. Ed. Arco/Libros S.L. ISSN: 0210-6345
273/295.
2014.
En este trabajo se muestra el análisis de un conjunto de indicadores tradicionalmente utilizados para la extracción automática de colocaciones evaluados sobre un corpus textual extenso que reúne una amplia muestra del español, con un número total de palabras que está en torno a las 300 000 000. Los resultados se contrastan con los que se obtienen por las combinaciones del "Diccionario combinatorio del español contemporáneo. Redes". Como resultado de tal análisis se describe una metodología para la explotación de la información registrada que permite mostrar las propiedades combinatorias de las palabras del español, así como el software que la implementa: COLEXWEB. Se presenta de esta manera una herramienta de consulta sobre las capacidades combinatorias de 96 790 formas canónicas del español.
Descargar PDF(7925Kb)

  Pragmatización en la Automatización del Reconocimiento de Palabras Compuestas en Español.
Santana-Suárez, O.; Pérez-Aguiar, J.; Gutiérrez-Rodríguez, V.
Lingüística Española Actual, XXXV/2. Ed. Arco/Libros S.L. ISSN: 0210-6345
181/201.
2013.
El objetivo del presente trabajo es analizar desde un punto de vista pragmático uno de los procedimientos de formación de palabras más eficaces de la lengua española –la composición– que permita de manera formal y automática tratar neologismos compositivos. Se presentan un conjunto de reglas de carácter léxico y de cambio gráfico para el reconocimiento de compuestos, construidas a partir del comportamiento mayoritario observado en las diversas bases documentales tratadas. Se exponen las normas aplicadas inducidas a partir de la realidad explorada que permiten solventar barreras lingüísticas a través del dominio informático y poner de manifiesto las irregularidades encontradas en su tratamiento. Los mecanismos utilizados para la detección de las reglas atienden a la categoría gramatical del compuesto y a la de sus elementos componentes; con el propósito de garantizar un conocimiento suficiente de la casuística que envuelve a este proceso, se consideran solo aquellos compuestos consolidados o perfectos, donde el grado de fusión de los elementos del compuesto es total.
Descargar PDF(197Kb)

  Reglas de formación de palabras compuestas en español para la automatización de su reconocimiento.
Santana-Suárez, O.; Gutiérrez-Rodríguez, V.; Pérez-Aguiar, J.; Sánchez-Berriel, I.
Procesamiento del Lenguaje Natural, Revista Nº 51. Ed. SEPLN. ISSN: 1135-5948.
75/82.
2013.
En el presente trabajo se recogen las reglas de formación y los criterios de aplicación que se deberían llevar a cabo en cada situación para permitir la identificación automatizada de uno de los procesos de formación de palabras que tiene el español: la composición, se estudian sólo aquellos casos en los que se ha producido dicho fenómeno mediante la unión gráfica de los elementos que participan, con miras a su automatización. A tal fin, se extraen de diferentes diccionarios los distintos compuestos con el propósito de garantizar un conocimiento suficiente de los diferentes casos que se pueden prever de la materia y se estudian los mecanismos de unión aplicados según la categoría gramatical del compuesto y las de sus elementos componentes.
Descargar PDF(703Kb)

 Relevancia de las medidas de asociación evaluadas a partir de un corpus no específico aplicadas a términos económicos.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.; Gutiérrez-Rodríguez, V.
X Congreso de la Asociación Europea de Lenguas para Fines Específicos (AELFE).
2011.
La recopilación automática de los términos utilizados en un determinado campo debe incorporar estrategias que permitan detectar las colocaciones en la especialidad que se trabaje. Las técnicas de extracción automática valoran de forma cuantitativa si el uso de una determinada combinación se debe a la casualidad como indicador de estar ante una combinación libre, o por el contrario refleja indicios de ser una colocación. Por lo general, éstas se basan en la frecuencia con que se usan en algún corpus textual específico del tema que se trate. Sin embargo, en la actualidad se considera la enorme cantidad de documentos textuales disponibles en la Web como una gran muestra en formato electrónico, de fácil acceso pero de lengua general. En este trabajo se analizan los datos extraídos de una colección de 11000 textos que reúne una amplia muestra del español con un número total de palabras que está en torno a los 300 000 000, registrándose en una base de datos sus lemas, junto con las frecuencias de uso individual y conjunta de las combinaciones a una distancia de a lo sumo 5 palabras. El objetivo es determinar la viabilidad del uso de corpus textuales extensos, sin información lingüística, como sucede con los que se pueden compilar a través de Internet como fuente de información para la recopilación de colocaciones terminológicas. Con este propósito se evalúan y analizan las frecuencias relativas, la información mutua, el z-score y el t-score que se obtienen a partir de una colección de términos económicos, con el fin de determinar si el uso de corpus no acotados es viable en la compilación automática de colocaciones terminológicas.

 Automatización de los procesos de lexicalización del español.
Santana-Suárez, O.; Pérez-Aguiar, J.; Gutiérrez-Rodríguez, V.; Sánchez-Berriel, I.
X Congreso de la Asociación Europea de Lenguas para Fines Específicos (AELFE).
2011.
La composición es, sin duda, uno de los procesos formativos más significativos con los que cuenta la lengua para incrementar su léxico. Los avances tecnológicos, científicos o el auge en el uso de nuevos medios de comunicación social, son algunos ejemplos que actúan de catalizadores en estos procesos de cambios. Consiste en hacer de dos o más palabras, llamados elementos componentes, una palabra nueva cuyo significado resulta de las palabras unidas: el valor y significado de la nueva palabra suele ser distinto y más extenso, figuradamente muchas veces, que la suma de los significados de los elementos componentes. En el presente trabajo se muestra el desarrollo de una herramienta lingüística que permite reconocer y generar palabras compuestas, parasintéticas por composición o neologismos compositivos, entre otros procesos de lexicalización, atendiendo a criterios morfológicos, sintácticos y semánticos contemplados en reglas de formación y fonéticas, en las excepciones e irregularidades detectadas en el procesamiento automático de la composición en español.

 Extracción automática de colocaciones terminológicas en un corpus extenso de lengua general.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.; Gutiérrez-Rodríguez, V.
Procesamiento del Lenguaje Natural, Revista Nº 47. Ed. SEPLN. ISSN: 1135-5948.
Septiembre, 2011.
145/152.
Los sistemas automáticos de extracción de términos constituyen una herramienta fundamental cuando se afronta la tarea de compilación del léxico restringido a un campo de especialidad. Los análisis textuales llevados a cabo por este tipo de software deben incorporar estrategias que permitan detectar las colocaciones en la especialidad que se trabaje. En este trabajo se estudia la viabilidad del uso de corpus textuales extensos, sin información lingüística, como sucede con los que se pueden compilar a través de Internet, como fuente de información para la recopilación de colocaciones terminológicas. Con este propósito se analiza el comportamiento de distintos indicadores basados en las frecuencias registradas para una colección de términos económicos en un corpus del español de 300 000 000 palabras.
Descargar PDF(1412Kb)

[-] Functional Disambiguation Using the Syntactic Structures Algorithm for each Functional Interpretation for Spanish Language.
Santana-Suárez, O.; Pérez-Aguiar, J.; Santana-Pérez, I.; Quesada-López, R.
Lecture Notes in Computer Science. Theoretical Computer Science and General Issues. Springer. Vol. 5717 2009 (DOI 10.1007/978-3-642-04772-5). ISSN: 0302-9743 (Print) 1611-3349 (Online). ISBN: 978-3-642-04771-8
Septiembre, 2009.
226/230.

This article presents a disambiguation method that diminishes the functional combinations of the words of a sentence taking into account the context in which they appear. This process uses an algorithm which does the syntactic analysis of every sentence interpretation. In order to control this analysis, a grammar with restrictions has been developed to model the valid syntactic structures of the Spanish language. The main target of our algorithm is the separation between the disambiguation method and the grammar which governs it.
Acceder al artículo

[-] Generación de grupos semánticos para la codificación automática de respuestas abiertas.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.; Gutiérrez-Rodríguez, V.; Díaz-Martín, S.
Actas de la Conferencia IADIS Ibero-Americana. WWW/INTERNET 2009. Alcalá de Henares, Madrid
Octubre, 2009.
431/434.

Actualmente la explotación del contenido semántico de datos se ha convertido en un aspecto de especial relevancia en diversos campos y aplicaciones de las Tecnologías de la Información. A la hora de abordar este problema resulta obligado incorporar los conceptos implicados en la información que se procesa, lo que lleva a la definición y explotación de diccionarios, tesauros u ontologías que permitan introducir en el sistema los significados como información estratégica. En este trabajo se aborda el diseño de una herramienta capaz de extraer automáticamente conceptos implícitos en una variable de tipo texto. En todo momento el diseño ha sido abordado con un enfoque generalista que permite su uso no sólo en la codificación automática de cualquier variable de respuesta abierta, sino también en cualquier problema en que se requiera generar agrupaciones de palabras según su semántica, tales como la extracción automática de metadatos, la recuperación de información, la generación automática de resúmenes de documentos, etc. La implementación de la solución se basa principalmente en el uso combinado de tecnologías de la Lingüística Computacional y de la Minería de Textos para la construcción de grupos de términos con un nexo semántico relevante para el problema bajo estudio.
Descargar PDF(426Kb)

[-] Functional Disambiguation based on the Syntactic Structures Algorithm for Spanish Language.
Santana-Suárez, O.; Pérez-Aguiar, J.; Santana-Pérez, I.; Quesada-López, R.
12th International Conference on Computer Aided Systems Theory. EUROCAST 2009. Las Palmas de Gran Canaria
Febrero, 2009.
75/76.

This article presents a disambiguation method that diminishes the functional combinations of the words of a sentence taking into account the context in which they appear. This process uses an algorithm which does the syntactic analysis of every sentence interpretation. In order to control this analysis, a grammar with restrictions has been developed to model the valid syntactic structures of the Spanish language. The main target of our algorithm is the separation between the disambiguation method and the grammar which governs it.
Descargar PDF(108Kb)

[-] Development of Support Services for Linguistic Research over the Internet TIN2004-03988.
Santana, O.; Pérez, J.; Carreras, F.; Hernández, Z.; Rodríguez, J.C.; Díaz, M.; Duque, J.; Rodríguez, G.
Jornadas de Seguimiento de Proyectos en Tecnologías Informáticas. Madrid
Febrero, 2007.
167/174.

The objective of this project is to place a set of remote services and clients at the disposal of the international community over the Internet in order to computationally solve linguistic phenomena of the Spanish language. The implemented services are as follows: a remote service of morphological analysis, a remote service of information on morpholexical relationships and a remote service of functional disambiguation. These services allow access to any authorized remote application by means of the inclusion of the corresponding definition document. Additionally, a client of morphosyntactic analysis of texts and a morpholexical client of information recovery have been developed. Both clients are end-use tools that put at stake the potentiality of services.
Descargar PDF(238Kb)

[-] Integration of an XML electronic dictionary with linguistic tools for natural language processing.
Santana, O.; Carreras, F.; Hernández, Z.; González, A.
Information Processing and Management. Elsevier Ltd. Vol. 43, No. 4 (doi:10.1016/j.ipm.2006.08.005). ISSN 0306-4573
Julio, 2007.
946/957.

This study proposes the codification of lexical information in electronic dictionaries, in accordance with a generic and extendable XML scheme model, and its conjunction with linguistic tools for the processing of natural language. Our approach is different from other similar studies in that we propose XML coding of those items from a dictionary of meanings that are less related to the lexical units. Linguistic information, such as morphology, syllables, phonology, etc., will be included by means of specific linguistic tools. The use of XML as a container for the information allows the use of other XML tools for carrying out searches or for enabling presentation of the information in different resources. This model is particularly important as it combines two parallel paradigms—extendable labelling of documents and computational linguistics—and it is also applicable to other languages. We have included a comparison with the labelling proposal of printed dictionaries carried out by the Text Encoding Initiative (TEI). The proposed design has been validated with a dictionary of more than 145000 accepted meanings.
Acceder al artículo

[-] Functional Disambiguation Based on Syntactic Structures.
Santana, O.; Pérez, J.; Losada, L.; Carreras, F.
Literary and Linguistic Computing, Vol. 21, No. 2.
2006.
187/197.

This article presents a disambiguation method which diminishes the functional combinations of the words of a sentence taking into account the context in which they appear. The process is built in two phases: the first phase is based on the local syntactic structures of the Spanish language and reaches an average yield of 87%. The second one is supported by syntactic tree representation and pushes the results up to an approximate high end of 96%. This process constitutes the starting point towards an automated syntactic analysis.
Acceder al artículo

[-] El Reconocimiento Automático de la Composición en Español.
Santana, O.; Carreras, F.; Pérez, J.; Gutiérrez, V.
Digital Humanities 2006. Conference Abstracts of the First Internacional Conference of the Alliance of Digital Humanities Organisations (ADHO). ISBN: 2-9526916-0-6.
Julio, 2006.
190/193.

It deals with computerizing one of the processes of words formation in Spanish: the composition. They will solely be studied those cases in which the compound word has been consolidated like the graphical union of the elements that compose it, in regular or irregular way. The formation rules and the application criteria in each case are deduced, consequently, they allow the automated identification of the compound words. The different compounds are extracted from several lexical sources and the applied mechanisms of recognition will be studied, likewise the grammatical categories of original words and the resultant compound. The found recognition criteria are classified and the detected exceptions and irregularities are considered.
Descargar PDF (42Kb), Acceder HTML

[-] Parasynthetic Morpholexical Relationships of the Spanish: Lexical Search beyond the Lexicographical Regularity.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, J.
Proceedings of the IADIS International Conference. Applied Computing. 2006. ISBN: 972-8924-09-7.
Febrero, 2006.
627/631.

This work talks about parasynthesis of the Spanish language. This formative process of Spanish words is useful for the establishment of morpholexical relationships. From a lexicon of over 4 million different words, around 6 million parasynthetic morpholexical relationships are established. All the irregularities and exceptions found in referenced lexicon have been considered, which are many in a highly inflected language. These relationships turn out to be useful because they allow, between other possibilities, doing semantic searches, offering alternative sentences in the correction of style or summarization and finding semantically synonymous sentences. The principal main function of this application is that it allows lexical searches beyond the lexicographical regularity.
Descargar PDF (139Kb), Acceder HTML

NAWeb: un navigateur et analyseur morphologique des pages web pour l'espagnol.
Santana, O.; Hernández, Z.; Rodríguez, G.
Cahiers de lexicologie. Revue internationale de lexicologie et de lexicographie, Nº 87- 2005-2. ISSN: 0007-9871.
29/43.
NAWeb is a computer application developed in the frame of a larger project designed to tap the flow of linguistics information of Internet documents. It is a tool which is oriented to morphosyntactic analysis of web pages. Its simple inteface facilitates the acquisition of knowledge about the text analyzed in an interactive way.
Descargar PDF (185Kb), Acceder HTML

[-] Una Aplicación para el Procesamiento de la Prefijación en Español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, G.
4ta. Conferencia Iberoamericana en Sistemas, Cibernética e Informática. CISCI 2005. Memorias, Volumen II. ISBN: 980-6560-38-8.
Julio, 2005.
322/327.

En este trabajo se presenta una aplicación que gestiona los prefijos usados en español para la formación de palabras deducidas a partir de un corpus de 148 798 formas canónicas. Se desarrolla un sistema capaz de resolver y responder a cualquier aspecto morfológico de una palabra del español que abarca todo lo relacionado con la morfología derivativa y otros aspectos cercanos. Permite el reconocimiento, la generación y la manipulación del proceso formativo prefijal que ha sufrido cualquier forma canónica del corpus, categoría gramatical de la base y de la palabra formada, incluye la recuperación de toda su información lexicogenética hasta llegar a una primitiva, la gestión y control de los prefijos en el tratamiento de sus relaciones, así como la regularidad en su formación.
Descargar PDF (284Kb), Acceder HTML

[-] Software Application for Parasynthesis in Spanish Automatic Processing.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, J.C..
The 2005 International Conference on Machine Learning; Models, Technologies and Applications. MLMTA'05. Proceedings. ISBN: 1-932415-73-4.
June, 2005.
46/52.

This work is about a computer application for parasynthesis in Spanish automatic processing, which works with 3800 parasynthetical morpholexical relationships deduced from a corpus of 148798 canonical forms. The developed computational tool is capable of solving and answering to any morpholexical aspect of a Spanish word because of it includes the suffixation and prefixation processing. The tool encompasses everything related with derivation, prefixation, parasynthesis and other nearby aspects. It allows the recognition, the generation and the manipulation of morpholexical relationships of any word and of its related words, includes the recovery of all its lexicogenetic information until arriving at a primitive, the management and the control of the affixes in the treatment of its relationships, as well as the irregularities and exceptions of lexicon, which are many in a highly inflected language.
Descargar PDF (121Kb), Acceder HTML

[-] Spanish Morphosyntactic Disambiguator.
Santana, O.; Pérez, J.; Losada, L.; Carreras, F.
The 17th Joint International Conference of the Association for Computers and the Humanities and the Association for Literary and Linguistic Computing. ACH/ALLC 2005. Conference Abstracs. ISBN: 1-55058-308-5.
June, 2005.
207/209.

This system is intended to provide a close view of the Spanish grammar to researchers, enhancing their performance and reliability. This is a first step that will allow, with the addition of new features, to keep improving until reaching a goodness of 100%. Any automated processing of a text entails inevitably the syntactic analysis of its sentences, following the morphosyntactic disambiguation of the elements that compose it, allowing for different possible applications: a) to provide precise synonymous for a given word, b) to analyze its literary style, c) to know its semantics, d) to extract information or summarize its contents, e) to make trustworthy translations to other languages, f) to answer to concrete questions on its content, etc.
Descargar PDF (26Kb), Acceder HTML

[-] Una Herramienta de Recuperación Morfoléxica Aplicada a Microsoft Word. Abstract.
Santana, O.; Hernández, Z.; Rodríguez, G.; Losada, L.
The 17th Joint International Conference of the Association for Computers and the Humanities and the Association for Literary and Linguistic Computing. ACH/ALLC 2005. Conference Abstracs. ISBN: 1-55058-308-5.
June, 2005.
209/211.

The present work describes a search tool which is sensitive to the Spanish morphology. The main goal of this work is to advance integration of linguistic knowledge into information retrieval applications, emphasizing a simple but powerful interface to the linguistic engines previously developed by the GEDLC. A textual search tool for MS-Word which considers of inflectional, derivational and prefixal features of Spanish, among other forming words mechanisms, has been developed furnishing a great searching power. Developed tool can be adapted to any application with COM interface and to more complex environments.
Descargar PDF (98Kb), Acceder HTML

[-] Una aplicación para el procesamiento de la sufijación en español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, G.
IX Simposio Internacional de Comunicación Social, Actas, Vol. II. ISBN: 959-7174-05-7.
Enero, 2005.
623/629.

El objetivo principal de este trabajo es automatizar una parte importante de la morfología del español: la sufijación. A través de la sufijación, unas palabras dan lugar a la formación de otras, y éstas a su vez a la de otras; al aplicar sucesivamente este proceso de formación se establecen vínculos familiares entre vocablos. Las familias de palabras que se relacionan son de gran utilidad en aplicaciones de procesamiento del lenguaje natural: buscadores automáticos, correctores ortográficos, analizadores de estilo, generadores automáticos de texto, etc. Es obvio que, para el hablante, y por lo tanto debe serlo para la informática, acuario, portuario y campanario son lugares igualmente relacionados con agua, puerto y campana. Es necesario, por tanto, situarse en otro nivel al del problema intrínseco que conlleva este tipo de estudios ―la morfología―, para solventar barreras lingüísticas que impedirían tratar aspectos de interés para el procesamiento del lenguaje natural más allá de la derivación.
Descargar PDF (128Kb)

[-] Suffixal and Prefixal Morpholexical Relationships of the Spanish.
Santana, O.; Pérez, J.; Carreras, F.; Rodríguez, G.
Lecture Notes in Artificial Intelligence, 3230. Ed. Springer-Verlag. ISSN: 0302-9743.
Octubre, 2004.
407/418.
This work is about derivational suffixes, endings and prefixes of the Spanish language, which are useful for the establishment of about 70 000 suffixal and 11 000 prefixal extended morpholexical relationships deduced from a corpus of 134 109 canonical forms. A computational tool is developed capable of solving and answering to any morphological aspect of a Spanish word. The tool encompasses everything related with derivation, prefixation and other nearby aspects. It allows the recognition, the generation and the manipulation of morpholexical relationships of any word and of its related words, includes the recovery of all its lexicogenetical information until arriving at a primitive, the management and the control of the affixes in the treatment of its relationships, as well as the regularity in the established relationship.
Descargar PDF (128Kb), Acceder HTML

[-] Relaciones morfoléxicas prefijales del español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, G.
Boletín de Língüística, Vol. 22. ISSN: 0798-9709.
Julio - Diciembre, 2004.
79/123.
En este trabajo se presenta una taxonomía de los prefijos usados en español útiles para el establecimiento de relaciones morfoléxicas deducidas a partir del un corpus de 134109 formas canónicas. Se desarrolla un sistema capaz de resolver y responder a cualquier aspecto morfológico de una palabra del español que abarca todo lo relacionado con la prefijación y otros aspectos cercanos. Permite el reconocimiento, la generación y la manipulación de las relaciones morfoléxicas a partir de cualquier palabra, categoría gramatical de la base y de sus palabras relacionadas, incluye la recuperación de toda su información lexicogenética hasta llegar a una primitiva, la gestión y control de los prefijos en el tratamiento de sus relaciones, así como la regularidad en la relación establecida.
Descargar PDF (583Kb)

[-] Bases para la desambiguación estructural de árboles de representación sintáctica.
Santana, O.; Pérez, J.; Losada, L.; Carreras, F.
Procesamiento del Lenguaje Natural, Revista Nº 32. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2004.
43/65.
Mediante un conjunto de reglas de desambiguación estructural, en este trabajo se reduce el número de árboles de representación sintáctica erróneos que se obtienen por aplicación de las reglas de la gramática del español. Además de ser el punto de partida para un análisis sintáctico automatizado, este proceso complementa los procesos de desambiguación funcional local al elevar su bondad desde un 87% hasta un 96%.
Descargar PDF (286Kb)

[-] Morfología del español: Reconocimiento y generación automáticos. Desarrollos del Grupo de Estructuras de Datos y Lingüística Computacional de la Universidad de Las Palmas de Gran Canaria (GEDLC).
Santana, O.; Pérez, J.; Hernández, Z.; Carreras, F.; Rodríguez, G.; Losada, L.; Duque, J.
Estudios sobre el español de Canarias. Actas del I Congreso Internacional sobre el español de Canarias. ISBN: 84-96059-10-3.
2003.
Vol.II (ISBN: 84-96059-09-X) 1115/1135.
Se expone la línea de investigación del GEDLC orientada a la elaboración de utilidades de ayuda para el tratamiento de documentos. A partir del procesador morfológico desarrollado, se han resuelto la generación automática de respuestas en análisis morfológico, la gestión integrada de un diccionario de sinónimos y la búsqueda morfológica de palabras en un texto; también se logró una herramienta para el manejo de diccionarios ideológicos. Se encuentran en curso una estación de trabajo lexicológica orientada a Internet, la ampliación de las relaciones morfosemánticas del procesador morfológico, un desambiguador morfológico, un analizador sintáctico, una herramienta de ayuda al análisis de estilo; también se trabaja en torno a las colocaciones, la composición, los regímenes preposicionales y la clasificación semántica de los verbos.
Descargar PDF (286Kb)

[-] The Spanish Morphology in Internet.
Santana, O.; Pérez, J.; Carreras F.; Hernández, Z.; Rodríguez, G.
Lecture Notes in Computer Science 2722. Web Engineering. Ed. Springer-Verlag. ISSN: 0302-9743. ISBN: 3-540-40522-4.
Julio, 2003.
507/510.
This Web service tags morpholexically any Spanish word and it gets the corresponding forms starting from a canonical form and from the flexion asked for. In the verbs, it deals with the simple and compound conjugation, the enclitic pronouns, the flexion of the participle like verbal adjective and the diminutive of the gerund. With the nonverbal forms, this web service considers: gender and number, heteronomy for change of sex, superlative degree, adverbiation and the appreciative derivation. In the tag and in the generation the prefixation is taken into account. It allows the manipulation of morpholexical relationships. It offers a global vision of the behavior and productivity of the Spanish words in the principal processes of formation (sufixation, prefixation, parasinthesis, suppression, regression, zero-modification, apocopation, metathesis and others which are unclassifiable and that generate alternative graphical forms). It includes the principal Spanish lexicographic repertoires. It considers 151103 canonical forms that produce more than 4900000 flexioned and derived forms and about 90000 morpholexical relationships are established.
Descargar PDF (97Kb), Acceder HTML

[-] Morphoanalysis of Spanish Text: Two Applications for Web Pages.
Santana, O.; Hernández, Z.; Rodríguez, G.
Lecture Notes in Computer Science 2722. Web Engineering. Ed. Springer-Verlag. ISSN: 0302-9743. ISBN: 3-540-40522-4.
Julio, 2003.
511/514.
The applications described here folow up the works performed in the recent last year by the Data Structures and Computational Linguistics Group at Las Palmas de Gran Canaria University. These works had been developed about computational linguistics and, as one of their results, some tools for morphologic identification and generation have been released. This work presents the use of those tools as parts of new applications designed to benefit from the great linguistic information flow from Internet. Two kinds of application are identified, both according to the interactive grade of the linguistics studies to be done, and two prototypes are developed with special attention to their architecture in order to maximize the efficiency of both. Analysis modes include: neologism detection, word use (qualitative and quantitative measurements) and some syntax aspect like lexical collocations or prepositional regimes.
Descargar PDF (24Kb)

[-] DAWEB: Un descargador y analizador morfológico de páginas Web.
Santana, O.; Hernández, Z.; Rodríguez, G.
Procesamiento del Lenguaje Natural, Revista Nº 30. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2003.
75/87.
DAWeb es una aplicación informática desarrollada como parte de un proyecto consagrado a la realización de herramientas capaces de facilitar el aprovechamiento para la realización de estudios lingüísticos del enorme caudal de información que ofrece Internet. Es una herramienta orientada al análisis morfosintáctico de grandes volúmenes de información -dominios completos- a los que se accede por una o varias URL de partida. Está dotada de una sencilla interfaz que permite establecer las acciones pertinentes sobre la información accedida. Como resultado de los análisis realizados, se genera un conjunto estructurado de datos que pueden estudiarse con facilidad.
Descargar PDF (371Kb)

[-] Relaciones morfoléxicas sufijales del español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, G.
Procesamiento del Lenguaje Natural, Revista Nº 30. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2003.
1/73.
En este trabajo se presenta una taxonomía de los sufijos derivativos y terminaciones usadas en español útiles para el establecimiento de relaciones morfoléxicas deducidas a partir del un corpus de 134109 formas canónicas. Se desarrolla un sistema capaz de resolver y responder a cualquier aspecto morfológico de una palabra del español que abarca todo lo relacionado con la morfología derivativa y otros aspectos cercanos. Permite el reconocimiento, la generación y la manipulación de las relaciones morfoléxicas a partir de cualquier palabra, categoría gramatical de la base y de sus palabras relacionadas, incluye la recuperación de toda su información lexicogenética hasta llegar a una primitiva, la gestión y control de los afijos en el tratamiento de sus relaciones, así como la regularidad en la relación establecida.
Descargar PDF (2854Kb)

Automatización del análisis sintáctico del Español.
Losada, L.; Director: Santana, O.; Codirector: Pérez, J.
Procesamiento del Lenguaje Natural, Revista Nº 30. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2003.
115/116.
Más información

[-] Sistema Computacional de Gestión Morfológica del Español (SCOGEME).
Carreras, F.; Director: Santana, O.; Codirector: Pérez, J.
Procesamiento del Lenguaje Natural, Revista Nº 28. Ed. SEPLN. ISSN: 1135-5948.
Mayo, 2002.
105/106.
Más información

Aproximación a una estación lexicológica orientada a Internet.
Hernández, Z.; Director: Santana, O.
Procesamiento del Lenguaje Natural, Revista Nº 28. Ed. SEPLN. ISSN: 1135-5948.
Mayo, 2002.
107/108.
Más información

[-] Hacia la desambiguación funcional automática en español.
Santana, O.; Pérez, J.; Losada, L.; Carreras, F.
Procesamiento del Lenguaje Natural, Revista Nº 28. Ed. SEPLN. ISSN: 1135-5948.
Mayo, 2002.
1/22.
Debido a que en español existe una considerable cantidad de palabras que pueden desempeñar diferentes funciones gramaticales, el análisis de un texto produciría una desmesurada multiplicidad de combinaciones posibles en caso de no tener en cuenta la función de cada voz en el contexto en que aparece. En este trabajo se presenta un método de desambiguación funcional que reduce el tamaño de la respuesta gracias al tratamiento que hace de las estructuras sintácticas locales.
Descargar PDF (154Kb)

[-] Desarrollos del Grupo de Estructuras de Datos y Lingüística Computacional de la Universidad de Las Palmas de Gran Canaria (GEDLC).
Santana, O.; Pérez, J.; Hernández, Z.; Carreras, F.; Rodríguez, G.; Losada, L.; Duque, J.
SLPLT2. Segundo Taller Internacional de Procesamiento Computacional del Español y Tecnologías del Lenguaje, Septiembre 2001. Editorial Club Universitario. Universidad de Jaén.
229/233
Se expone la línea de investigación del GEDLC orientada a la elaboración de utilidades de ayuda para el tratamiento de documentos. A partir del procesador morfológico desarrollado, se han resuelto la generación automática de respuestas en análisis morfológico, la gestión integrada de un diccionario de sinónimos y la búsqueda morfológica de palabras en un texto; también se logró una herramienta para el manejo de diccionarios ideológicos. Se encuentran en curso una estación de trabajo lexicológica orientada a Internet, la ampliación de las relaciones morfosemánticas del procesador morfológico, un desambiguador morfológico, un analizador sintáctico, una herramienta de ayuda al análisis de estilo; también se trabaja en torno a las colocaciones, la composición, los regímenes preposicionales y la clasificación semántica de los verbos.
Descargar PDF (286Kb), PostScript (1228Kb), PostScript comprimido ZIP (409Kb)

[-] Generación automática de respuestas en análisis morfológico.
Santana, O.; Pérez, J.; Losada, L.
Estudios de lingüística. Universidad de Alicante, 14, 2000. Departamento de Filología Española, Lingüística General y Teoría de la Literatura.
245/257
Se presenta un procedimiento para la generación automática de textos, dentro de un dominio definido. En el caso de estudio, el dominio son sentencias resultantes del análisis morfológico del español. Una de las principales dificultades a la hora de desarrollar la generación automática de textos se halla en la necesidad de preparar los datos de entrada. El presente trabajo modela el espacio de aplicación a partir de un conjunto de resultados simples de análisis morfológico en lenguaje natural. Se ha eliminado toda redundancia en los datos de entrada para extraer su información esencial y obtener la estructura lógica de tal información. La posibilidad de decir lo mismo de diferentes formas obliga a seleccionar el léxico, a observar el contexto y a reforzar el control mediante criterios de selección para asegurar que el texto obtenido sea correcto y resulte formal, objetivo y escueto. La principal aportación de este trabajo radica en pasar de la estructura lógica a una frase con la que representar la información de forma cohesionada, coherente, comprensible y con cierto estilo.
Descargar PDF (128Kb), PostScript (725Kb)

[-] FLANOM: Flexionador y lematizador automático de formas nominales.
Santana, O.; Pérez, J.; Carreras, F.; Duque, J.; Hernández, Z.; Rodríguez, G.
Lingüística Española Actual XXI, 2, 1999. Ed. Arco/Libros, S.L.
253/297
El propósito del presente trabajo consiste en presentar una aplicación informática útil para: a) lematizar las diferentes formas nominales (identifica la forma canónica, su categoría gramatical y la flexión o derivación que la produce); y b) generar una forma nominal a partir de su forma canónica y flexión o derivación —en ambos procesos, se consideran las modificaciones necesarias debidas a la composición por prefijación. El reconocimiento y la generación de las formas se realizan de manera bidireccional por medio de una misma estructura de datos —recorrerla en sentidos contrarios implica que se opere con ella como herramienta lematizadora o flexionadora. El universo está compuesto por 109194 formas canónicas e incluye todas las entradas no verbales del Diccionario de la Lengua Española de la Real Academia Española, del Diccionario General de la Lengua Española Vox, del Diccionario de Uso del Español de María Moliner, del Gran Diccionario de la Lengua Española de Larousse Planeta, del Diccionario de voces de uso actual dirigido por Manuel Alvar Ezquerra, del Gran Diccionario de Sinónimos y Antónimos de Espasa-Calpe y del Diccionario Ideológico de la Lengua Española de Julio Casares.
Descargar PDF (265Kb), PostScript (2.19Mb), PostScript comprimido ZIP (364Kb)

[-] De un reconocedor y generador morfológico del español en Internet.
Santana, O.; Pérez, J.; Carreras, F.; Hernández, Z.; Rodríguez, G.; Duque, J.D.
Publicado Mayo, 1999, Lexicon Planet Ltd
El interés que despierta un procesador morfológico radica en que el tratamiento automatizado de la morfología del español constituye la primera piedra sobre la cual construir cualquier procesador de lenguaje natural, que habrá de considerar, con ulterioridad, la sintaxis y la semántica; se debe destacar la gran utilidad de sus aplicaciones en enseñanza de la lengua, manejo de diccionarios, motores para búsquedas textuales, lematización, desambiguación, análisis y generación de texto, tratamiento de corpus, etcétera. (pulse aquí si desea todo el artículo)

[-] Reconocedor y generador automático de formas nominales.
Santana, O.; Pérez, J.; Carreras, F.; Duque, J.D.; Hernández, Z.; Rodríguez, G.
Diccionarios e informática, 1998. Publicaciones de la Universidad de Jaén.
57/74
El propósito del presente trabajo consiste en presentar una aplicación informática útil para lematizar las diferentes formas nominales al identificar su forma canónica, categoría gramatical y la flexión o derivación que la produce, y obtiene las formas nominales correspondientes a partir de una forma canónica y de la flexión o derivación solicitada; tanto el reconocimiento como la generación operan sobre una misma estructura de datos —recorrerla en sentidos contrarios implica que la herramientas funciones en una u otra modalidad. Considera: género y número en los sustantivos, adjetivos, pronombres y artículos; heteronimia por cambio de sexo en los sustantivos; grado superlativo en los adjetivos y adverbios; adverbialización y adverbialización del superlativo en los adjetivos; derivación apreciativa en los sustantivos, adjetivos y adverbios; formas canónicas múltiples en todas las categorías gramaticales; formas invariantes tales como preposiciones, conjunciones, exclamaciones, palabras de otros idiomas y locuciones o frases. El sistema incluye composición por prefijación.
Descargar PDF (80Kb), PostScript (812Kb), PostScript comprimido ZIP (94Kb)

[-] FLAVER: Flexionador y lematizador automático de formas verbales.
Santana, O.; Pérez, J.; Hernández, Z.; Carreras, F.; Rodríguez, G.
Lingüística Española Actual XIX, 2, 1997. Ed. Arco/Libros, S.L.
229/282
El propósito del presente trabajo consiste en: a) lematizar las diferentes formas verbales, identificando su infinitivo, categoría gramatical y flexión, y b) generar una forma verbal a partir de su infinitivo y flexión; en ambos procesos se consideran las modificaciones que son debidas a la presencia de pronombres enclíticos y de prefijos. El reconocimiento y la generación de las formas verbales se realizan de manera bidireccional por medio de una misma estructura de datos -recorrerla en sentidos contrarios implica que se opere con ella como herramienta lematizadora o flexionadora. Además de la conjugación verbal -modo, tiempo, número y persona- simple y compuesta, se considera la flexión del participio como adjetivo verbal -género, número, grado superlativo y adverbialización- y el diminutivo del gerundio.
Descargar PDF (413Kb), PostScript (3.65Mb), PostScript comprimido ZIP (500Kb), PostScript comprimido .Z (698Kb)

[-] GEISA: Un diccionario de sinónimos en formato electrónico.
Santana, O.; Pérez, J.; Carreras, F.; Santos, S.; Rodríguez, G.; Hernández, Z.
Revista de Lexicografía, Volumen III. Universidade da Coruña. 1996-1997.
111/134
Se desarrolla una aplicación para la gestión de un diccionario de sinónimos y antónimos con una interfaz amigable que: a) admite como entradas las cabeceras del diccionario y cualquiera de sus formas flexionadas o derivadas, b) permite la navegación clásica en estos diccionarios, c) ofrece formas de exploración alternativas por medio de entradas relacionadas morfológicamente y d) considera la salida con los accidentes gramaticales que afectan a la entrada.
Descargar PDF (1.07Mb), PostScript (7.63Mb), PostScript comprimido ZIP (987Kb), PostScript comprimido .Z (829Kb)

[-] Herramienta para el manejo de diccionarios ideológicos.
Santana, O.; Rodríguez, G.; Hernández, Z.
Lingüística Española Actual XIX, 1, 1997. Ed. Arco/Libros, S.L.
127/136
La elaboración de documentos es un proceso creativo que exige del autor una notable capacidad de abstracción y estructuración para asegurar una calidad aceptable del resultado; tal tarea puede ser eficazmente asistida mediante diversas herramientas. En este trabajo se propone la construcción de un manejador informático de diccionarios ideológicos; se persigue que la recuperación de todo dato implique a aquellos otros con los que guarde relación funcional o de concepto.
Descargar PDF (675Kb), PostScript (2.70Mb), PostScript comprimido ZIP (209Kb), PostScript comprimido .Z (361Kb)

[-] Diccionarios en soportes informáticos.
Santana, O.; Hernández, Z.; Pérez, J.; Rodríguez, G.; Carreras, F..
Cuadernos Cervantes de la Lengua Española, nº 11
Noviembre - Diciembre, 1996
68/77.
Se pretende anticipar de qué manera los diccionarios experimentarán en los próximos años una transformación de la mano de los avances tecnológicos en informática, tanto en lo formal como en lo sustancial. Las dos vías principales a las que las nuevas tecnologías prestarían las transformaciones más relevantes a los diccionarios son en el aspecto físico y en la flexibilidad de consulta. Ambos factores implican un cambio del modelo de interacción entre los usuarios y los diccionarios; el diálogo se verá enormemente facilitado por la utilización de interfaces amigables cuidadosamente desarrolladas; el uso se verá revalorizado por el mayor alcance de los resultados obtenidos al aprovechar las capacidades multimedia de los sistemas empleados.
Descargar PDF (104Kb), PostScript (963Kb), PostScript comprimido ZIP (161Kb), PostScript comprimido .Z (218Kb)

[-] Proyecto GEISA: GEstión Integrada de Sinónimos y Antónimos.
Santana, O.; Pérez, J.; Santos, S.; Rodríguez, G.; Hernández, Z.
Procesamiento del Lenguaje Natural, Revista Nº 16. Ed.: SEPLN.
Abril, 1995.
79/81.
Se pretende la realización de una aplicación de gestión de sinónimos y antónimos en español que tenga en cuenta los accidentes gramaticales con los siguientes objetivos: a) Almacenamiento estructurado (minimizando la ocupación y el tiempo de respuesta) de un diccionario de sinónimos y antónimos. b) Posibilidad de consultas sobre el diccionario en un entorno amigable (ventanas y menús desplegables). c) Devolución del sinónimo y/o antónimo afectado de los mismos accidentes gramaticales que la palabra original. d) Desarrollo modular que permita su incorporación ulterior a sistemas de manipulación de textos más complejos.
Descargar PDF (15Kb), PostScript (147Kb), PostScript comprimido ZIP (34Kb), PostScript comprimido .Z (45Kb)

[-] Proyecto SOTA: Sistema de Organización de Texto Abierto.
Santana, O.; Hernández, Z.; Rodríguez, G.; Rodríguez, J. C.; González, J. D.
Procesamiento del Lenguaje Natural, Revista Nº 16. Ed.: SEPLN.|/i>
Abril, 1995.
92/94.
Se pretende desarrollar un sistema para la indización de documentos textuales débilmente estructurados, o incluso sin estructura definida, que presente un alto grado de flexibilidad en cuanto a los formatos de los documentos permitidos, así como en cuanto a las modalidades de interrogación posibles, sea adaptable a una amplia gama de configuraciones de recursos informáticos, y transportable entre los entornos operativos más populares con un mínimo esfuerzo de programación.

[-] Reconocedor de conjugación en formas verbales que trata los pronombres enclíticos.
Santana, O.; Hernández, Z.; Rodríguez, G.; Pérez, J.; Carreras, F.; Bogliani, S.
Lingüística Española Actual. Ed.: Arco/Libros, S. L.
1994, Nº 16-1.
125/133.
Desarrolla una aplicación, orientada a datos, que reconoce las diferentes formas conjugadas de un verbo; además de identificar el infinitivo, obtiene tiempo, número y persona; detecta la presencia de pronombres enclíticos y considera las modificaciones que producen en la forma verbal.
Descargar PDF (39Kb), PostScript (422Kb), PostScript comprimido ZIP (86Kb), PostScript comprimido .Z (112Kb)

[-] Información Textual: Línea de Investigación y Proyectos de Desarrollo.
Santana, O.; Díaz, M.; Rodríguez, J. C.; González, D.; Rodríguez, G.; Hernández, Z.; Ballester, A.
Español Actual. Ed.: Arco/Libros, S. L.
Nº 59/1993.
31/37.
El Grupo de Investigación en Estructuras de Datos del Departamento de Informática y Sistemas de la Universidad de Las Palmas de Gran Canaria ha estado realizando investigación: básica desde 1986 en su campo y de desarrollo de aplicaciones prácticas en áreas relacionadas con la recuperación de información textual, la lingüística computacional y el procesamiento de lenguaje natural a partir de 1990.

[-] Agrupaciones de Tiempos Verbales en un Texto.
Rodríguez, G.; Hernández, Z.; Santana, O.
Anales de las II Jornadas de Ingeniería de Sistemas Informáticos y de Computación, Quito (Ecuador).
Abril, 1993.
132/137.
Construye una herramienta capaz de localizar en un escrito todas las formas conjugadas de un mismo verbo. Constituye una aproximación al análisis de textos para facilitar la labor de creación literaria. La solución hace uso de una estructura de datos que organiza las raíces verbales y las terminaciones correspondientes a las formas conjugadas.

[-] Distancia Dependiente de la Subsecuencia Común Más Larga entre Cadenas de Caracteres.
Díaz, M.; Pérez, J.; Santana, O.
Anales de las II Jornadas de Ingeniería de Sistemas Informáticos y de Computación, Quito (Ecuador).
Abril, 1993.
117/123.
En este trabajo se demuestra que el valor definido por Santana y otros -basado en la longitud de la subsecuencia común más larga entre cadenas de caracteres al objeto de reducir el número de cadenas que han de someterse al cálculo de la Distancia de Levenshtein- es una distancia en el espacio de cadenas de caracteres sobre un alfabeto. Se corrobora experimentalmente que esta distancia mejora las realizaciones de los esquemas de búsqueda decreciente y creciente sobre el índice donde se estructuran las componentes de la distancia invariante trasposicional.
Descargar PDF (39Kb), PostScript (372Kb), PostScript comprimido ZIP (73Kb), PostScript comprimido .Z (102Kb)

[-] Conjugaciones Verbales.
Santana, O.; Hernández, Z. J.; Rodríguez, G.
Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural
(SEPLN).
Febrero, 1993.
Nº 13, 443/450.
Genera un sistema que conjuga cualquier tiempo verbal a partir de un infinitivo previa determinación de su regularidad o irregularidad, utilizando para ello el conocimiento de una serie de reglas que siguen los diferentes modelos de conjugación verbal y la sistematización de la conjugación regular.

[-] Frectext: Una Aplicación de Ayuda a la Elaboración de Documentos.
Santana, O.; Rodríguez del Pino, J. C.; González Domínguez, J. D.
Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN).
Febrero, 1993.
Nº 13, 451/462.

[-] Recuperación de Información en Diccionarios.
Ballester Monzón, A.; Díaz Roca, M.; Santana Pérez, F.; Santana, O.
Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN).
Febrero, 1993.
Nº 13, 423/430.
Este trabajo se centra en el problema de la localización de palabras en texto libre. Un tratamiento previo del texto permite generar un índice que hace viable los accesos posteriores al ejemplar; se utiliza como índice la estructura Santana Díaz, construida a partir del conjunto de las palabras diferentes no vacías que se obtienen del documento. Los tipos de búsqueda estudiados son: exacta, más similares, máscaras, truncamientos, por cercanía, con antecedencia, en párrafos, en sentencias, de frases y
búsquedas complejas con operadores booleanos sobre cualesquiera de las anteriores. Se desarrolla un analizador sintáctico de las peticiones que determina su correctitud sintáctica y diferencia las componentes con sus conectores lógicos.

La Estructura de Burkhard-Keller en la Búsqueda de las Cadenas Más Similares a un Conjunto sobre el que existe Definida una Distribución de Probabilidad.
Santana, O.; Pérez, J.; Hernández, Z.; Rodríguez, A.
Anales de las Primeras Jornadas de Ingeniería de Sistemas y de Computación, Quito (Ecuador).
Noviembre, 1990.
Vol. I, 153/160.
En este trabajo se plantea el problema de la búsqueda de las cadenas más similares a un conjunto de cadenas sobre el que existe una distribución de probabilidad que expresa la fiabilidad con la que cada una de las cadenas representa a la cadena en cuestión. El concepto de similitud es en el sentido de Levenshtein.
Descargar PDF (53Kb), PostScript (486Kb), PostScript comprimido ZIP (95Kb), PostScript comprimido .Z (126Kb)

Increasing Radius Search Schemes for the Most Similar Strings on the Burkhard-Keller Tree.
Santana, O.; Pérez, J.; Rodríguez, J.C.
Cybernetics and Systems: An International Journal.
1990.
21: 167/180.
In this work search schemes are proposed for the most similar strings to a given one, on the sense of the Levenshtein directional distance, working on a Burkhard_Keller structure, organized by the transposition_invariant distance, using a increasing search radius as opposed to the decreasing search radius schemes. Some organization approaches are studied to find the best way to improve search performance. The test results are analyzed, comparing these approaches and the different search schemes.
Descargar PDF (56Kb), PostScript (535Kb), PostScript comprimido ZIP (102Kb), PostScript comprimido .Z (139Kb)

Búsqueda de las Cadenas Más Similares: Esquema Decreciente con Radio de Búsqueda Ascendente, Esquema Creciente.
Díaz, M.; Santana, O.; Rodríguez, J.C.
Actas de la XVI Conferencia Latinoamericana de Informática, Asunción (Paraguay).
Septiembre, 1990.
Vol.I, 90/97.
En trabajos anteriores se ha descrito la estructura DITE y el esquema de búsqueda DITE+DD decreciente para la recuperación de las cadenas más similares a una dada, en el sentido de Levenshtein. En este, se proponen los esquemas de búsqueda: decreciente con radio ascendente y creciente; llevándose a cabo un estudio experimental a fin de comparar las realizaciones de estos esquemas.

Búsqueda de las Cadenas Más Similares: Incidencia de la Subsecuencia Común Más Larga en los Esquemas Decreciente y Creciente.
Santana, O.; Rodríguez, J.C.; Díaz, M.
Actas de la XVI Conferencia Latinoamericana de Informática, Asunción (Paraguay).
Septiembre, 1990.
Vol.I, 98/104.
Las componentes de la distancia invariante trasposicional, DIT, ya han aparecido estructuradas, DITE, en trabajos anteriores así como los esquemas de búsqueda DITE+DD decreciente y creciente de las cadenas más similares. A fin de reducir el número de cadenas exploradas en el sentido de Levenshtein, DD, muy costosas, en este trabajo se demuestra DIT Ul DD, donde el nuevo umbral Ul , función de la secuencia común más larga entre cadenas, recoge propiedades ignoradas por DIT; ambos costos computacionales son inferiores. También se introduce un refinamiento en la poda del índice que acorta su recorrido.

Sharing the Components of Transposition-Invariant Distance, DIT, on DIT-Organized Burkhard-Keller Structure in Searches for Best Matching Strings.
Santana, O.; Pérez, J.; Hernández, Z.; Rodríguez, H.G.
IEEE Proceedings of the International Workshop on Tools for Artificial Intelligence "Architectures, Languages & Algorithms", Fairfax, Virginia (USA).
Octubre, 1989.
435/441.
In this work various construction character/frequency information sharing structure approaches are proposed in order to optimize transposition_invariant distance evaluation, that distance is used to construct a Burkhard-keller tree where is organized a dictionary of strings token over a characters alphabet to achieve searchings of strings best matching one on Levenshtein sense.
Descargar PDF (46Kb), PostScript (510Kb), PostScript comprimido ZIP (98Kb), PostScript comprimido .Z (130Kb)

The Infinite Distance in the Determination of the Nearest Euclidean M-Neighbours in the K-D-B Tree.
Santana, O.; Rodríguez, G.; Díaz, M.; Plácido, A.
IEEE Proceedings of the International Workshop on Tools for Artificial Intelligence "Architectures, Languages & Algorithms", Fairfax, Virginia, (USA).
Octubre, 1989.
146/152.
In this article the search scheme of the nearest m_neighbours in the K-D-B tree structure is proposed. In that scheme two diferent strategies for the selection of alternative descent branches, that determine the order in which the criterion of the pruning tree is studied is planned. An experimental study, with the euclidean an infinite distances, in order to comparing both strategies, as soon as the influence of the distance change is realized. By last, three search schemes of the euclidean m_neighbours via the infinite distance, with the objective of improving the obtained performance with the euclidean distance are proposed for its following discussion.

La Estructura de Burkhard-Keller en la Búsqueda de las Cadenas Más Similares a una dada.
Santana, O.; Pérez, J.; López, G.; Rodríguez, G.
MERCALINE. Revista de Electrónica Informática y Telecomunicaciones. Las Palmas de Gran Canaria.
Agosto-Septiembre, 1989. 50/59.
En este trabajo se aborda el problema de la búsqueda de las cadenas más similares, en el sentido de distancia direccional, DD, de Levenshtein, a una dada. Se incorpora una distancia invariante frente a trasposiciones, DIT, que tiene un costo computacional inferior a la DD y que se usa como filtro adaptivo para realizar las búsquedas. Se estudian, comparativamente, los esquemas de búsqueda DITE+DD y Burkhard-Keller, construidos con DD y con DIT; en los últimos se llevan a cabo las búsquedas en una, dos y tres etapas.
Descargar PDF (54Kb), PostScript (1100Kb), PostScript comprimido ZIP (198Kb), PostScript comprimido .Z (247Kb)

Estructuración de las Componentes de la Distancia Invariante Trasposicional, DIT, con Compartición de la Zona No-Discriminante en la Búsqueda de las Cadenas Más Similares.
Santana, O.; Díaz, M.; Duque, J.D.; Rodríguez, G.
Actas de la XV Conferencia Latinoamericana de Informática, Santiago de Chile (Chile).
Julio, 1989.
Vol.II, 335/341.
En este trabajo se presentan varios criterios para la compartición de la información carácter/frecuencia de la zona no_arbórea de la estructura DITE, a fin de optimizar el cálculo de la distancia invariante trasposicional, en la realización del esquema de búsqueda DITE+DD para la recuperación de las cadenas más similares a una dada en el sentido de Levenshtein.

Referencias Distanciales de Levenshtein en la Estructura de Burkhard-Keller Organizada según la Distancia Invariante Transposicional. Parte I.
Santana, O.; Pérez, J.; Espino, M.; Rodríguez, J.C.
Actas de la XV Conferencia Latinoamericana de Informática, Santiago de Chile (Chile).
Julio, 1989.
Vol.II, 327/334.
Para la búsqueda de las cadenas más similares en el sentido de la Distancia Direccional de Levenshtein, DD, en este trabajo se propone la introducción de referencias DD en la estructura de Burkhard_Keller, organizada según la Distancia Invariante Trasposicional, DIT, a fin de poder realizar pruebas de DD_candidatura, basadas en la desigualdad triangular, con el propósito de disminuir los cálculos de DD y así mejorar la realización global del esquema BK_DIT+DD creciente.
Descargar PDF (45Kb), PostScript (511Kb), PostScript comprimido ZIP (93Kb), PostScript comprimido .Z (126Kb)

El Árbol Multidimensional Equilibrado en Altura: Influencia de su Comportamiento Dinámico en las Recuperaciones Exacta, en Rango y de los Vecinos Más Próximos.
Santana, O.; Díaz, M.; Hernández, Z.; Del Pino, J.C.
Actas de la XIV Conferencia Latinoamericana de Informática. Buenos Aires (Argentina).
Septiembre, 1988.
Vol. I, 33/46.
En este trabajo se presenta un estudio empírico del comportamiento dinámico de la estructura de árbol multidimensional equilibrado en altura, analizando los parámetros fundamentales que determinan su respuesta ante inserciones y extracciones continuadas y ante una fase estacionaria. Asimismo, se estudia su efectividad frente a los árboles quintarios en atender a las interrogaciones exacta y en rango, y su comportamiento en la búsqueda de los vecinos más próximos

Reorganizaciones Locales en el Árbol-K-D-B. Su Eficiencia en Situaciones Dinámicas.
Díaz, M.; Santana, O.; Rodríguez, G., Martín M.
Actas de la XIV Conferencia Latinoamericana de Informática. Buenos Aires (Argentina).
Septiembre, 1988.
Vol. I, 17/32.
En este artículo se introducen diversas reorganizaciones locales para optimizar la ocupación en la actualización de la estructura del árbol K-D-B. Se realiza un estudio experimental en tres fases: creciente, decreciente y estacionaria. En cada fase se compara la evolución de la estructura con reorganizaciones locales y sin ellas, poniendose de manifiesto el aporte de las reorganizaciones locales en la optimización de la ocupación, sin olvidar el incremento en el número de accesos.

Árboles Quintarios: Estudio Experimental para las Interrogaciones Exactas, Parciales, en Rango y en Rango Parcial.
Santana, O.; Mayor, O.; Díaz, M.; Reina, S.
Actas de la XIII Conferencia Latinoamericana de Informática. Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1148/1168.
Se presenta un estudio experimental del costo de almacenamiento y el tiempo de respuesta en un árbol Quintario para un sistema de recuperación de información basado en las interrogaciones exacta, parcial, en rango y en rango parcial.

Búsqueda de los M-Vecinos Más Próximos en el Árbol-BD.
Santana, O.; Díaz, M.; Mayor, O.; González, J.
Actas de la XIII Conferencia Latinoamericana de Informática. Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1106/1121.
En este trabajo se presenta la petición de los m-vecinos más próximos en el árbol-BD. Se introduce un tipo de solapamiento en los descensos alternativos denominado solapamiento exterior (exterior de interior), que mejora el tiempo de respuesta. Además se muestra experimentalmente como influye en el tiempo la dimensionalidad, el tamaño de la celda y el número de vecinos más próximos.

Comportamiento del Árbol-BD en las Fases Creciente, Decreciente y Estacionaria.
Santana, O.; Mayor, O.; Díaz, M.; López, G.
Actas de la XIII Conferencia Latinoamericana de Informática. Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1093/1105.
Este artículo lleva a cabo un estudio experimental de la estructura denominada árbol-BD. Esta estructura ha sido mejorada en las extracciones mediante una operación de recombinación que no permite punteros nulos y optimiza la ocupación. Dicho estudio aparece dividido en tres fases: creciente, decreciente y estacionaria, cada una de ellas caracterizada por el tipo de operaciones a realizar. Previamente se han realizado una serie de pruebas destinadas a comparar las características de dos posibles redistribuciones locales alternativas, a fin de escoger la más adecuada.

Esquemas y Estructura para la Búsqueda de las Palabras Más Similares a una dada.
Santana, O.; Díaz, M.; Mayor, O.; Reyes, J.
Actas de la XIII Conferencia Latinoamericana de Informática. Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1169/1189.
El problema que se aborda en este trabajo consiste en la recuperación desde un diccionario del conjunto de palabras más similares a una palabra de búsqueda. Se introduce el cálculo de una distancia que es independiente de la posición que ocupan los caracteres en las palabras, utilizada como un filtro para el cálculo de la distancia de Wagner y Fischer a fin de mejorar el rendimiento del esquema de búsqueda cuando sólo se utiliza como criterio de similitud esta última distancia.

Análisis Experimental de los Esquemas de Inserción del Árbol-B.
Santana, O.; Cabrera, J.; Díaz, M.; Mayor, O.
Informática y Automática, A.E.I.A., Madrid.
1986.
1/20.
En este trabajo se realiza un estudio experimental comparativo de los
esquemas de inserción con y sin rotación en los árboles B y B*.


Última actualización: 19 - Febrero - 2009