Generación automática de una gramática de estados finitos para la morfología del español

Méndez Cruz, Carlos Francisco

Use el DOI o este identificador para enlazar este recurso: https://ru.enallt.unam.mx/jspui/handle/ENALLT.UNAM/493

Título :	Generación automática de una gramática de estados finitos para la morfología del español
Autor(es) :	Méndez Cruz, Carlos Francisco
Asesor(es) :	Medina Urrea, Alfonso Sierra Martínez, Gerardo
Resumen :	El presente trabajo de investigación propone un método no supervisado de segmentación morfológica automática que infiere parte de la morfotáctica del español. Su principal interés ha sido el descubrimiento de patrones morfotácticos que describan el orden y secuencialidad de unidades morfológicas a partir de datos empíricos (corpus). Este trabajo se aboca únicamente al descubrimiento de bases y secuencias de sufijos (sufitácticas). Con estas unidades se crea un aparato de descripción formal que describe su orden y secuencialidad. Los objetivos planteados son: 1. Descubrir, a partir de corpus y mediante un método no supervisado de segmentación morfológica automática, los sufijos y sufitáctica de la lengua española. 2. Generar, a partir de los sufijos y sufitáctica descubiertos, una gramática de estados finitos que describa la morfotáctica del español. Estos objetivos se llevaron a cabo mediante el procesamiento automático del Corpus del Español Mexicano Contemporáneo, que fue creado bajo criterios estadísticos como muestra representativa del léxico del español mexicano. Para lograr el primer objetivo, se modificó el método propuesto por Medina (2000; 2003), que cuantifica la afijalidad de segmentos al interior de una palabra. Este método propone que los valores más altos de afijalidad dan cuenta de fronteras morfológicas. Después de un primer acercamiento — en el que se desarrolló un truncador morfológico que demostró su efectividad para la tarea de resumen automático de documentos — y diversos experimentos de segmentación morfológica, se determinó la mejor estrategia para el descubrimiento de bases y sufijos de acuerdo a una evaluación hecha mediante un corpus segmentado manualmente. Para el logro del segundo objetivo, se desarrolló un procedimiento que genera un autómata de estados finitos a partir de las unidades descubiertas. Como parte de la experimentación, dos autómatas fueron generados, uno a partir de la representación ortográfica del corpus y otro a partir de su representación fonológica. El autómata generado de esta última representación mostró patrones morfotácticos que no estaban presentes en el otro autómata, por lo que se tomó como mejor descripción de la morfotáctica del corpus. Mediante la evaluación cualitativa de una muestra de patrones morfotácticos inmersos en el autómata, se observó que la gran mayoría son pertinentes y dan cuenta de distintas regularidades morfológicas del español. De esta manera, el método desarrollado incluye los siguientes pasos: 1. Cuantificar la afijalidad de segmentos al interior de la palabra. 2. Descubrir las bases y sufijos mediante una estrategia de segmentación basada en la afijalidad. 3. Descubrir los patrones morfotácticos mediante la generación de un autómata de estados finitos.
Fecha de publicación :	2013
URI :	https://ru.enallt.unam.mx/jspui/handle/ENALLT.UNAM/493
Fuente:	http://132.248.9.195/ptd2013/octubre/0703435/Index.html
Aparece en las colecciones:	Tesis de Doctorado

Texto completo:

Los archivos asociados a este recurso se encuentran en la fuente incluida en este registro.

Mostrar el registro Dublin Core completo del recurso

Este recurso está sujeto a una Licencia Creative Commons