Aprendizaje no supervisado de morfología

Slides:



Advertisements
Presentaciones similares
MORFOLOGÍA: La estructura de la palabra
Advertisements

La estructura de las palabras
CLASES DE MONEMAS MONEMAS: unidades más pequeñas que la palabra con significado. Casa cas-a 1. Lexemas y morfemas Lexemas: parte generalmente.
Morfología verbal CURSO 2012/2013 2ª EVALUACIÓN.
Repaso final de morfología
ESQUEMA. MORFOSINTAXIS
Repaso de morfología.
La formación de palabras
Repaso de morfología.
SPAN 595 – Morfosintaxis Verano 2011 Dr. Waltermire
CLASES DE MONEMAS MONEMAS: unidades más pequeñas que la palabra con significado. Casa cas-a 1. Lexemas: parte generalmente invariable que nos.
LA MORFOLOGÍA.
Lenguajes y Autómatas Alfabeto.- es un conjunto finito no vacío cuyos elementos se denominan símbolos Longitud de una palabra.- Es el número de símbolos.
SISTEMAS DE FORMACIÓN DE PALABRAS. CLASES DE PALABRAS SIMPLESDERIVADASCOMPUESTASPARASINTÉTICAS.
El núcleo del grupo verbal. El verbo 1.El grupo verbal. Estructura del verboEl grupo verbal. Estructura del verbo 2.El empleo de los tiempos verbalesEl.
De la teoría gramatical a la gramática práctica
FORMACIÓN DE LAS PALABRAS (Unidad 1, páginas 12 a 16)
Gramática Niveles de la Lengua.
LA ESTRUCTURA DE LA PALABRA
LA FORMACIÓN DE PALABRAS: DERIVACIÓN Y COMPOSICIÓN
Métodos de compresión sin pérdida de información
Estructura de la palabra.
La Enseñanza de las formas débiles del Inglés.
Tipos de textos.
HUMILLACIONES HUMILL-: monema lexema Del latín humiliatĭo, -ōnis).
Codificación de Shannon-Fano
2.LA FORMACIÓN DE PALABRAS: DERIVACIÓN Y COMPOSICIÓN
LA ESTRUCTURA DE LA PALABRA
Trabajo de Lengua:-La conjugación y la forma verbal.
LENGUAJE, LENGUA Y HABLA. EL SIGNO LINGÜÍSTICO.
Estructura de la cláusula en el discurso oral
ASOCIALES Definición: Que no se integra o vincula al cuerpo social.
La formación de palabras
Anotación morfosintáctica y sintáctica
MORFOLOGÍA FLEXIVA Y DERIVATIVA
4. TIPOS DE VERBOS POR SU COMPLEMENTO
Morfología verbal.
CRITERIOS DE CALIFICACIÓN
Lengua Lengua: es el sistema de signos que tenemos a nuestra disposición para la comunicación.
EL VERBO.
CURSO 2012/2013 2ª EVALUACIÓN Morfología verbal.
Escuela Nacional de Antropología e Historia (ENAH)
EL ANÁLISIS DE FORMAS VERBALES
El microscopio gramatical del español
LA FORMACIÓN DE PALABRAS: DERIVACIÓN Y COMPOSICIÓN
Palabra que proviene de una palabra simple o primitiva.
Morfología de la palabra
LA ESTRUCTURA DE LAS PALABRAS
Escuela de Copenhague Grupo 4 Digna García Mario Muñoz Rosa Mendoza Rosangel Cerrato Verónica Palma.
CICLO DE ASESOTRAMIENTO DE TESIS PARA TITULACIÓN PROFESIONAL I DOCENTE ASESOR: NILTON ALEJANDRO JARA Y CLAUDIO.
Conciencia Fonológica y Aprendizaje de la Lectura Tulia Ocampo Gavira.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (III)
CRITERIOS DE CALIFICACIÓN
ESTADÍSTICA. ESTADÍSTICA La estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos, ya sea para ayudar en.
INSTITUTO DE CIENCIAS Y ESTUDIOS SUPERIORES DE TAMAULIPAS, A.C.
5. Didáctica del plano gramatical
PALABRA. LEXEMAS Y MORFEMAS Las palabras, desde el punto de vista de su estructura, se dividen en partes más pequeñas dotadas de significación a las que.
Unidad 5. Estructura de la palabra.
PROCEDIMIENTOS DE FORMACIÓN
Adquisición del lenguaje ¿Primera lengua? ¿ Segunda lengua? ¿ Ninguna lengua?
Análisis lingüístico automático
Lingüística computacional
Adquisición del lenguaje
LA ESTRUCTURA DE LA PALABRA
Elaboración de un diseño curricular
MORFOLOGÍA: La estructura de la palabra palabr +a raízsufijo significado: (Del lat. parabŏla). 1. f. Segmento del discurso unificado habitualmente por.
Claves del Lenguaje Humano
MORFOLOGÍA: La estructura de la palabra palabr +a raízsufijo significado: (Del lat. parabŏla). 1. f. Segmento del discurso unificado habitualmente por.
La estructura de las palabras
Transcripción de la presentación:

Aprendizaje no supervisado de morfología Escuela Nacional de Antropología e Historia (ENAH) Agosto – diciembre de 2015

Antecedentes Morfología concatenativa niño babi s babi (Indonesio)

Antecedentes Morfotáctica anti-re-elec-cion-ista-s Orden Prefijos + base + sufijos Circunfijos (en-roj-ecer) Afijos Secuencialidad perfec-cion-ista-s *ista-perfec-cion-s

Antecedentes Morfología concatenativa (prefijo* base sufijo*)+

Antecedentes Morfotáctica ANTI~RE~ELEC~CIÓN~ISTA~S prefijo – prefijo- base – sufijo – sufijo – sufijo RE~ELEC~CIÓN~ES Derivación - base – Derivación – Flexión CANT~Á~BA~MOS raíz – VT – TAM – NP

Planteamiento del problema Lingüística Modelos morfológicos generativistas presuponen morfemas y su morfotáctica Están basados en la introspección de un solo hablante (sin corpus)

Planteamiento del problema Lingüística computacional Métodos basados en reglas elaboradas por el investigador Morfología flexiva simple (inglés) La representación de la morfotáctica se hace manualmente (morfología de estados finitos) Fonología de dos niveles (Koskenniemi, 1983; 1984)

Planteamiento del problema Lingüística computacional (actualmente) Búsqueda de un modelo morfológico optimizado e ideal que no toma en cuenta la variación Morfología = comprimir información Morfología = optimización de funciones

Métodos Zellig Harris (1955) Sucesor frecuente: contar los símbolos distintos después de una segmentación posible Las frecuencias más altas (menos predecibles) serán fronteras morfológicas

Métodos gover~n, gover~ned, gover~ning, gover~nment, gover~nor, gover~ns govern, govern~ed, govern~ing, govern~ment, govern~or, govern~s Sucesor frecuente (gover) = 1 (n). Sucesor frecuente (govern) = 6 (e, i, m, o, s, espacio/signo).

Métodos Minimum Description Lenght (MDL) M = Morfología La M que minimice la Longitud de Descripción será la mejor morfología El primer término es qué tan compacta es la morfología El segundo término explica qué tan bien la morfología describe al corpus

Aproximación Aprendizaje morfológico no supervisado ENTRADA PROCESO SALIDA Método computacional no supervisado Descripción morfológica automática Corpus

Objetivos de investigación Descubrir los sufijos y sufitáctica (morfotáctica de sufijos) del español mediante corpus y un método no supervisado de segmentación morfológica automática

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003) Cuantificar características lingüísticas de unidades morfológicas Cuantificar la fuerza de adhesión entre unidades lingüísticas (glutinosidad) No busca un modelo ideal o morfología única Buscar regularidades en un corpus

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003) Los afijos: (i) no ocurren aislados, sino como parte de las palabras (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia (iii) tienen contenido más gramatical

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003) Los afijos: (i) no ocurren aislados, sino como parte de las palabras (medida de cuadros) (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia (medida de economía) (iii) tienen contenido más gramatical (medida de entropía)

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003) Medida de cuadros (Greenberg, 1967) Dos segmentos iniciales (cas~, sill~) y dos finales (~a, ~ita) Forman cuatro palabras del corpus (cas~a, cas~ita, sill~a , sill~ita)

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003) Medida de economía Dada ai::bi Si ai pertenece a un conjunto potencialmente infinito de segmentos poco frecuentes, y bi pertenece a un conjunto pequeño de segmentos muy frecuentes Entonces ai sería una base y bi un afijo

I

I N

I N A

I N A U

I N A U G

I N A U G U

I N A U G U R

I N A U G U R O

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003) Medida de entropía (Shannon y Weaver, 1964) INAUGUR~ARON INAUGUR~ARSE INAUGUR~ASIÓN INAUGUR~E INAUGUR~Ó

Metodología

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)

Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003) NASION~AL~IDAD

Metodología

Metodología

Metodología Generación de autómata morfológico

Metodología Generación de autómata morfológico

Metodología

Resultados /Base~GO/ /ARTAS~GO/ /AYAS~GO/ /KASIKAS~GO/ /Base~ASGO/*(–azgo)

Resultados /Base~GA/ /DELE~GA/ /NABE~GA/ /PUR~GA/ /DISTRAI~GA/ /INTERPON~GA/ /SOBREBEN~GA/ Aparición de /g/ en raíz verbal venir vs venga

Resultados /Base~SO/ /ASENDER/ vs / ASEN~SO/ (–so) /PERMITIR/ vs /PERMI~SO/ (–so) /MASO~SO/, /SELENIO~SO/, /NITRO~SO/ (–oso) /JENERALA~SO/, /SALIBA~SO/ (–azo)

Resultados /Base~Ó/ /Base~I~Ó/ /Base~T~Ó/

Resultados /Base~Ó/ (pretérito de indicativo) /Base~I~Ó/ (pretérito de indicativo 2da. y 3ra. conjugación) /PROMET~I~Ó/, /DIFUND~I~Ó/ /Base~T~Ó/ (cambio consonántico en derivados /T/ por /S/ en la base) /ADOPTAR/ vs /ADOPSIÓN/, /AFECTAR/ vs /AFECSIÓN/ o /INBENTAR/ vs /INBENSIÓN

Resultados /Base~ASIÓN/ /Base~IS~ASIÓN/

Resultados /Base~ASIÓN/ (-ación, forma sustantivos a partir de verbos) /DEKLAR~ASIÓN/, /INAUGUR~ASIÓN/ y /SELEBR~ASIÓN/ /Base~IS~ASIÓN/ (–izar, forma verbos de la primera conjugación a partir de sustantivos y adjetivos) /ESPESIAL~IS~ASIÓN/, /KAPITAL~IS~ASIÓN/ y /DEMOKRAT~IS~ASIÓN/

Resultados

Resultados /Base~AMENTE/ /Base~AD~AMENTE/ /Base~OS~AMENTE/ /TONT~AMENTE/ /Base~AD~AMENTE/ /ORGANIS~AD~AMENTE/ /Base~OS~AMENTE/ /AFECTU~OS~AMENTE/ /Base~IK~AMENTE/ /DEMOKRAT~IK~AMENTE/

Resultados

Resultados /Base~AR/ /Base~T~AR/ /Base~E~AR/ /Base~IS~AR/ /ABANDON~AR/ /ADOPTAR/ vs /ADOPSIÓN/ /Base~E~AR/ /BURBUJ~E~AR/ /Base~IS~AR/ /EKONOM~IS~AR/

/EXIT~O~S/ se asocia a otro patrón Resultados /Base~ITA/ /Base~ITO/ /Base~IT~A/ /Base~IT~O/ /Base~ITAS/ /Base~ITOS/ /Base~ITO~S/ /Base~ITA~S/ /Base~IT~OS/ /Base~IT~AS/ /Base~IT~O~S/ /Base~CITO/ /EXIT~O~S/ se asocia a otro patrón

Resultados Patrones morfotácticos con sufijos derivativos intermedios tanto para derivación nominal como verbal /Base~AL~IDAD/, /Base~AL~MENTE/, /Base~E~AR/, /Base~IK~AMENTE/, /Base~IS~AR/.

Resultados Sufijos muy económicos son segmentados en palabras donde no son sufijos /MAR~SO/, /KAM~IÓN/. El autómata no representa la morfotáctica del encadenamiento de enclíticos. Separar sólo el clítico final.

Resultados Aparición de consonante /g/ en verbos irregulares /INTERPONER/-/INTERPON~GA/ Pérdida de vocal final de la base de derivación /SILBATO/-/SILBAT~AZO/ o /AMBIENTE/-/AMBIENT~AL/ Presencia de vocales temáticas de las tres conjugaciones /Base~A~R/, /Base~E~R/ y /Base~I~R/

Resultados Aparición de vocal /i/ en pretérito de indicativo /Base~I~Ó/ y /Base ~IÓ/. Cambios consonánticos en derivados /ADOPTAR/-/ADOP~SIÓN/, /DESKRIBIR/-/DESKRIP~SIÓN/ o /ESOFA~GO/-/ESOFA~JIKA/. Cambio de acento en presencia de marca de plural /TRIPULA~SI~ÓN/-/TRIPULA~SI~ONES/

Resultados /Base~AD~A/ /Base~AD~A~S/ /Base~AD~O/ /Base~AD~O~S/

Método

Conclusión Método no supervisado para descubrir la morfotáctica de lenguas afijales Permitir comparaciones entre corpus de lenguas o dialectos Este trabajo se inserta en el conjunto de estudios que tratan de explicar la lengua a partir de datos empíricos y no de la introspección de un analista