La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Aprendizaje no supervisado de morfología

Presentaciones similares


Presentación del tema: "Aprendizaje no supervisado de morfología"— Transcripción de la presentación:

1 Aprendizaje no supervisado de morfología
Escuela Nacional de Antropología e Historia (ENAH) Agosto – diciembre de 2015

2 Antecedentes Morfología concatenativa niño babi s babi (Indonesio)

3 Antecedentes Morfotáctica anti-re-elec-cion-ista-s Orden
Prefijos + base + sufijos Circunfijos (en-roj-ecer) Afijos Secuencialidad perfec-cion-ista-s *ista-perfec-cion-s

4 Antecedentes Morfología concatenativa (prefijo* base sufijo*)+

5 Antecedentes Morfotáctica ANTI~RE~ELEC~CIÓN~ISTA~S
prefijo – prefijo- base – sufijo – sufijo – sufijo RE~ELEC~CIÓN~ES Derivación - base – Derivación – Flexión CANT~Á~BA~MOS raíz – VT – TAM – NP

6 Planteamiento del problema
Lingüística Modelos morfológicos generativistas presuponen morfemas y su morfotáctica Están basados en la introspección de un solo hablante (sin corpus)

7 Planteamiento del problema
Lingüística computacional Métodos basados en reglas elaboradas por el investigador Morfología flexiva simple (inglés) La representación de la morfotáctica se hace manualmente (morfología de estados finitos) Fonología de dos niveles (Koskenniemi, 1983; 1984)

8 Planteamiento del problema
Lingüística computacional (actualmente) Búsqueda de un modelo morfológico optimizado e ideal que no toma en cuenta la variación Morfología = comprimir información Morfología = optimización de funciones

9 Métodos Zellig Harris (1955)
Sucesor frecuente: contar los símbolos distintos después de una segmentación posible Las frecuencias más altas (menos predecibles) serán fronteras morfológicas

10 Métodos gover~n, gover~ned, gover~ning, gover~nment, gover~nor,
gover~ns govern, govern~ed, govern~ing, govern~ment, govern~or, govern~s Sucesor frecuente (gover) = 1 (n). Sucesor frecuente (govern) = 6 (e, i, m, o, s, espacio/signo).

11 Métodos Minimum Description Lenght (MDL) M = Morfología
La M que minimice la Longitud de Descripción será la mejor morfología El primer término es qué tan compacta es la morfología El segundo término explica qué tan bien la morfología describe al corpus

12 Aproximación Aprendizaje morfológico no supervisado
ENTRADA PROCESO SALIDA Método computacional no supervisado Descripción morfológica automática Corpus

13 Objetivos de investigación
Descubrir los sufijos y sufitáctica (morfotáctica de sufijos) del español mediante corpus y un método no supervisado de segmentación morfológica automática

14 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)
Cuantificar características lingüísticas de unidades morfológicas Cuantificar la fuerza de adhesión entre unidades lingüísticas (glutinosidad) No busca un modelo ideal o morfología única Buscar regularidades en un corpus

15 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)
Los afijos: (i) no ocurren aislados, sino como parte de las palabras (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia (iii) tienen contenido más gramatical

16 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)
Los afijos: (i) no ocurren aislados, sino como parte de las palabras (medida de cuadros) (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia (medida de economía) (iii) tienen contenido más gramatical (medida de entropía)

17 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)
Medida de cuadros (Greenberg, 1967) Dos segmentos iniciales (cas~, sill~) y dos finales (~a, ~ita) Forman cuatro palabras del corpus (cas~a, cas~ita, sill~a , sill~ita)

18 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)
Medida de economía Dada ai::bi Si ai pertenece a un conjunto potencialmente infinito de segmentos poco frecuentes, y bi pertenece a un conjunto pequeño de segmentos muy frecuentes Entonces ai sería una base y bi un afijo

19 I

20 I N

21 I N A

22 I N A U

23 I N A U G

24 I N A U G U

25 I N A U G U R

26 I N A U G U R O

27 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)
Medida de entropía (Shannon y Weaver, 1964) INAUGUR~ARON INAUGUR~ARSE INAUGUR~ASIÓN INAUGUR~E INAUGUR~Ó

28 Metodología

29 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)

30 Metodología Cálculo de índice de afijalidad (Medina, 2000; 2003)
NASION~AL~IDAD

31 Metodología

32 Metodología

33 Metodología Generación de autómata morfológico

34 Metodología Generación de autómata morfológico

35 Metodología

36 Resultados /Base~GO/ /ARTAS~GO/ /AYAS~GO/ /KASIKAS~GO/
/Base~ASGO/*(–azgo)

37 Resultados /Base~GA/ /DELE~GA/ /NABE~GA/ /PUR~GA/ /DISTRAI~GA/
/INTERPON~GA/ /SOBREBEN~GA/ Aparición de /g/ en raíz verbal venir vs venga

38 Resultados /Base~SO/ /ASENDER/ vs / ASEN~SO/ (–so)
/PERMITIR/ vs /PERMI~SO/ (–so) /MASO~SO/, /SELENIO~SO/, /NITRO~SO/ (–oso) /JENERALA~SO/, /SALIBA~SO/ (–azo)

39 Resultados /Base~Ó/ /Base~I~Ó/ /Base~T~Ó/

40 Resultados /Base~Ó/ (pretérito de indicativo)
/Base~I~Ó/ (pretérito de indicativo 2da. y 3ra. conjugación) /PROMET~I~Ó/, /DIFUND~I~Ó/ /Base~T~Ó/ (cambio consonántico en derivados /T/ por /S/ en la base) /ADOPTAR/ vs /ADOPSIÓN/, /AFECTAR/ vs /AFECSIÓN/ o /INBENTAR/ vs /INBENSIÓN

41 Resultados /Base~ASIÓN/ /Base~IS~ASIÓN/

42 Resultados /Base~ASIÓN/ (-ación, forma sustantivos a partir de verbos)
/DEKLAR~ASIÓN/, /INAUGUR~ASIÓN/ y /SELEBR~ASIÓN/ /Base~IS~ASIÓN/ (–izar, forma verbos de la primera conjugación a partir de sustantivos y adjetivos) /ESPESIAL~IS~ASIÓN/, /KAPITAL~IS~ASIÓN/ y /DEMOKRAT~IS~ASIÓN/

43 Resultados

44 Resultados /Base~AMENTE/ /Base~AD~AMENTE/ /Base~OS~AMENTE/
/TONT~AMENTE/ /Base~AD~AMENTE/ /ORGANIS~AD~AMENTE/ /Base~OS~AMENTE/ /AFECTU~OS~AMENTE/ /Base~IK~AMENTE/ /DEMOKRAT~IK~AMENTE/

45 Resultados

46 Resultados /Base~AR/ /Base~T~AR/ /Base~E~AR/ /Base~IS~AR/ /ABANDON~AR/
/ADOPTAR/ vs /ADOPSIÓN/ /Base~E~AR/ /BURBUJ~E~AR/ /Base~IS~AR/ /EKONOM~IS~AR/

47 /EXIT~O~S/ se asocia a otro patrón
Resultados /Base~ITA/ /Base~ITO/ /Base~IT~A/ /Base~IT~O/ /Base~ITAS/ /Base~ITOS/ /Base~ITO~S/ /Base~ITA~S/ /Base~IT~OS/ /Base~IT~AS/ /Base~IT~O~S/ /Base~CITO/ /EXIT~O~S/ se asocia a otro patrón

48 Resultados Patrones morfotácticos con sufijos derivativos intermedios tanto para derivación nominal como verbal /Base~AL~IDAD/, /Base~AL~MENTE/, /Base~E~AR/, /Base~IK~AMENTE/, /Base~IS~AR/.

49 Resultados Sufijos muy económicos son segmentados en palabras donde no son sufijos /MAR~SO/, /KAM~IÓN/. El autómata no representa la morfotáctica del encadenamiento de enclíticos. Separar sólo el clítico final.

50 Resultados Aparición de consonante /g/ en verbos irregulares
/INTERPONER/-/INTERPON~GA/ Pérdida de vocal final de la base de derivación /SILBATO/-/SILBAT~AZO/ o /AMBIENTE/-/AMBIENT~AL/ Presencia de vocales temáticas de las tres conjugaciones /Base~A~R/, /Base~E~R/ y /Base~I~R/

51 Resultados Aparición de vocal /i/ en pretérito de indicativo
/Base~I~Ó/ y /Base ~IÓ/. Cambios consonánticos en derivados /ADOPTAR/-/ADOP~SIÓN/, /DESKRIBIR/-/DESKRIP~SIÓN/ o /ESOFA~GO/-/ESOFA~JIKA/. Cambio de acento en presencia de marca de plural /TRIPULA~SI~ÓN/-/TRIPULA~SI~ONES/

52 Resultados /Base~AD~A/ /Base~AD~A~S/ /Base~AD~O/ /Base~AD~O~S/

53 Método

54 Conclusión Método no supervisado para descubrir la morfotáctica de lenguas afijales Permitir comparaciones entre corpus de lenguas o dialectos Este trabajo se inserta en el conjunto de estudios que tratan de explicar la lengua a partir de datos empíricos y no de la introspección de un analista


Descargar ppt "Aprendizaje no supervisado de morfología"

Presentaciones similares


Anuncios Google