La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

PLN Nivel superficial y léxico1 Procesamiento superficial y léxico Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico.

Presentaciones similares


Presentación del tema: "PLN Nivel superficial y léxico1 Procesamiento superficial y léxico Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico."— Transcripción de la presentación:

1 PLN Nivel superficial y léxico1 Procesamiento superficial y léxico Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico Lexicones Adquisición de la información léxica

2 PLN Nivel superficial y léxico2 Nivel de procesamiento superficial 1 Preprocesado textual Obtención del documento a procesar acceso a BD acceso a la Web (wrappers) detección de elementos textuales documentos multimedia, páginas Web,... filtrado de meta-información tags HTML, XML,...

3 PLN Nivel superficial y léxico3 Nivel de procesamiento superficial 2 segmentación del texto localización de unidades palabra ortográfica vs palabra gramatical términos multipalabras fechas, fórmulas, siglas, jerga, nombres propios Named Entity Recognition Named Entity Classification palabras desconocidas locuciones, lexías,... identificación de la lengua Beeferman et al, 1999 Ratnaparkhi, 1998 Bikel et al, 1999 Borthwick, 1999 Mikheev et al, 1999 Elworthy, 1999 Adams,Resnik, 1997

4 PLN Nivel superficial y léxico4 Nivel de procesamiento superficial 3 Tamaño del vocabulario (V) Heap's Law V = KN  K depende del texto 10  K  100 N número total de palabras  depende del, para el inglés 0.4    0.6 El vocabulario crece sublinealmente pero no llega a saturarse  tiende a estabilizarse para 1Mb de texto (150.000w) palabras palabras distintas

5 PLN Nivel superficial y léxico5 Nivel de procesamiento superficial 4 word tokens vs word types Distribución estadística de las palabras en el texto Obviamente no uniforme Las palabras más comunes cubren el 50% de las occurrencias Un 50% de las palabras sólo aparecen 1 vez ~12% del texto está constituído por palabras que aparecen 3 veces o menos.

6 PLN Nivel superficial y léxico6 Nivel de procesamiento superficial 5 Ley de Zipf: Ordenamos las palabras de un texto por su frecuencia. El producto de la frecuencia de una palabra (f) por su posición (r) es aproximadamente constante.

7 PLN Nivel superficial y léxico7 Nivel de procesamiento superficial 6 Frecuencia de una palabra vs capacidad discriminante del documento. Stop Words. Palabras muy discriminativas pero poco frecuentes. Las palabras más interesantes tienen frecuencias intermedias.

8 PLN Nivel superficial y léxico8 Colocaciones 1 Expresiones formadas por dos o más palabras que tienen una probabilidad alta de aparecer juntas (con frecuencia contiguas): "Estados Unidos" phrasal verbs ("get up") locuciones, frases hechas, lexías, palabras compuestas terminología Se caracterizan por tener una compositividad limitada (el significado del compuesto no se deduce exactamente del de sus componentes).

9 PLN Nivel superficial y léxico9 Colocaciones 2 Utilidad Extracción de terminología Extracción de relaciones de afinidad y repulsión léxica Lexicografía Computacional Adquisición de locuciones, lexías, etc. Generación del LN Parsing, inducción gramatical

10 PLN Nivel superficial y léxico10 Colocaciones 3 Detección de colocaciones McCallum propone 3 métodos Método 1 Frecuencia de la colocación complementada con un filtro morfológico (sólo algunas tuplas son aceptables: AN, NN, AAN, ANN, NAN, NNN, NPN) Método 2 Colocaciones no adyacentes Media y variancia de la distancia entre los elementos de la colocación

11 PLN Nivel superficial y léxico11 Colocaciones 4 Método 3 Likelihood ratio Decidir qué modelo entre dos posibilidades es más apropiado para describir los datos H 1 hipótesis del modelo 1 (por ejemplo, w 1 y w 2 no forman una colocación, p(w 1 |w 2 ) = p = p(w 1 |-w 2 ) ) H 2 hipótesis del modelo 2 (por ejemplo, w 1 y w 2 si forman una colocación, p(w 1 |w 2 ) = p 1  p 2 = p(w 1 |-w 2 ))

12 PLN Nivel superficial y léxico12 Categorización de las palabras Part of Speech (POS), categoría morfosintáctica. Propiedad formal de un word-type que determina sus usos acceptables en sintaxis. Una POS puede considerarse una clase de palabras Un word-type puede poseer varias POS, un word-token sólo una Categorías plenas abiertas, muchos elementos, neologismos, clases semánticamente ricas e independientes N, Adj, Adv, V Categorías funcionales

13 PLN Nivel superficial y léxico13 Agrupación (clustering) de palabras 1 A veces es interesante crear clases o agrupaciones (clusters) de palabras (ej. generalización, forma de abordar el data sparseness, backoff,...) Factores (features) a tener en cuenta: palabras adyacentes palabras relacionadas sintácticamente palabras cercanas tema del documento...

14 PLN Nivel superficial y léxico14 Agrupación (clustering) de palabras 2 VSM (Vector Space Model) representar cada word-type como un punto en un espacio de k dimensiones (k = tamaño del vocabulario). definir una medida de proximidad (o distancia) entre los puntos p.ej. la distancia euclídea, Dice, Jaccard,... Examinar el espacio de k dimensiones en el que hemos colocado todos los puntos (todos los word-types) para localizar núcleos de agrupación (clusters)

15 PLN Nivel superficial y léxico15 Agrupación (clustering) de palabras 3 Plot in k dimensions (here k=3)

16 PLN Nivel superficial y léxico16 Agrupación (clustering) de palabras 4 Clustering aglomerativo (bottom up) Comenzar con un cluster por punto Iterativamente agrupar los clusters más cercanos Formas de decidir la proximidad entre clusters: single link dist(A,B) = min(dist(a,b)| a  A, b  B) complete link dist(A,B) = max(dist(a,b)| a  A, b  B) average link dist(A,B) = mean(dist(a,b)| a  A, b  B) centroid link dist(A,B) = min(dist(mean(A),mean(B)) Clustering divisivo (top down)

17 PLN Nivel superficial y léxico17 Qué es un lexicón Un lexicón es simplemente un repositorio de información léxica que puede ser utilizada por usuarios humanos o por algún tipo de procesador del lenguaje natural Dos aspectos a considerar Representar la información léxica Adquirir la información léxica

18 PLN Nivel superficial y léxico18 Adquisición del conocimiento léxico qué hace falta codificar en los léxicos computacionales (cuantitativamente y cualitativamente) cuáles son las fuentes de conocimiento idóneas para extraer dicho conocimiento qué métodos de extracción son necesarios para ello.

19 PLN Nivel superficial y léxico19 El contenido de los lexicones computacionales 1 Transcripción ortográfica Transcripción fonética Modelo flexivo Alternancias de diátesis, marcos de subcategorización AMAR VTR(OBJLIST: SN). AMAR CAT = VERBO SUBCAT =

20 PLN Nivel superficial y léxico20 Categoría gramatical (POS) Estructura argumental Información semántica diccionarios => definición léxicos computacionales => asignación de tipos semánticos predefinidos en una jerarquía. Relaciones léxicas derivación Equivalencias con otras lenguas El contenido de los lexicones computacionales 2

21 PLN Nivel superficial y léxico21 Representación del conocimiento léxico expresividad idoneidad representacional idoneidad inferencial eficiencia

22 PLN Nivel superficial y léxico22 Problemas que plantea la representación léxica Forma: pares atributo/valor, rels binarias o n-arias, valores codificados, valores de dominio abierto… Asignaciones múltiples (relaciones uno a varios o varios a varios), dependencias contextuales… Facetas de los rasgos o atributos: obligatoriedad u opcionalidad, cardinalidad, valores por omisión… Gradación en las propiedades: valores exactos, preferencias, asignaciones probabilísticas.

23 PLN Nivel superficial y léxico23 Sistemas de Representación Bases de datos de propósito general Modelos textuales Bases de datos léxicas Sistemas Orientados a Objetos (OO) Bases de datos orientadas a objetos Sistemas basados en esquemas (frames) Sistemas basados en unificación

24 PLN Nivel superficial y léxico24 Bases de datos de propósito general Modelo de datos relacional. Aproximación E/R ventajas rasgos de tipo atributo/valor software convencional de gestión de base de datos capacidad expresiva, mantenimiento, eficiencia y facilidad de interrogación. limitaciones: Fragmentación de los datos Falta de estructura jerárquica Excesiva uniformidad, poco apropiadas para los rasgos de tipo textual.

25 PLN Nivel superficial y léxico25 Modelos textuales Información consistente en texto posiblemente marcado (tipográfico, descriptivo) SGML, TEI, Eagles Obtención de las apariciones de una palabra en un corpus, Coapariciones de varias palabras Uso de expresiones regulares en la consulta Consulta de fragmentos de palabra Uso de comodines, expresiones booleanas, etc...

26 PLN Nivel superficial y léxico26 Las bases de datos léxicas aproximación de dos niveles fuente primaria de datos índices integran en un solo modelo las dos aproximaciones anteriores limitación : a menudo implementaciones ad-hoc Ejemplos de bases de datos léxicas son IBM-LDB [Neff et al. 88] o Acquilex LDB [Briscoe et al. 90].

27 PLN Nivel superficial y léxico27 Sistemas Orientados a Objetos Capacidad deductiva herencia de propiedades transformacione l é xicas Capacidades procedimentales (asertivas) Tratamiento de excepciones.

28 PLN Nivel superficial y léxico28 Bases de Datos Orientadas a Objetos Gesti ó n de la persistencia Dos tipos b á sicos bases de datos orientadas a objetos puras, que extienden algunos lenguajes orientados al objeto como C++, Smalltalk, Eiffel, CLOS, etc … bases de datos orientadas al objeto que extienden sistemas convencionales de gesti ó n de bases de datos => Sistemas basados en esquemas (frames)

29 PLN Nivel superficial y léxico29 Sistemas basados en unificación relaciones de reentrancia. disyunci ó n, negaci ó n, asignaci ó n condicional... formas variadas de herencia (simple, m ú ltiple, mon ó tona, por omisi ó n, etc...) operaciones: generalizaci ó n, reescritura, formas varias de unificaci ó n, etc... Uso de macros, alias, reglas l é xicas, etc... compilaci ó n de las estructuras de rasgos en estructuras m á s eficientes (como t é rminos Prolog)

30 PLN Nivel superficial y léxico30 Sistemas basados en Estructuras de rasgos Dos familias de sistemas basados en rasgos: estructuras de rasgos libres: PATR-II estructuras de rasgos restringidas por tipos: ALE, ALEP, CUF, TFS ER -> tipo que determina su estructura. Taxonom í a de tipos tipo -> restricciones sobre los rasgos rasgo -> tipos apropiados

31 PLN Nivel superficial y léxico31 Adquisición de la información léxica Los Diccionarios como fuente de información MRD Finalidad: codificar información sobre el léxico Estructura interna predeterminada Cierto grado de codificación en determinados contenidos Relaciones internas (sinonimia, hiponimia, etc.) de manera implícita o explícita Vocabulario restringido Sistemática en la elaboración de las definiciones

32 PLN Nivel superficial y léxico32 El proceso de extracción Manualmente introspección auxiliado (p.ej. una estación de trabajo lexicográfica). Automáticamente, utilizando (y posiblemente combinando) fuentes ya disponibles los diccionarios accesibles por ordenador los corpus textuales. En forma semiautomática

33 PLN Nivel superficial y léxico33 Los diccionarios accesibles por ordenador ejemplos: LDOCE, LINKS, OALD, Acquilex

34 PLN Nivel superficial y léxico34 Acquilex

35 PLN Nivel superficial y léxico35 diccionario en soporte electrónico

36 PLN Nivel superficial y léxico36 diccionario editado

37 PLN Nivel superficial y léxico37 estructura parentizada

38 PLN Nivel superficial y léxico38 Análisis de las definiciones ((CLASS pedazo) (PROPERTIES (pequeño (PREP-MOD (DE (OBJECT alguna cosa))))) => Traducción al lenguaje de la BC

39 PLN Nivel superficial y léxico39 Métodos de extracción de relaciones 1 Sinonimia cabaret [fr.] **m.** Cabaré. cabaret SIN cabaré sinonimia aproximada caza **f.** Acción de cazar. caza CASI-SIN cazar

40 PLN Nivel superficial y léxico40 Métodos de extracción de relaciones 2 antonimia. patrones de las definiciones que indican negación abierto **adj** no murado o cerrado abierto ANT murado abierto ANT cerrado descomposición de los lemas antisocial **adj** Contrario a la sociedad, a la convivencia social. antisocial ANT social

41 PLN Nivel superficial y léxico41 Métodos de extracción de relaciones 3 meronimia/ holonimia: patrones. parte de miembro de porción/ trozo/ pedazo/ punta,... de X (entrada) es merónimo de Y (elemento que sigue al patrón en la definición) mano **f.** Parte del cuerpo humano que … mano MER cuerpo humano

42 PLN Nivel superficial y léxico42 Métodos de extracción de relaciones 4 Relaciones entre un nombre y la acción básica en la que está implicado. verbo con su agente, paciente, instrumento, etc. Instrumento patrones que sirve para + V (SN) para + V (SN) que se usa para + V (SN) fotómetro **m.** Instrumento para medir la intensidad de la luz medir (la intensidad...) INVOLVED fotómetro aflicción CAUSA aflictivo

43 PLN Nivel superficial y léxico43 Los corpus como fuentes de información 1 Ventajas: Gran volumen de información Facilidad de clasificación Capacidad de utilización como banco de pruebas para refrendo de teorías o intuiciones. Capacidad de integración de datos experimentales. Posibilidad de utilización de métodos estadísticos de tratamiento.

44 PLN Nivel superficial y léxico44 Los corpus como fuentes de información 2 Dificultades: Casos poco o nada representados. Combinación de métodos estadísticos con métodos basados en conocimiento gramaticales Garantía o control de la coherencia interna. Nivel de completitud suficiente sin sobrerrepresentar Nivel de granularidad deseado para una aplicación concreta. Adaptación a un dominio concreto.

45 PLN Nivel superficial y léxico45 Información contenida en los Corpus Colocaciones Estructura argumental. Frecuencia de aparición de las unidades. Contexto de aparición de las unidades. Inducción gramatical. Análisis probabilístico. Relaciones léxicas. Ejemplos de uso. Restricciones selectivas. Compuestos nominales. Lexías, frases hechas,...

46 PLN Nivel superficial y léxico46 Tipos de corpus Según la información incorporada: Corpus bruto Corpus horizontales o verticales Corpus etiquetados (tagged) Corpus parentizados Corpus analizados treebanks

47 PLN Nivel superficial y léxico47 Los métodos de tratamiento Manual: presentación al lexicógrafo de las apariciones que correspondan al patrón pedido Diversos niveles de preproceso y ayuda Automático técnicas estadísticas Semiautomáticos filtrado manual por parte del lexicógrafo, de los casos propuestos por el sistema.

48 PLN Nivel superficial y léxico48 Aplicaciones Lexicografía Extracción de información Etiquetadores Para el enriquecimiento de corpus Coocurrencias Identificación de unidades léxicas complejas


Descargar ppt "PLN Nivel superficial y léxico1 Procesamiento superficial y léxico Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico."

Presentaciones similares


Anuncios Google