Margarita Alonso Ramos Master LUP 2011

Slides:



Advertisements
Presentaciones similares
EL SIGNO LINGÜÍSTICO.
Advertisements

La oración compuesta (III)
Internet y tecnologías web
PARTES DE LA GRAMÁTICA.
LA CONJURACIÓN DE LAS PALABRAS
MORFOLOGÍA: La estructura de la palabra
Lingüística: ciencia que estudia la lengua
TERMINOLOGÍA EN ESPAÑOL
TERMINOLOGÍA EN ESPAÑOL
La lengua como sistema Desde el punto de vista de la lengua como sistema, los niveles de indagación y formalización lingüísticas se distinguen 4 pilares.
Lenguaje Lic. Carlos Marenales
Rocío Contreras Águila Primer Semestre 2010
Introducción a LAS Bases de Datos
Mapa conceptual Sus orígenes... Originalmente creados por Joseph D. Novak, los mapas conceptuales son instrumentos de aprendizaje basados en representaciones.
Tema 4 : Categorías gramaticales El verbo BLOQUE DE LENGUA.
La web semántica y su impacto en la recuperación de información
¿Cómo hacer para que una máquina comprenda el LN?
ESQUEMA. MORFOSINTAXIS
Predicado Integrantes - José Carlos Gutiérrez - Diego Reyes
Analizadores Sintácticos Descendentes Predictivos
Del sonido a la escritura
Propiedades textuales
El ordenador como herramienta en la adquisición del léxico en la enseñanza del alemán en los estudios de Traducción e Interpretación Antonia Montes Fernández.
Ramas de la Lingüística
PARTES DE LA GRAMÁTICA.
Sistema de Gestión de Base de Datos
Definicion Son bases de datos creadas a partir de la información obtenida por programas que sistemáticamente recorren la Internet, localizando recursos.
UNIDAD II Modelo de Datos.
Partes: -Adecuación -coherencia -cohesión -valoración crítica
Los límites del lenguaje son los límites del pensamiento.
EL COMENTARIO LINGÜÍSTICO
2.2. Didáctica de la Morfología
Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.
¿ SABIAS QUE… ◦ Hay mas de familias de palabras en inglés? ◦ un hablante nativo agrega a su léxico unas mil palabras por año? ◦ un estudiante universitario.
MODELOS DE BASES DE DATOS
BASES DE DATOS INTRODUCCION
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
UNIDAD 5 LA COMUNICACIÓN ESPECIALIZADA.
UPV - EHU Konputagailuen Arkitektura eta Teknologia Saila Departamento de Arquitectura y Tecnología de Computadores 1 Sistemas Ubicuos 3. Gestión del contexto.
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
Bases de Datos Orientadas a Objetos (BDOO)
Unidad VI Documentación
LA COMUNICACIÓN Iconos Símbolos Indicios LENGUA Y LITERATURA
MODELO DE VAN DIJK: DIMENSIONES Y NIVELES TEXTUALES
Niveles de estudio de la lengua El nivel fónico El nivel morfológico
¿Qué estudia la lingüística?
Teoría de Autómatas y Lenguajes Formales Informática Técnica de Gestión ESCUELA SUPERIOR DE INFORMATICA Universidad de Castilla-La Mancha Tema 1. Introducción.
¿CÓMO SE ORGANIZA LA LENGUA?

Prof. Fraibet Aveledo Universidad Simón Bolívar
LA MORFOLOGÍA.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) TRADUCTORES Y ANALIZADOR LEXICOGRÁFICO.
El concepto de texto.
Ingeniería de Requisitos
Sintagmas y Oraciones: La GRAMATICA
Prof. Christian Montoya1 Microsoft Access 2010 Conceptos Básicos.
Aproximaciones a los estudios del verbo: problemas y aplicaciones
Lingüística computacional unidad 2. ambigüedad semántica
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
4.2. NIVEL MORFOLÓGICO Lingüística Materia básica. Curso 1º
LA CONSTRUCCIÓN SOCIAL DEL DISCURSO PEDAGÓGICO
Lingüística computacional unidad 2. análisis semántico
Lingüística computacional unidad 2. lexicones y corpus
SUSTANTIVO(p.p.74-77) Palabra variable que nombra a personas, animales cosas o ideas Forma básica: LEX+ MORFEMAS FLEXIVOS DE GÉNERO Y NÚMERO EL GÉNERO.
10/07/2015
Aspectos o facetas de la lengua
¿Qué es la sociolingüística?
EL TEXTO EXPOSITIVO El texto expositivo es un texto en el cual se presenta información sobre un determinado tema. No se pretende transmitir una opinión.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Análisis de fenómenos de fusión en los niveles de la arquitectura gramatical. Sevilla, mayo de 2007.
Transcripción de la presentación:

Margarita Alonso Ramos Master LUP 2011 Tema 4: Diccionario o Base de datos léxicos Margarita Alonso Ramos Master LUP 2011

Organización de la exposición 1. Qué es un léxico computacional 2. Cómo representar la información léxica 3. Aplicaciones de la LexComp 4. Proyectos de LexComp 1. Qué es un léxico computacional Qué elementos son una unidad léxica Qué información contiene una entrada lexicográfica

1. ¿Qué es un léxico computacional? No es solo un diccionario en soporte informático http://elies.rediris.es/elies24/pampillon.htm Los diccionarios en línea o en CD pueden ser una buena herramienta pero el usuario es un humano, no un sistema http://www.diccionarios.com/consultas.php# http://www.ideasafines.com.ar/buscador-ideas-relacionadas.php VOLGA: http://www.realacademiagalega.org/volga/index.jsp DRAE: www.rae.es DicoPortugués: http://www.priberam.pt/dlpo/dlpo.aspx WordReference: http://www.wordreference.com/es/ Bilingüe inglés: http://www.babylon.com/definition/give/Spanish Cambridge: http://dictionary.cambridge.org Merrian-Webster: www.m-w.com/cgi-bin/dictionary?book=Dictionary&va=purchase&x=0&y= htttp://oesi.cervantes.es/TLTODOS/recursos_linguisticos_1.htm

1. ¿Qué es un léxico computacional? Un “almacén” de información léxica accesible por medios manuales o automáticos para sistemas de PLN

1.1.¿Qué se entiende por unidad léxica? Unidades léxicas (UL): sentidos o acepciones Actuar 1 intr. Ejercer una persona o cosa actos propios de su naturaleza 2 Ejercer las funciones propias de un oficio: ~ de secretario.  3 Representar en el teatro o en el cine.  4 Trabajar en un espectáculo público.  5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición.  6 DER. Realizar actuaciones Concepto de acepción (polisemia): Difícil delimitación Diferente según el objetivo aplicativo

¿Qué se entiende por unidad léxica? (2) Granularidad en la diferenciación de sentidos (diccionarios) libro monosémico cerdo monolingües: animal, carne, piel, .... bilingües (desajustes: pig, pork)   El tipo semántico no implica que haya una o más acepciones. diferentes sentidos matices de un mismo sentido ¿?

Polisemia Criterios para limitar la polisemia semánticos: sintácticos: Diferente estructura argumental Diferentes restricciones selectivas sintácticos: diferente subcategorización - diferente construcción ¿Cuándo dejar de subdividir un sentido en nuevas acepciones? good WordNet 12 acepciones Webster 25 acepciones American Heritage 20 acepciones  Definición de principios  Dependiente de la aplicación

1.2. ¿Qué información contienen ? (1) Dependiendo de los objetivos del léxico: La trascripción fonética La categoría gramatical y paradigma morfológico  dar {vdtr}, 1ªconj.   La estructura argumental, patrón sintáctico-semántico básico

¿Qué información contienen ? La estructura argumental, patrón sintáctico-semántico básico   SYNSEM | LOC HEAD | MAJOR V | SUBCAT = <SN [1], SN[2], SP [3]> SEM [dar agente [1], tema [2], beneficiario [3]] 

¿Qué información contienen ? Información semántica: tipo semántico definido en una ontología. chico [HUMANO] ordenador [ARTEFACTO] Restricciones selectivas Relaciones léxicas: Paradigmáticas: sinonimia, antonimia, hiponimia Sintagmáticas: colocaciones Las equivalencias con otras lenguas, ...

Organización de la exposición 1. Qué es un léxico computacional 2. Cómo representar la información léxica 3. Aplicaciones de la LexComp 4. Proyectos de LexComp 2. Cómo representar la información léxica

2. ¿Cómo representar la información? Condiciones del lenguaje de representación del conocimiento 1. Adecuado para mecanismos de inferencia: herencia, reglas léxicas, etc. 2. Eficiente en el acceso a la información

Modelos de representación computacionales Bases de datos Modelos textuales Bases de conocimiento léxico Ontologías

Modelos de representación computacionales Bases de datos relacionales las entradas se representan en tablas cada tabla consta de diversos rasgos que toman valores Cat = N Gen = Fem ventajas software convencional de gestión de base de datos (Access de Microsoft) mantenimiento, eficiencia y facilidad de interrogación gran capacidad expresiva limitaciones: - falta de estructura jerárquica excesiva uniformidad poco apropiadas para los rasgos de tipo textual

Modelos de representación computacionales Modelos textuales Corpus en bruto: Frecuencias léxicas Coapariciones de dos o más palabras Corpus etiquetados: morfológicamente sintácticamente semánticamente identificación de colocaciones

Modelos de representación computacionales Representaciones orientadas a objetos NOMBRE-F-REG cat= n tipo = común género= femenino morfología= NFAAS CLASE CLASE EJEMPLARES casas es-un: NOMBRE-F-REG número= plural casa es-un: NOMBRE-F-REG número= singular

Estructuras de Rasgos (ER) Relación de orden parcial: subsunción Modelos de representación computacionales Representaciones basadas en la unificación Estructuras de Rasgos (ER) Relación de orden parcial: subsunción Operación básica: unificación Entradas léxicas: implementadas como ER Dos grandes clases: Formalismos de unificación libre Formalismos de unificación tipificada

Modelos de representación computacionales Estructuras de rasgos tipificadas género (OR masculino femenino neutro) número (OR singular plural) categoría (OR nombre verbo adjetivo determinante adverbio pronombre) ...

Modelos de representación computacionales Reglas léxicas Acquilex lex-noun-sign orth = [1] cat : count = + rqs = ind_obj INPUT grinding (LEX-RULE) lex-noun-sign OUTPUT orth = [1] cat : count = - rqs = substance

Modelos de representación computacionales Ontologías semántica basada en una ontología + lengua lengua + lengua + semítica semítica cada sentido se diferencia por uno o más rasgos + lengua + semítica árabe

semántica basada en una ontología lenguaje + lengua programación lengua + lengua + semítica indo-europea semítica + lengua + semítica hebreo árabe ... + árabe

Modelos de representación computacionales (15) Ontologías WordNet - Red de conocimiento léxico-semántica - Relaciones semánticas: sinonimia, hiperonimia, hiponimia, meronimia... - Unidad de descripción: synset

Modelos de representación computacionales (16) Redes semánticas vehículo es-un automóvil 1 ; coche 2 ; carro 2 es-un se-compone-de motor rueda volante ambulancia es-un es-un ranchera;furgón taxi

Modelos de representación computacionales (17) Problemas incompleto: dominios poco o nada representados sentidos básicos que no aparecen Granularidad excesiva: Hombre= el que sirve en el ejército (10) opuesto a hembra opuesto a esposa carácter de hombre ... Criterio poco claro de sinonimia  hiperonimia/hiponimia

Lexical Conceptual Structure (R. Jackendoff) Ejemplos de entrada léxica (1) Lexical Conceptual Structure (R. Jackendoff) Descomposición de los predicados en primitivos Representación abstracta de los significados Interacción sintaxis-semántica drink V _____ <NPj> [Event CAUSE ([Thing ]i [Event GO ([Thing LIQUID]j, [Path TO ([Place IN ([Thing MOUTH OF ([Thing ]i)])])])])]

Ejemplos de entrada léxica (2) (Somers) Entrada por defecto para verbos de emoción Emotion-frame (case-Exp) (Synt Form (NP)) (Sem Features (human)) (Synt Function (Subj)) (case Pat) (Synt Form (NP)) (Sem Features (any)) (Synt Function (Dir. Obj Scomp)) (Stype (infinitive gerundive)) Entrada para TO LOVE (LOVE (SyntFor (V)) (class (emotion)))

Léxico generativo (Pustejovsky) Ejemplos de entrada léxica (3) Léxico generativo (Pustejovsky) Tipos complejos  book   ARG1 = x: information ARGSTR = ARG2 = y:phys_obj information·phys_obj QUALIASTR = FORMAL = hold(y,x) TELIC = read(e1,w,x·y) AGENT = write(e2,v,x·y)

Cada UL dispone de tres secciones: Ejemplos de entrada léxica (4) Lexicología Explicativa y Combinatoria (Mel’cuk) Cada UL dispone de tres secciones: Zona semántica: --> etiqueta semántica o definición --> estructura argumental Zona sintáctica: --> medios de realización superficial de los argumentos Zona de funciones léxicas (FFLL)

Ilustración de la Zona Semántica: DISGUSTO 1: Disimulaba el disgusto de estar haciendo algo que no quería hacer etiqueta semántica: ‘estado’ Syn: desgana, desagrado forma proposicional: ‘disgusto de individuo X por hecho Y’ DISGUSTO 2a: Se llevará un disgusto cuando lo sepa etiqueta semántica: ‘sentimiento’ Syn: sofocón, padecimiento DISGUSTO 2b: Aquello fue un gran disgusto para María etiqueta semántica: ‘hecho’ Syn: penalidad, golpe forma proposicional: ‘[hecho Y es] un disgusto para individuo X’ DISGUSTO 3: Ha tenido un disgusto con su cuñada etiqueta semántica: ‘situación’ Syn: disputa, querella forma proposicional: ‘disgusto de individuo X con individuo Y por Z’

Ilustración de la zona de Régimen DISGUSTO 2a Disgusto de individuo X por hecho Y X = I: de N el disgusto de Juan Apos su disgusto A disgusto familiar Y = II: por N disgusto por el suspenso por Vinf disgusto por haber suspendido ante N disgusto ante su marcha

Ilustración de la zona de FFLL DISGUSTO 2a tener un D. (Oper1): tener, sufrir, recibir, llevarse, pasar [un ˜] ; Y causa que X tenga un D.(CausFunc1): dar, producir, acarrear, traer, costar [un ˜ a X] //disgustar [a X] X causa que X tenga un D.(Caus1Func1): cosechar [˜s] intentar no causar un D (nonCausFunc1) : ahorrar, evitar [un ˜ a X] X no manifiesta el D.(nonPerm1Manif): ocultar, disimular [ART ˜ ] el D. de X desaparece(FinFunc1): olvidarse, pasarse [a X]

Organización de la exposición 1. Qué es un léxico computacional 2. Cómo representar la información 3. Aplicaciones de la LexComp

Aplicaciones Recursos (léxicos) Técnicas que incorporan conocimiento lingüístico Sistemas de tratamiento de la información Extracción de información Recuperación de información TA  Aplicaciones: usuario final Lexicografía Autoaprendizaje, Buscadores, etc. Recursos (léxicos)

Aplicaciones (1) Clasificación

Clasificación semántica Aplicaciones (2) Clasificación semántica

Aplicaciones (3) Traducción Automática Diccionario monolingüe ("llegir" VST ALO [raíz] "lleg" ARGS ((($SUBJ N1 (TYPE P1)) OPT ($DOBJ N1 (TYPE P0) N0 (FCP 0) (MD-0 IND)))) CL [modelo de flexion] (IR-E) CMT [prototipo flexivo] "Model: servir" ON CO PLC (NF) TAL [admite -eix-] -EIX AUTHOR "elisabel" DATE "1-Mar-99" SITE "FB52") N1 =nominal, N0 =clausalP1=+HUM, p0 = --HUM FCP 0 =cláusulas subordinadas con "que" ICP 0 =cláusulas de infinitivo PLF NF (arrel no final, requereix desinència)

Aplicaciones (5) Traducción Automática Diccionario Bilingüe Incita/SailLabs "fer" VST --> "retroceder" VST = Tests (XFR-VST-CTEST :MW T :FIXEXPR T :EXPR "enrere") Comment "no ens farem enrere =no retrocederemos" << Fb52 FB52 Elisabel 23-Mar-99 >>   "fer" VST --> "llegar" VST = Tests(XFR-VST-CTEST :MW T :FIXEXPR T : EXPR "tard") Comment "fer tard =llegar tarde" << Fb52 FB52 Elisabel 24-Mar-99 >> "fer" VST --> "pesar" VST =

Organización de la exposición 1. Qué es un léxico computacional 2. Cómo representar la información 3. Aplicaciones de la Lexicografía computacional 4. Proyectos

4. Proyectos lexicográficos DiCE (Diccionario de colocaciones del español) http://www.dicesp.es DiCoInfo (Dicctionario de informática) http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi?ui=es EuroWordNet http://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl FrameNet http://framenet.icsi.berkeley.edu Spanish FrameNet http://sato.fm.senshu-u.ac.jp/sfn20/notes/index2.html