Lingüística computacional unidad 2. análisis sintáctico

Slides:



Advertisements
Presentaciones similares
¿ Que es una muestra?.
Advertisements

SISTEMAS DE INFORMACIÓN I
TERMINOLOGÍA EN ESPAÑOL
TERMINOLOGÍA EN ESPAÑOL
Lenguaje Lic. Carlos Marenales
FORMAS DE RECOLECCION DE DATOS
¿Cómo hacer para que una máquina comprenda el LN?
Taller de comunicación
FUNDAMENTOS DE PROGRAMACIÓN
UNIVERSIDAD TECNICA DE AMBATO
COMPETENCIAS PROYECTO TIC UNIVERSIDAD PONTIFICIA BOLIVARIANA
Propiedades textuales
TIPOS O ENFOQUES DE INVESTIGACION
PARADIGMAS DE LA EVALUACIÓN
CAPITULO 2 La Representación del Conocimiento
Análisis del Contenido
METODOLOGIA DE LA PROGRAMACION
La estructura de la oración Sintaxix Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto.
Muestra: Recolección de Datos: Análisis de Datos:
PRESENTADO POR: LUZ KARIME SARMIENTO URREA STEFANY FRANCO MOSMOS
MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)
Formulación de la metodología
MÉTODOS Y TÉCNICAS DE INVESTIGACIÓN
LECTOESCRITURA.
COMPUTACIÓN APLICADA FACULTAD DE INGENIERÍA, UAQ Tablas Dinámicas, Macros Ma. Teresa García Ramírez.
ANALISIS SINTACTICO Parte I
EL CONOCIMIENTO CIENTÍFICO
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
PRUEBA SABER MATEMÁTICAS 3° Y 5°
METODOLOGÍA DE LA INVESTIGACIÓN EDUCATIVA
UNIVERSIDAD AUTONOMA SAN FRANCISCO Asignatura: METODOS DE ESTUDIO Tema: Análisis y Selección de Contenidos.
Investigación en procesos de Aprendizaje Abordaje desde el AEC
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
GRÁFICOS ESTADÍSTICOS
Antecedentes. Universidad de Costa Rica Programa de Lexicografía- INIL Escuela de Formación.
Análisis de Sistemas.
Profesor: Rubén Rodríguez (c) PhD
METODOS ESPECIFICOS.
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
ANÁLISIS DE LA INFORMACIÓN Descripción de los datos
Técnicas de Indización y Resumen Félix del Valle Gastaminza 5º A Licenciatura en Documentación Curso
Programación de Sistemas FEI – 2008
METODOS ESPECIFICOS.
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
“Introducción a las Ciencias de la Informática”

Tecnologías para el Aprendizaje
LA MORFOLOGÍA.
UNIVERSIDAD LATINA (UNILA)
Estándares de Matemáticas
El ojo sólo ve lo que su mente le permite.
JUDITH MEECE ESTRADA GARCÍA RUTH GONZÁLEZ PADILLA MIRIAM NOEMI
UNIVERSIDAD DE LOS ANDES FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES POSTGRADO EN CIENCIAS CONTABLES METODOLOGÍA I SESIÓN 1 LA INVESTIGACIÓN CIENTÍFICA.
Son criterios claros y públicos que permiten conocer lo que deben aprender los niños, niñas y jóvenes, y establecen el punto de referencia de lo que están.
Presente un cuestionario con los aspectos mas importantes sobre los
Metodología de la programación
Elementos de información
ANÁLISIS ESTRUCTURADO
Investigación cualitativa e Investigación cuantitativa
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Lingüística computacional unidad 2. análisis semántico
Lingüística computacional unidad 2. lexicones y corpus
IV. GRAMÁTICAS DISTRIBUIDAS Y TABLAS DE SÍMBOLOS
LENGUA Y LITERATURA Curso
Erendira Rodríguez Estrada
ESTADÍSTICA DESCRIPTIVA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Programación I Prof. Carolina Cols. Algoritmo es una lista bien definida, ordenada y finita de operaciones que permite hallar la solución a un problema.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Transcripción de la presentación:

Lingüística computacional unidad 2. análisis sintáctico Ana María Tangarife Patiño

Algo de historia… El análisis cuantitativo de textos se remonta al siglo XVIII. Algunos autores (Krippendorf y Rosengren) situán el inicio del análisis de contenido en Suecia Recuento de los símbolos religiosos presentes en una colección de 90 himnos. Otros autores (Berelson) consideran que el análisis de contenido nace en Estados Unidos en 1787 Un periódico cuantificó los elementos básicos del perfecto discurso antifederalista, con trece menciones a la libertad de prensa, una a la libertad, una a la esclavitud y dieciocho a la aristocracia.

A principios del siglo xx Surge el análisis textual como procedimiento científico Hasta la actualidad Diversas técnicas de análisis textual que difieren entre sí por: Objetivos Procedimientos Grado de interpretación del texto Subjetividad

Tipos o niveles de análisis de contenido Objetividad/subjetividad OBJETIVIDAD Análisis de contenido de carácter estrictamente cuantitativo. Supuesto: Las palabras utilizadas más frecuentemente por el autor del texto son indicativas de los intereses del autor Se evita cualquier tipo de interpretación o de inferencia respecto al texto. SUBJETIVIDAD Análisis de contenido a partir de los sentidos. La hermenéutica pretende captar los significados ocultos más allá de la apariencia inmediata. Supuesto: Las experiencias humanas, el lenguaje, no son directamente accesibles y para abordarlos es preciso realizar una lectura interpretativa. ZONA INTERMEDIA Técnicas como la semántica analítica que presupone que el texto tiene una estructura abierta que posibilita la creación de nuevas perspectivas Se procede estableciendo relación entre diferentes categorías textuales, para presentarlas posteriormente de forma más sistemática que el propio texto.

Análisis textuales informatizados Existen diversos programas Poseen características propias Persigue objetivos diferenciados Aspectos comunes Objetividad en el tratamiento del material verbal Tiene en cuenta simultáneamente variables intratextuales y variables extratextuales Establecen relaciones entre las variables estudiadas. Aspectos divergentes Tipo de análisis: objetivo / subjetivo Elementos observables

ENFOQUES DE ANÁLISIS Cuantitativo-objetivo vs. Cualitativo-subjetivo Aproximación ecléctica al análisis textual ¿Por qué no utilizar para un mismo texto una técnica informatizada y otra mas subjetiva y cualitativa? Esto permite: Enriquecer la comprensión del texto Descubrir los posibles aspectos comunes y divergentes entre ambos procedimientos Las diversas técnicas no tienen porqué ser mutuamente excluyentes sino que pueden ser complementarias

lexicometría Enfoque cuantitativo del estudio de los textos que permite establecer relaciones estadísticas La unidad de medida es la forma gráfica, entendida esta como la unidad léxica completa: palabra Se tiene en cuenta la forma de la misma y su entorno con el fin de reconocer su comportamiento textual Índice de frecuencias: número de ocurrencias Concordancias: localización del conjunto de ocurrencias Segmentos repetidos: frecuencia igual o superior a dos

Lexicometría. procedimientos Índices estadísticos y comparaciones entre distintos textos del corpus: Análisis factorial de correspondencias: comparar las distintas partes del corpus según el vocabulario utilizado y su frecuencia de utilización para establecer similitudes Método de las especificidades: evaluar si una forma gráfica tiene una presencia significativamente más alta en determinadas partes del corpus, el tamaño de la muestra

Preguntas para realizar Análisis morfológico y sintáctico de la lengua Son muchas las preguntas que puede hacerse con respecto a estos asuntos que varían según el enfoque teórico y las necesidades específicas Inventario de unidades morfológicas y sintácticas Caracterización morfológica y/o sintáctica Identificación de variaciones de las distintas formas Etc. El objetivo del análisis sintáctico puede resumirse en la comprensión de cómo son las lenguas, cómo han evolucionado a partir de otras o cuáles son las semejanzas y diferencias entre unas y otras.

Categorías sintácticas Se tienen símbolos terminales, pre-terminales y no- terminales. Terminales: son palabras del léxico; Pre-terminales: se usan como categorías de las gramáticas libres adjetivo: califica a un nombre adverbio: califica a un verbo auxiliar: verbo que se utiliza acompañando a otro para añadir algún significado determinante: especifica sustantivo: se refiere a un objeto o entidad preposición: denota posición pronombre: hace referencia a una persona, animal, planta o cosa sin usar su nombre verbo: hace referencia a una acción. No-terminales: sirven para escribir reglas que describen frases (agrupaciones de palabras) frase nominal frase verbal Sentencia

Estrategias de análisis sintáctico descendente y ascendente Esta estrategia es conocida como conducida por hipótesis, pues esencialmente opera proponiendo que la cadena de entrada Ejemplo: “Ellos están comiendo pollo” Está representada en su totalidad por un símbolo de la gramática; en tal ejemplo se puede suponer que dicho símbolo es SENTENCIA:

Estrategias de análisis sintáctico descendente y ascendente (2) Se puede entonces escribir los símbolos no- terminales en los que deriva SENTENCIA y también seleccionar uno de los no-terminales para expandirlo :

Estrategias de análisis sintáctico descendente y ascendente (3)

Estrategias de análisis sintáctico descendente y ascendente (4)

En cuanto a las herramientas, se distinguen Programas en los que el usuario debe realizar la tarea dispendiosa de segmentar las unidades mayores en unidades más pequeñas y caracterizarlas. Aquellos que facilitan la labor del investigador (organización de la información, por ejemplo) Siempre se requiere un analista humano

Parsers O analizadores morfológicos y/o sintácticos Programas que utilizan un conjunto de reglas de estructuración y un inventario de expresiones básicas (lexicón) Estos programas permiten dar cuenta de una expresión y, por ello, es posible también llamarlos “estructuradores en constituyentes”

Parsers niveles de complejidad Trabajan en distintos niveles de complejidad: Palabra como unidad fonológica Palabra como unidad morfológica Frase Oraciones Textos En cada nivel se emplea un conjunto diferente de reglas (gramática) y un diccionario acorde al nivel. Las reglas se construyen de tal manera que generen y/o interpreten las unidades de la(s) lengua(s) en cuestión El diccionario es organizado por categorías

Programas de análisis sintáctico disponibles Varían según el nivel de análisis, la forma en que se presentan los resultados y el formato empleado en la construcción de la regla (condicionantes, con restricciones) En principio tenemos parser de dos formas Morfológico: que analiza las palabras en sus morfemas Sintáctico: que analiza frases y oraciones en constituyentes o palabras a nivel lexical

ANÁLISIS MORFOLÓGICO NO AUTOMÁTICO (asistido) ALCHEMIST Tareas Lista de palabras en un corpus Filtro de palabras (con expresiones regladas) Categorización de los morfemas Almacena resultados en XML Resultados Muestra lista de partículas caracterizadas EXTRACT Búsqueda inteligente en internet Lematización Marcador sintáctico-morfológico Resultados sobre un buscador de internet EMDROS Análisis morfológico de textos anotados Búsqueda en textos extensos Administración de búsquedas

ANÁLISIS MORFOLÓGICO NO AUTOMÁTICO (asistido) LINGÜÍSTICA Tareas Aprendizaje sin supervisión de las lenguas naturales Extracción automática de afijos y raíces Comparación de estándares morfológicos Resultados Se muestran en varias tablas dentro de la misma ventana TIGER SEARCH Búsqueda de relaciones sintácticas en corpus etiquetados Usa un lenguaje de búsqueda (relaciones booleanas) Gráficos en forma de árbol XEROX LINGUISTICS ENVIRONMENT Etiquetador a varios niveles Enfocado al nivel de la oración Categorización en forma de texto

ANÁLISIS MORFOLÓGICO NO AUTOMÁTICO (asistido) MINPAIR Tareas Extracción de pares mínimos dentro de un corpus Resultados Presenta resultados en forma de texto SFST (THE STUTTGART FINITE STATE TRANSDUCER TOOLS) Conjunto de herramientas de programación que facilitan el trabajo a nivel morfológico Según necesidad del usuario

ANÁLISIS MORFOLÓGICO AUTOMÁTICO PC-KIMMO Tareas Arroja la estructura morfológica de una palabra Resultados Texto en el editor de comandos de DOS LINK PARSER Identifica la estructura siguiendo la sintaxis LG (link gramar) Permite que el usuario inserte las funciones dentro de sus programas Genera relaciones entre pares de palabras CLARK SYSTEM Tiene un analizar morfológico y un interpretador parcial de estructura Puede implementarse en XML Según necesidad del usuario y las hojas de diseño disponibles

ANÁLISIS MORFOLÓGICO AUTOMÁTICO TIGER SEARCH Tareas Búsqueda de relaciones sintácticas en corpus etiquetados Interpreta comandos XML Resultados Gráficos en forma de árbol AGME Identifica la estructura linealmente siguiente la sintaxis propuesta en el texto Genera la palabra junto con la información morfológica en una ventana de diálogo

ANÁLISIS SINTÁCTICO AUTOMÁTICO PC-PATR Tareas Utiliza unas reglas y un lexicón Genera la estructura sintáctica de oraciones en diagramas arbóreos Resultados Muestra la estructura sintáctica de una expresión GRAMMAR AND TREE Genera estructura arbórea de la sintaxis Identifica estructuras parentéticas en una expresión Presenta la estructura sintáctica en paréntesis y el diagrama arbóreo LINKGRAMMAR Asigna una estructura sintáctica de una expresión del inglés Presenta la estructura en constituyentes

Importancia de los análisis sintácticos El análisis de contenido ha sido interés clásico Las nuevas herramientas permiten abordar textos de gran longitud. Con técnicas informatizadas es posible analizar, con gran rapidez, desde una autobiografía hasta las sesiones terapéuticas de un paciente Se puede garantizar algún nivel de objetividad en el estudio de textos

ANALIZADORES SINTÁCTICOS Analizar morfosintáctico http://recursos.cnice.mec.es/analisis_sintactico/secundaria/repaso2.php?enlace=1&prev=2 Desambiguador morfosintáctico http://www.gedlc.ulpgc.es/investigacion/desambigua/morfosintactico.htm My stilus http://www.mystilus.com/MorphosyntacticAnalyzer Parse and show http://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.php Analizador Thera http://161.116.36.91/demo_sintactico/anali.php?Aweb=thera&Aidioma=1

Parametrizador morfológico de textos Cálculos estadísticos basados en características morfológicas. Permite la extracción de información sintáctica de un corpus textual. http://tip.dis.ulpgc.es/paramtext/Default.aspx

Referencias Baquero Velásquez, Julia Marlen (2010). Lingüística computacional aplicada. Bogotá: Universidad Nacional de Colombia, 227 p. Behar, Júlia (1993). Aproximación al análisis textual informatizado. Anuario de Psicologia, 59, 61-78 En: http://www.raco.cat/index.php/AnuarioPsicologia/article/ viewFile/61204/88896 Losada García, Luis Javier (2002). Automatización del análisis sintáctico del español. España: Universidad de Las Palmas de Gran Canaria. En: http://www.gedlc.ulpgc.es/docencia/doctorado/pdfs/Tesis Losada.pdf