Procesamiento de Texto

Slides:

Advertisements

Presentaciones similares

Google como Ejemplo de M á quinas de B ú quedas M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

Advertisements

Conceptos de sistemas de información 4 Sistema de información formal –Es un medio informativo organizacionalmente eficaz, que es diseñado con la finalidad.

Bases de datos II Universidad del Cauca Ing. Wilson Ortega.

Presentado por: Stefanny Salas Jimenez

A NÁLISIS L ÉXICO Y ANÁLISIS SINTÁCTICO. COMPILADORES ANÁLISIS LÉXICO Y ANÁLISIS SINTÁCTICO ANGIE EVILLA LUQUEZ CORPORACIÓN UNIVERSITARIA REMINGTON INGENIERÍA.

NIVELES DE MEDICION NIVEL DE MEDICION NOMINAL Hay 2 o mas categorías del ítem o la variable. Las categorías no tienen orden ni jerarquía. NIVEL DE MEDICION.

República Bolivariana de Venezuela Instituto Universitario Politécnico “Santiago Mariño" Estadísticas I - OV Estadística Profesor : Bachiller: Pedro Beltrán.

NORMAS TÉCNICAS PARA PRESENTACIÓN DE TRABAJOS ESCRITOS

Enfoque de los comunicadores:

TERMINOLOGÍA BÁSICA Informática: conjunto de conocimientos científicos y técnicas que hacen posible el tratamiento automático y racional de la información,

METODOLOGÍA DE SISTEMAS

Base de datos El almacenamiento, manipulación y recuperación de información en forma eficiente, es vital y estratégico para cualquier organización. Las.

LOS ADJETIVOS Los adjetivos son palabras SON PALABRAS QUE NOS DICEN COMO SON O COMO ESTAN LAS PERSONAS , LOS ANIMALES Y LAS COSAS Y ACOMPAÑA A LOS.

SAP Business One, Versión 9.0

Fundamentos de programación

NORMAS TÉCNICAS PARA PRESENTACIÓN DE TRABAJOS ESCRITOS

El proceso de Investigación y búsqueda de Información.

Elaboración del formulario

Uso de información estadística con valor agregado

Conceptos teóricos sobre Lenguajes Documentales y Clasificación

HILOS EN SISTEMAS DISTRIBUIDOS

CAPÍTULO 9: DETECCIÓN DE LÍNEAS

BASES DE DATOS con Libreoffice base

MÉTODO DE GRADACIÓN PRESENTADO POR : Carolina Castro Laura Vásquez

Desarrollo Actividad Número 3

Tema 1 El método científico

Descripción e interpretación de la estadística

La Pregunta de Investigación

TÉCNICAS E INSTRUMENTOS DE RECOLECCIÓN DE DATOS

Fundamentos de Probabilidad

Tema 4 Elementos para el Desarrollo de Algoritmos

Introducción a la Simulación

ESTADISTICA GENERAL.

YADITH MARIA BUSTAMANTE VASQUEZ

Motores de busqueda.

Qué son y características generales

CONSULTA DE BASES DE DATOS

El proyecto del Diccionario del Español de México (DEM)

CLASIFICACIÓN DE COSTOS

Herramientas tecnológicas

el libro tenga más sentido.

Conceptos de bases de datos

Análisis comparativo entre CMMI e ISO

PROCESO DE DESARROLLO ESTRATÉGICO DE UNA ORGANIZACION

PROFESORA : Nelva Luz Koo Panduro

NORMAS TÉCNICAS PARA PRESENTACIÓN DE TRABAJOS ESCRITOS

Sabes Que es un ALGORITMO

Parte I: Introducción a la Documentación Jurídica

MODELO ADDIE. MODELO ADDIE El modelo ADDIE es un proceso de diseño Instruccional interactivo, en donde los resultados de la evaluación formativa de.

Tema 1 Fundamentos de Informática

OBJETIVOS E HIPÓTESIS Curso: Taller de tesis

Redes I Magistral Nro. 10 Capa 5: Sesión

Dr. Carlomagno Araya Alpízar

EJEMPLO DE BÚSQUEDA AVANZADA EN GOOGLE

1.5 EL PROCESO DE SIMULACIÓN

Enfoque de los comunicadores:

Estadística Descriptiva

Sistema de Búsqueda de Respuestas

Silvia Castillo Barrera

Lingüística computacional

MC Beatriz Beltrán Martínez Verano 2018

Evaluación de Proyectos con riesgo

Instituto Tecnológico de Zacatecas

Recuperación de Información

HAZME UNA PREPOSICIÓN.. PALABRAS INVARIABLES

INTRODUCCIÓN A LA INFORMÁTICA

Dirección de correo Autor1, Autor2, Autor3

Capítulo 5 La sintaxis.

Transcripción de la presentación:

Procesamiento de Texto UCR – ECCI CI-2414 Recuperación de Información Prof. Bach. Kryscia Daviana Ramírez Benavides

Aspectos Generales El procesamiento de texto puede ser visto como un proceso que controla el tamaño del vocabulario, es decir, el número de palabras usadas como claves. Se asume que el uso de un vocabulario controlado lleva a un mejoramiento en el rendimiento de recuperación. Sin embargo, la reducción del vocabulario puede hacer más difícil para el usuario la especificación de una consulta como la interpretación de una respuesta.

Aspectos Generales (cont.) El procesamiento de un texto puede ser dividido en cinco tipos de operaciones de texto: Análisis léxico del texto, con el objetivo de tratar dígitos, puntuaciones, guiones, mayúsculas/minúsculas, etc. Eliminación de stopwords, con el objetivo de filtrar palabras con baja capacidad discriminadora para propósitos de recuperación. Selección de palabras claves. Stemming, con el objetivo de permitir la recuperación de documentos conteniendo términos de una consulta con variaciones sintáticas. Construir estructuras de categorización de términos, tales como tesaurus.

Aspectos Generales (cont.)

Aspectos Generales (cont.)

Aspectos Generales (cont.)

Análisis Léxico Convierte una cadena de caracteres en una cadena de palabras. Además de separar palabras por espacios, este análisis debe considerar los siguientes casos: Dígitos. En general números no son buenos candidatos de palabras claves. Sin embargo, la normalización de ciertos números en el contexto de ciertas palabras pueden ser relevantes para la recuperación de información. Guiones. Puede que sea o no sea relevante la eliminación de guiones. En general, se adopta una regla y se agregan excepciones. Tildes y caracteres especiales. Puede que sea o no sea relevante la eliminación de tildes y caracteres especiales. En general, se adopta una regla y se agregan excepciones. Los signos de puntuación son generalmente removidos. Generalmente el texto es transformado a mayúscula o minúscula.

Eliminación de Stopwords En un primer paso todas las palabras son buenos candidatos. Las palabras que aparecen con frecuencia entre los documentos no son buenas para la recuperación de información. Así palabras que aparecen en más del 80% de documentos no son consideradas y se les llama “stopwords”: artículos, pronombres, preposiciones y conjunciones son candidatos naturales. Se suele tener una lista de palabras que no son buenos términos de indexación llamada STOPLIST, Lista de Palabras Vacías o Diccionario Negativo.

Eliminación de Stopwords (cont.) La salida del analizador léxico es comprobada con la STOPLIST y se eliminan los términos que aparecen en ella. Incorporar la eliminación de las palabras vacías en el analizador léxico: Es más eficiente. No suele ser necesario en la mayoría de los casos.

Eliminación de Stopwords (cont.) Beneficios: La indexación es más rápida Las palabras vacías aparecen mucho y su lista de referencias es muy grande: Si las quitamos el archivo invertido será más pequeño. El archivo invertido se reduce en un 30% ó 40%. Aumenta la eficiencia, ya que mejora la selección de palabras claves. Por otro lado, la eliminación de stopwords puede reducir el recall, lo que hace que sea interesante la indexación del texto completo.

Selección de Palabras Claves Cuando el texto completo es adoptado, todo se indexa. Para una selección automática, un buen enfoque es el uso de sustantivos. Aunque, también se usan los adjetivos, verbos y muchas veces los adverbios. Debido a que es común combinar dos o tres sustantivos en un único concepto, se pueden usar grupos de sustantivos. Un grupo de sustantivos es el cual tiene una distancia sintáctica en el texto que no excede un umbral especificado.

Lematización o Stemming Stem es lo que queda de una palabra después de eliminar todos los prefijos y sufijos. Consiste en convertir todas las palabras parecidas a una forma común (literalmente “obtención del tronco”). No es hallar la raíz léxica. Stemming también reduce el tamaño del índice, ya que el número de palabras también es reducido. Se pretende agrupar términos en un solo término de indexación. Obtención mediante patrones.

Lematización o Stemming Sin embargo, algunos sistemas prefieren no aplicar stemming, ya que existen estudios con resultados contradictorios. Técnicas: Búsqueda en una tabla que tiene todas las derivaciones de un término común. Sencillo. Problemas: Hay que construir la tabla. Es difícil para palabras específicas a un dominio.

Lematización o Stemming Técnicas: Obtención de la variedad de sucesores: Propiedad estructural de la mayoría de los Lenguajes. Las terminaciones de las palabras siguen determinadas pautas. No es necesario construir una tabla pues se construye a partir de una colección Consiste en agrupar palabras con la misma raíz. Ej.: disco, discos, discoteca, discografía. N-gramas: No pretende obtener una forma común, si no determinar clases o grupos de términos. Es heurístico Se buscan los que comparten un nº mayor de n-gramas.

Lematización o Stemming Técnicas: Algoritmos de eliminación de afijos: No son reglas heurísticas. Son reglas que aplicadas a las palabras nos dan su forma común. Se basan en reglas gramaticales aplicadas al revés. El más conocido y usado es el algoritmo de Porter: 30 – 40 reglas. Sólo elimina sufijos. Ventajas: Con un número pequeño de reglas obtengo una buena eficiencia. Ante una nueva palabra puedo sacar su raíz. Desventajas: Hay que construir la tabla de reglas. Dependen del idioma.

Tesaurus El propósito de un tesaurus es: Entregar un vocabulario estándar. Ayudar a los usuarios a localizar palabras para la formulación de consultas. Dar una jerarquía de clasificación para modificar la consulta.