Procesamiento de Texto

Slides:



Advertisements
Presentaciones similares
Google como Ejemplo de M á quinas de B ú quedas M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Advertisements

Conceptos de sistemas de información 4 Sistema de información formal –Es un medio informativo organizacionalmente eficaz, que es diseñado con la finalidad.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
Presentado por: Stefanny Salas Jimenez
A NÁLISIS L ÉXICO Y ANÁLISIS SINTÁCTICO. COMPILADORES ANÁLISIS LÉXICO Y ANÁLISIS SINTÁCTICO ANGIE EVILLA LUQUEZ CORPORACIÓN UNIVERSITARIA REMINGTON INGENIERÍA.
NIVELES DE MEDICION NIVEL DE MEDICION NOMINAL Hay 2 o mas categorías del ítem o la variable. Las categorías no tienen orden ni jerarquía. NIVEL DE MEDICION.
República Bolivariana de Venezuela Instituto Universitario Politécnico “Santiago Mariño" Estadísticas I - OV Estadística Profesor : Bachiller: Pedro Beltrán.
NORMAS TÉCNICAS PARA PRESENTACIÓN DE TRABAJOS ESCRITOS
Enfoque de los comunicadores:
TERMINOLOGÍA BÁSICA Informática: conjunto de conocimientos científicos y técnicas que hacen posible el tratamiento automático y racional de la información,
METODOLOGÍA DE SISTEMAS
Base de datos El almacenamiento, manipulación y recuperación de información en forma eficiente, es vital y estratégico para cualquier organización. Las.
LOS ADJETIVOS Los adjetivos son palabras SON PALABRAS QUE NOS DICEN COMO SON O COMO ESTAN LAS PERSONAS , LOS ANIMALES Y LAS COSAS Y ACOMPAÑA A LOS.
SAP Business One, Versión 9.0
Fundamentos de programación
NORMAS TÉCNICAS PARA PRESENTACIÓN DE TRABAJOS ESCRITOS
El proceso de Investigación y búsqueda de Información.
Elaboración del formulario
Uso de información estadística con valor agregado
Conceptos teóricos sobre Lenguajes Documentales y Clasificación
HILOS EN SISTEMAS DISTRIBUIDOS
CAPÍTULO 9: DETECCIÓN DE LÍNEAS
BASES DE DATOS con Libreoffice base
POWER POINT.
MÉTODO DE GRADACIÓN PRESENTADO POR : Carolina Castro Laura Vásquez
Desarrollo Actividad Número 3
Tema 1 El método científico
Descripción e interpretación de la estadística
La Pregunta de Investigación
TÉCNICAS E INSTRUMENTOS DE RECOLECCIÓN DE DATOS
Fundamentos de Probabilidad
Tema 4 Elementos para el Desarrollo de Algoritmos
Introducción a la Simulación
ESTADISTICA GENERAL.
YADITH MARIA BUSTAMANTE VASQUEZ
Motores de busqueda.
Qué son y características generales
CONSULTA DE BASES DE DATOS
El proyecto del Diccionario del Español de México (DEM)
CLASIFICACIÓN DE COSTOS
Herramientas tecnológicas
el libro tenga más sentido.
Conceptos de bases de datos
Análisis comparativo entre CMMI e ISO
PROCESO DE DESARROLLO ESTRATÉGICO DE UNA ORGANIZACION
PROFESORA : Nelva Luz Koo Panduro
NORMAS TÉCNICAS PARA PRESENTACIÓN DE TRABAJOS ESCRITOS
Sabes Que es un ALGORITMO
Parte I: Introducción a la Documentación Jurídica
MODELO ADDIE. MODELO ADDIE El modelo ADDIE es un proceso de diseño Instruccional interactivo, en donde los resultados de la evaluación formativa de.
Tema 1 Fundamentos de Informática
OBJETIVOS E HIPÓTESIS Curso: Taller de tesis
Redes I Magistral Nro. 10 Capa 5: Sesión
Dr. Carlomagno Araya Alpízar
EJEMPLO DE BÚSQUEDA AVANZADA EN GOOGLE
1.5 EL PROCESO DE SIMULACIÓN
Enfoque de los comunicadores:
Estadística Descriptiva
Sistema de Búsqueda de Respuestas
Silvia Castillo Barrera
Lingüística computacional
MC Beatriz Beltrán Martínez Verano 2018
Evaluación de Proyectos con riesgo
Instituto Tecnológico de Zacatecas
Recuperación de Información
HAZME UNA PREPOSICIÓN.. PALABRAS INVARIABLES
INTRODUCCIÓN A LA INFORMÁTICA
Dirección de correo Autor1, Autor2, Autor3
Capítulo 5 La sintaxis.
Transcripción de la presentación:

Procesamiento de Texto UCR – ECCI CI-2414 Recuperación de Información Prof. Bach. Kryscia Daviana Ramírez Benavides

Aspectos Generales El procesamiento de texto puede ser visto como un proceso que controla el tamaño del vocabulario, es decir, el número de palabras usadas como claves. Se asume que el uso de un vocabulario controlado lleva a un mejoramiento en el rendimiento de recuperación. Sin embargo, la reducción del vocabulario puede hacer más difícil para el usuario la especificación de una consulta como la interpretación de una respuesta.

Aspectos Generales (cont.) El procesamiento de un texto puede ser dividido en cinco tipos de operaciones de texto: Análisis léxico del texto, con el objetivo de tratar dígitos, puntuaciones, guiones, mayúsculas/minúsculas, etc. Eliminación de stopwords, con el objetivo de filtrar palabras con baja capacidad discriminadora para propósitos de recuperación. Selección de palabras claves. Stemming, con el objetivo de permitir la recuperación de documentos conteniendo términos de una consulta con variaciones sintáticas. Construir estructuras de categorización de términos, tales como tesaurus.

Aspectos Generales (cont.)

Aspectos Generales (cont.)

Aspectos Generales (cont.)

Análisis Léxico Convierte una cadena de caracteres en una cadena de palabras. Además de separar palabras por espacios, este análisis debe considerar los siguientes casos: Dígitos. En general números no son buenos candidatos de palabras claves. Sin embargo, la normalización de ciertos números en el contexto de ciertas palabras pueden ser relevantes para la recuperación de información. Guiones. Puede que sea o no sea relevante la eliminación de guiones. En general, se adopta una regla y se agregan excepciones. Tildes y caracteres especiales. Puede que sea o no sea relevante la eliminación de tildes y caracteres especiales. En general, se adopta una regla y se agregan excepciones. Los signos de puntuación son generalmente removidos. Generalmente el texto es transformado a mayúscula o minúscula.

Eliminación de Stopwords En un primer paso todas las palabras son buenos candidatos. Las palabras que aparecen con frecuencia entre los documentos no son buenas para la recuperación de información. Así palabras que aparecen en más del 80% de documentos no son consideradas y se les llama “stopwords”: artículos, pronombres, preposiciones y conjunciones son candidatos naturales. Se suele tener una lista de palabras que no son buenos términos de indexación llamada STOPLIST, Lista de Palabras Vacías o Diccionario Negativo.

Eliminación de Stopwords (cont.) La salida del analizador léxico es comprobada con la STOPLIST y se eliminan los términos que aparecen en ella. Incorporar la eliminación de las palabras vacías en el analizador léxico: Es más eficiente. No suele ser necesario en la mayoría de los casos.

Eliminación de Stopwords (cont.) Beneficios: La indexación es más rápida Las palabras vacías aparecen mucho y su lista de referencias es muy grande: Si las quitamos el archivo invertido será más pequeño. El archivo invertido se reduce en un 30% ó 40%. Aumenta la eficiencia, ya que mejora la selección de palabras claves. Por otro lado, la eliminación de stopwords puede reducir el recall, lo que hace que sea interesante la indexación del texto completo.

Selección de Palabras Claves Cuando el texto completo es adoptado, todo se indexa. Para una selección automática, un buen enfoque es el uso de sustantivos. Aunque, también se usan los adjetivos, verbos y muchas veces los adverbios. Debido a que es común combinar dos o tres sustantivos en un único concepto, se pueden usar grupos de sustantivos. Un grupo de sustantivos es el cual tiene una distancia sintáctica en el texto que no excede un umbral especificado.

Lematización o Stemming Stem es lo que queda de una palabra después de eliminar todos los prefijos y sufijos. Consiste en convertir todas las palabras parecidas a una forma común (literalmente “obtención del tronco”). No es hallar la raíz léxica. Stemming también reduce el tamaño del índice, ya que el número de palabras también es reducido. Se pretende agrupar términos en un solo término de indexación. Obtención mediante patrones.

Lematización o Stemming Sin embargo, algunos sistemas prefieren no aplicar stemming, ya que existen estudios con resultados contradictorios. Técnicas: Búsqueda en una tabla que tiene todas las derivaciones de un término común. Sencillo. Problemas: Hay que construir la tabla. Es difícil para palabras específicas a un dominio.

Lematización o Stemming Técnicas: Obtención de la variedad de sucesores: Propiedad estructural de la mayoría de los Lenguajes. Las terminaciones de las palabras siguen determinadas pautas. No es necesario construir una tabla pues se construye a partir de una colección Consiste en agrupar palabras con la misma raíz. Ej.: disco, discos, discoteca, discografía. N-gramas: No pretende obtener una forma común, si no determinar clases o grupos de términos. Es heurístico Se buscan los que comparten un nº mayor de n-gramas.

Lematización o Stemming Técnicas: Algoritmos de eliminación de afijos: No son reglas heurísticas. Son reglas que aplicadas a las palabras nos dan su forma común. Se basan en reglas gramaticales aplicadas al revés. El más conocido y usado es el algoritmo de Porter: 30 – 40 reglas. Sólo elimina sufijos. Ventajas: Con un número pequeño de reglas obtengo una buena eficiencia. Ante una nueva palabra puedo sacar su raíz. Desventajas: Hay que construir la tabla de reglas. Dependen del idioma.

Tesaurus El propósito de un tesaurus es: Entregar un vocabulario estándar. Ayudar a los usuarios a localizar palabras para la formulación de consultas. Dar una jerarquía de clasificación para modificar la consulta.