Tema 3. Operaciones sobre el texto

Slides:



Advertisements
Presentaciones similares
el 1, el 4 y el 9 tres cuadrados perfectos autosuficientes
Advertisements

Segmentación, Definición de Público Objetivo y Posicionamiento
Propiedades de los Reales
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
Jacqueline Chávez Cuzcano
Vera Olivera, David Carlos Marín Rosales, Nicolae Harry
Interfases Contables en CIO
© Dr. Iván E. Calimano Formas, usos, etc.
Herramientas informáticas
Tema 6. Evaluación de SRIs
Matemática Financiera 1º ADEUtilización de la Función TIR en el cálculo del tanto efectivo 1 de 37 Cálculo de tantos efectivos Utilización de la función.
Programación entera En muchos problemas reales las variables sólo pueden tomar valores enteros Ejemplos: decisiones sobre inversiones, compras, arranques,
Programación entera En muchos problemas reales las variables sólo pueden tomar valores enteros Ejemplos: decisiones sobre inversiones, compras, arranques,
4. ANÁLISIS FACTORIAL Introducción Modelo factorial ortogonal
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Diseño de AFN’s.
IMPRESIÓN Copia del laboratorio Análisis cualitativo Una introducción…
Procesamiento de cadenas
Exposición: Clustering
UCR – ECCI CI-2414 Recuperación de Información
Generación de Números Seudo-Aleatorios
UPC Tema: ESPACIO VECTORIAL Rn
APLICAWEB SERVICIOS LEGALES DE PUERTO RICO
DESCRIPCION DE SISTEMAS
OPERADORES LÓGICOS Diplomado II
Diseño organizacional,
Sistemas de Ecuaciones
Solución de problema Herramientas aplicables
Tema 1.- Aritmética. 1.-Usar el algoritmo de Euclides para calcular el máximo común divisor de a y b y expresarlo en función de a y b para: a) a= 56,
Introducción a los Números Fraccionarios
DISEÑO Y GESTIÓN DE BASES DE DATOS Luciano H. Tamargo Depto. de Ciencias e Ingeniería de la Computación Universidad Nacional del Sur, Bahía Blanca INTRODUCCIÓN.
Proyecto para Centros que trabajan una vez por semana.
Capítulo: 9 Inventarios.
Ecuaciones Cuadráticas
Oscar Navarrete J. Jorge Gutiérrez A.
Compartir Informacion Compartir Hardware y Software
Integrantes: Matías Damián. Zaida Verdugo. Camila Valenzuela.
La minimización de los costes
Combinadores SK.
Investigación Algorítmica
Investigación algorítmica
Cómo consultar una base de datos o un catálogo en 5 minutos
ESTRUCTURAS DE DATOS AVANZADAS
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
PASOS PARA EL FORMATEO DE UN PC
3. INTRODUCCIÓN A LA PROGRAMACIÓN
Base de Datos Relacional.
CULENDARIO 2007 Para los Patanes.
Índice Sesión I Bloque I (09:30 a 10:30 Horas) Configuración Inicial
La transformada de Laplace
Fundamentos de Administración y Análisis Financiero
POLÍTICA DE PRECIOS.
Agrupamiento de relaciones no lineales entre expresiones de genes
SUCESIONES Y PROGRESIONES.
ANALISIS SINTACTICO El análisis gramatical es la tarea de determinar la sintaxis, o estructura, de un programa. Por esta razón también se le conoce como.
DEMO Slide 1 Press Esc to exit Usando Reason!Able Una guía simple para empezar The Reason Group, June 2001 Tr. Gerardo Bolado
SATISFACCION DE RESTRICCIONES Sección 1-3
Administración del Procesador
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Optimización, Búsqueda Heurística
Operadores lógicos en PHP Programación en Internet II.
Análisis Léxico Área Software de Base.
Tecnologías para el Aprendizaje
ACCESS  Para los campos Texto, esta propiedad determina el número máximo de caracteres que se pueden introducir en el campo. Siendo por defecto.
“CURSO PROPEDÉUTICO PARA EL MEJORAMIENTO DEL PENSAMIENTO MATEMÁTICO”

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Taller de investigación 1
Tema 3. Operaciones sobre el texto
Transcripción de la presentación:

Tema 3. Operaciones sobre el texto Sistemas de Gestión Documental

Introducción No todas las palabras son igualmente importantes en un texto para representar su significado. Es necesario considerar un preprocesamiento del texto antes de indexarlo. El preprocesamiento debe determinar los términos que deben ser índices. Durante el preprocesamiento, se realizarán algunas operaciones sobre el texto de forma adicional, para mejorar la indexación.

Introducción Las operaciones principales que podemos encontrar son: Análisis léxico Eliminación de palabras vacías Stemming Selección de términos índice Construcción de estructuras de categorización de términos (tesauros, ...)

Introducción No obstante, el preprocesamiento puede acarrear situaciones no deseadas: Buscamos el patrón “la casa de Pedro”.  Si no hemos indexado palabras vacías, no podremos recuperar textos con este patrón. La recuperación puede ser más difícil de entender para el usuario si se aplica preprocesamiento. Algunos sistemas (buscadores web) no realizan preprocesamiento, sacrificando rendimiento por velocidad y simplicidad en las tareas de búsquedas.

Preprocesamiento Documento Acentos, espacios, etc. Palabras vacias Grupos de nombres Stemming Indexación Reconocimiento de estructura Full text texto Texto + estructura índices

Análisis léxico Consiste en convertir una secuencia de caracteres en una secuencia de palabras. Las palabras serán los candidatos a índices. La separación de palabras vendrá dada por: Espacios en blanco Dígitos Guiones Signos de puntuación Distinción de mayúsculas y minúsculas

Análisis léxico Los números (dígitos) no son buenos candidatos a índices: son muy vagos en significado. Sin embargo, hay casos en los que pueden ser importantes: Los dígitos pueden aparecer combinados con caracteres, por ejemplo, 256 a.c. Las fechas pueden ser importantes. Los números de una tarjeta de crédito pueden ser importantes ... La solución puede ser no considerar secuencias de dígitos, a no ser que sigan expresiones regulares.

Análisis léxico La consideración de guiones presenta también problemas: Se puede separar una palabra que contenga guiones en palabras componentes (state-of-the-art = state of the art). Pero hay palabras en las que los guiones son relevantes (B-49). Existe la posibilidad de que un guión enlace dos partes de una misma palabra (fin de línea). La solución puede ser aplicar una regla general, y considerar las excepciones.

Análisis léxico Los signos de puntuación se suelen eliminar del texto. Existen casos en los que los signos de puntuación forman parte de la palabra (236 a.c.) La eliminación de los signos, en estos casos, no presenta excesivos problemas en el rendimiento de la consulta. Aún así, hay casos en los que la eliminación de los signos de puntuación puede llevar a confusiones.

Análisis léxico La distinción de mayúsculas y minúsculas no debería afectar al rendimiento de la consulta. Lo habitual es convertir todo el texto a mayúsculas o minúsculas. A pesar de ello, existen escenarios en los que conviene distinguir entre ambas.

Análisis léxico La implementación de estas operaciones sobre el texto no son difíciles de realizar. No obstante, habrá que tener cuidado en la tarea, puesto que pueden afectar a la recuperación y al tiempo empleado. Se pueden obviar estas tareas, si bien no está comprobado que la no utilización de las mismas sea producente o contraproducente.

Palabras vacías Las palabras que son muy frecuentes en los documentos no ayudan a discriminar. Dentro de este conjunto se hallan palabras que carecen de significado por ellas mismas, como artículos, preposiciones, conjunciones, etc. La eliminación de estas palabras reducirá el tamaño de la estructura del índice empleado (por ejemplo –40%).

Palabras vacías Algunos verbos, adverbios y adjetivos pueden estar incluidos en las listas de palabras vacías, aunque tengan significado. La eliminación de este tipo de palabras puede llevar a, por ejemplo, no poder encontrar “ser o no ser, esa es la cuestión”.

él. ésta. éstas. éste. éstos. última. últimas. último. últimos él ésta éstas éste éstos última últimas último últimos a añadió aún actualmente adelante además afirmó agregó ahí ahora al algún algo alguna algunas alguno algunos alrededor ambos ante anterior antes apenas aproximadamente aquí así aseguró aunque ayer bajo bien buen buena buenas bueno buenos cómo cada casi cerca cierto cinco comentó como con conocer consideró considera contra cosas creo cual cuales cualquier cuando cuanto cuatro cuenta da dado dan dar de debe deben debido decir dejó del demás dentro desde después dice dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante e ejemplo el ella ellas ello ellos embargo en encuentra entonces entre era eran es esa esas ese eso esos está están esta estaba estaban estamos estar estará estas este esto estos estoy estuvo ex existe existen explicó expresó fin fue fuera fueron gran grandes ha había habían haber habrá hace hacen hacer hacerlo hacia haciendo han hasta hay haya he hecho hemos hicieron hizo hoy hubo igual incluso indicó informó junto la lado las le les llegó lleva llevar lo los luego lugar más manera manifestó mayor me mediante mejor mencionó menos mi mientras misma mismas mismo mismos momento mucha muchas mucho muchos muy nada nadie ni ningún ninguna ningunas ninguno ningunos no nos nosotras nosotros nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca o ocho otra otras otro otros para parece parte partir pasada pasado pero pesar poca pocas poco pocos podemos podrá podrán podría podrían poner por porque posible próximo próximos primer primera primero primeros principalmente propia propias propio propios pudo pueda puede pueden pues qué que quedó queremos quién quien quienes quiere realizó realizado realizar respecto sí sólo se señaló sea sean según segunda segundo seis ser será serán sería si sido siempre siendo siete sigue siguiente sin sino sobre sola solamente solas solo solos son su sus tal también tampoco tan tanto tenía tendrá tendrán tenemos tener tenga tengo tenido tercera tiene tienen toda todas todavía todo todos total tras trata través tres tuvo un una unas uno unos usted va vamos van varias varios veces ver vez y ya yo

Analizador léxico y stopwords Implementación: Utilizar un generador de analizadores léxicos (lex en unix) Crear un analizador léxico a mano y ad hoc Crear un analizador léxico a mano como un autómata de estados finitos El mejor es el primero, para casos complicados. El tercero sería el siguiente, si el analizador es simple. El segundo sería muy costoso.

Analizador léxico y stopwords La implementación del tratamiento de las stopwords se puede realizar de dos maneras: Examinar la salida del analizador léxico y eliminar las palabras de la lista de stopwords (problema de búsqueda). Eliminar las stopwords como parte del proceso del analizador léxico. La segunda aproximación es más eficiente, y se puede implementar de forma sencilla con generadores de analizadores léxicos.

Stemming Variaciones sintácticas de una palabra En la consulta aparece una palabra, pero en los documentos aparecen variantes sintácticas de la palabra. Solución: obtener la raíz de la palabra y sustituirla por las palabras. Se consigue obtener un concepto común desde las variantes de una palabra  se mejora el rendimiento (exhaustividad). Además se reduce el tamaño de los índices.

Stemming Existe controversia sobre la verdadera utilidad del stemming. Los experimentos no ayudan a ver una clara conclusión. El problema de aplicar stemming es que se pierde información sobre la palabra completa, o se necesita espacio adicional para almacenar esa información. Algunos sistemas web desechan esta posibilidad de stemming. Existen varias posibilidades para aplicar stemming: eliminación de afijos (prefijos y sufijos), tablas de búsqueda, variedad de sucesores y n-gramas.

Stemming Criterios para evaluar los stemers: Corrección, efectividad de la recuperación, compresión Aplicable en la indexación de documentos o en tiempo de consulta. Hasta donde llegar: Overstemming  se elimina gran parte de la palabra; las búsquedas pueden dar resultados indeseados. Understemming  se elimina poca porción de la palabra; se pueden perder en una búsqueda documentos relevantes.

Stemming Eliminación de afijos Es intuitivo, simple, y de fácil implementación. Es más importante la eliminación de sufijos que la de prefijos. Existen varios algoritmos para su implementación. El más famoso para lengua inglesa es el de Porter. Básicamente, se trata de aplicar reglas siguiendo un cierto orden, para sustituir sufijos por otras subcadenas o cadenas vacías.

Stemming Tablas de búsqueda Se busca la raíz de una palabra en una tabla. Depende de los datos que se tengan de la raíz para el idioma. Puede no resultar práctico debido a la falta de información sobre las raíces de los términos y el espacio de almacenamiento que necesita. No se puede aplicar para palabras específicas o que no estén en el idioma para el que se tiene la tabla.

Stemming Variedad de sucesores Se basa en la determinación de las fronteras de los morfemas. Utiliza cierto conocimiento de la lingüística estructural. Es más complejo que la eliminación de prefijos y sufijos. La variedad de sucesores de una cadena es el número de caracteres diferentes que la siguen en las palabras de un texto.

Stemming Ejemplo de variedad de sucesores: Texto able, axle, accident, ape, about Palabra apple Variedad de sucesores a  4 (b, x, c, p) ap  1 (e) app  0 appl  0 apple  0

Stemming Cuando el texto es lo suficientemente largo (>2000 palabras), se produce que: Tomando una subcadena, a medida que se añaden caracteres, disminuye la variedad de sucesores. Llegado a un punto determinado (cantidad de caracteres de la subcadena), la variedad de sucesores comienza a aumentar. Este es el punto que marca cual es la raíz de la palabra.

Stemming Metodos de corte para la variedad de sucesores: Cutoff. Seleccionar un valor de corte fijo. Peak and plateau. El corte se produce en el carácter para el que la variedad de sucesores excede la inmediatamente anterior y a la inmediatamente siguiente. Complete word. El corte se produce en el segmento que coincide con una palabra en el texto. Entropy. Considera la distribución de variedades de sucesores. Es un cálculo matemático.

Stemming Se debe elegir el segmento que es la raíz: Si el primer segmento aparece en menos de 12 palabras, es probable que sea la raíz. En caso contrario, es posible que el primer segmento sea un prefijo, con lo que se debe seleccionar el segundo segmento como raíz de la palabra. Ninguno de los métodos es perfecto.

Stemming Ejemplo de variedad de sucesores Texto able, ape, beatable, fixable, read, readable, reading, reads, red, rope, ripe Palabra readable PREFIJO VARIEDAD DE SUCESORES LETRAS R 3 E, I, O RE 2 A, D REA 1 D READ 3 A, I, S READA 1 B READAB 1 L READABL 1 E READABLE 1 BLANCO

Stemming N-gramas Se basa en la identificación de digramas y trigramas. Es más un procedimiento de clustering de términos que de stemming (no se produce corte de palabras). Puesto que se pueden usar digramas, trigramas, etc., se la ha llamado método de los n-gramas.

Stemming Ejemplo n-gramas dirigir  di | ir | ri | ig | gi | ir direccion  di | ir | re | ec | cc | ci | io | on director  di | ir | re | ec | ct | to | or escena  es | sc | ce | en | na escenario  es | sc | ce | en | na | ar | ri | io cenar  ce | en | na | ar A = Número de digramas únicos en la primera palabra B = Número de digramas únicos en la segunda palabra C = Número de digramas únicos compartidos por la primera y segunda palabras

Stemming Ejemplo n-gramas Dirigir Dirección Director Escena Escenario

Stemming Ejemplo n-gramas Dirigir Dirección Director Escena Escenario 0.30 0.53 0.15 0.13 0.77 0.67

Ejercicios 1. Dado el texto con las siguiente palabras: armario, armas, armazón, vencer, derrota, valentía, venerado, destrozar, descubrir, desestimar, descolgar, construir, derribar, derrocar, desarme, armada, vencimiento Aplicar el método de peak and plateau y el complete word para obtener la raíz de las palabras: desarmar, armamento, vencido (Nota: tomar como límite de prefijos el valor 4) 2. Utilizando el método de los n-gramas (usando digramas), calcular las similitudes para las palabras: colocar, colocación, coloso, vocación, evocación, gesto.