Tema 3. Operaciones sobre el texto

Tema 3. Operaciones sobre el texto
Sistemas de Gestión Documental

Introducción No todas las palabras son igualmente importantes en un texto para representar su significado. Es necesario considerar un preprocesamiento del texto antes de indexarlo. El preprocesamiento debe determinar los términos que deben ser índices. Durante el preprocesamiento, se realizarán algunas operaciones sobre el texto de forma adicional, para mejorar la indexación.

Introducción Las operaciones principales que podemos encontrar son:
Análisis léxico Eliminación de palabras vacías Stemming Selección de términos índice Construcción de estructuras de categorización de términos (tesauros, ...)

Introducción No obstante, el preprocesamiento puede acarrear situaciones no deseadas: Buscamos el patrón “la casa de Pedro”.  Si no hemos indexado palabras vacías, no podremos recuperar textos con este patrón. La recuperación puede ser más difícil de entender para el usuario si se aplica preprocesamiento. Algunos sistemas (buscadores web) no realizan preprocesamiento, sacrificando rendimiento por velocidad y simplicidad en las tareas de búsquedas.

Preprocesamiento Documento Acentos, espacios, etc. Palabras vacias
Grupos de nombres Stemming Indexación Reconocimiento de estructura Full text texto Texto + estructura índices

Análisis léxico Consiste en convertir una secuencia de caracteres en una secuencia de palabras. Las palabras serán los candidatos a índices. La separación de palabras vendrá dada por: Espacios en blanco Dígitos Guiones Signos de puntuación Distinción de mayúsculas y minúsculas

Análisis léxico Los números (dígitos) no son buenos candidatos a índices: son muy vagos en significado. Sin embargo, hay casos en los que pueden ser importantes: Los dígitos pueden aparecer combinados con caracteres, por ejemplo, 256 a.c. Las fechas pueden ser importantes. Los números de una tarjeta de crédito pueden ser importantes ... La solución puede ser no considerar secuencias de dígitos, a no ser que sigan expresiones regulares.

Análisis léxico La consideración de guiones presenta también problemas: Se puede separar una palabra que contenga guiones en palabras componentes (state-of-the-art = state of the art). Pero hay palabras en las que los guiones son relevantes (B-49). Existe la posibilidad de que un guión enlace dos partes de una misma palabra (fin de línea). La solución puede ser aplicar una regla general, y considerar las excepciones.

Análisis léxico Los signos de puntuación se suelen eliminar del texto.
Existen casos en los que los signos de puntuación forman parte de la palabra (236 a.c.) La eliminación de los signos, en estos casos, no presenta excesivos problemas en el rendimiento de la consulta. Aún así, hay casos en los que la eliminación de los signos de puntuación puede llevar a confusiones.

Análisis léxico La distinción de mayúsculas y minúsculas no debería afectar al rendimiento de la consulta. Lo habitual es convertir todo el texto a mayúsculas o minúsculas. A pesar de ello, existen escenarios en los que conviene distinguir entre ambas.

Análisis léxico La implementación de estas operaciones sobre el texto no son difíciles de realizar. No obstante, habrá que tener cuidado en la tarea, puesto que pueden afectar a la recuperación y al tiempo empleado. Se pueden obviar estas tareas, si bien no está comprobado que la no utilización de las mismas sea producente o contraproducente.

Palabras vacías Las palabras que son muy frecuentes en los documentos no ayudan a discriminar. Dentro de este conjunto se hallan palabras que carecen de significado por ellas mismas, como artículos, preposiciones, conjunciones, etc. La eliminación de estas palabras reducirá el tamaño de la estructura del índice empleado (por ejemplo –40%).

Palabras vacías Algunos verbos, adverbios y adjetivos pueden estar incluidos en las listas de palabras vacías, aunque tengan significado. La eliminación de este tipo de palabras puede llevar a, por ejemplo, no poder encontrar “ser o no ser, esa es la cuestión”.

él. ésta. éstas. éste. éstos. última. últimas. último. últimos
él ésta éstas éste éstos última últimas último últimos a añadió aún actualmente adelante además afirmó agregó ahí ahora al algún algo alguna algunas alguno algunos alrededor ambos ante anterior antes apenas aproximadamente aquí así aseguró aunque ayer bajo bien buen buena buenas bueno buenos cómo cada casi cerca cierto cinco comentó como con conocer consideró considera contra cosas creo cual cuales cualquier cuando cuanto cuatro cuenta da dado dan dar de debe deben debido decir dejó del demás dentro desde después dice dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante e ejemplo el ella ellas ello ellos embargo en encuentra entonces entre era eran es esa esas ese eso esos está están esta estaba estaban estamos estar estará estas este esto estos estoy estuvo ex existe existen explicó expresó fin fue fuera fueron gran grandes ha había habían haber habrá hace hacen hacer hacerlo hacia haciendo han hasta hay haya he hecho hemos hicieron hizo hoy hubo igual incluso indicó informó junto la lado las le les llegó lleva llevar lo los luego lugar más manera manifestó mayor me mediante mejor mencionó menos mi mientras misma mismas mismo mismos momento mucha muchas mucho muchos muy nada nadie ni ningún ninguna ningunas ninguno ningunos no nos nosotras nosotros nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca o ocho otra otras otro otros para parece parte partir pasada pasado pero pesar poca pocas poco pocos podemos podrá podrán podría podrían poner por porque posible próximo próximos primer primera primero primeros principalmente propia propias propio propios pudo pueda puede pueden pues qué que quedó queremos quién quien quienes quiere realizó realizado realizar respecto sí sólo se señaló sea sean según segunda segundo seis ser será serán sería si sido siempre siendo siete sigue siguiente sin sino sobre sola solamente solas solo solos son su sus tal también tampoco tan tanto tenía tendrá tendrán tenemos tener tenga tengo tenido tercera tiene tienen toda todas todavía todo todos total tras trata través tres tuvo un una unas uno unos usted va vamos van varias varios veces ver vez y ya yo

Analizador léxico y stopwords
Implementación: Utilizar un generador de analizadores léxicos (lex en unix) Crear un analizador léxico a mano y ad hoc Crear un analizador léxico a mano como un autómata de estados finitos El mejor es el primero, para casos complicados. El tercero sería el siguiente, si el analizador es simple. El segundo sería muy costoso.

Analizador léxico y stopwords
La implementación del tratamiento de las stopwords se puede realizar de dos maneras: Examinar la salida del analizador léxico y eliminar las palabras de la lista de stopwords (problema de búsqueda). Eliminar las stopwords como parte del proceso del analizador léxico. La segunda aproximación es más eficiente, y se puede implementar de forma sencilla con generadores de analizadores léxicos.

Stemming Variaciones sintácticas de una palabra
En la consulta aparece una palabra, pero en los documentos aparecen variantes sintácticas de la palabra. Solución: obtener la raíz de la palabra y sustituirla por las palabras. Se consigue obtener un concepto común desde las variantes de una palabra  se mejora el rendimiento (exhaustividad). Además se reduce el tamaño de los índices.

Stemming Existe controversia sobre la verdadera utilidad del stemming. Los experimentos no ayudan a ver una clara conclusión. El problema de aplicar stemming es que se pierde información sobre la palabra completa, o se necesita espacio adicional para almacenar esa información. Algunos sistemas web desechan esta posibilidad de stemming. Existen varias posibilidades para aplicar stemming: eliminación de afijos (prefijos y sufijos), tablas de búsqueda, variedad de sucesores y n-gramas.

Stemming Criterios para evaluar los stemers:
Corrección, efectividad de la recuperación, compresión Aplicable en la indexación de documentos o en tiempo de consulta. Hasta donde llegar: Overstemming  se elimina gran parte de la palabra; las búsquedas pueden dar resultados indeseados. Understemming  se elimina poca porción de la palabra; se pueden perder en una búsqueda documentos relevantes.

Stemming Eliminación de afijos
Es intuitivo, simple, y de fácil implementación. Es más importante la eliminación de sufijos que la de prefijos. Existen varios algoritmos para su implementación. El más famoso para lengua inglesa es el de Porter. Básicamente, se trata de aplicar reglas siguiendo un cierto orden, para sustituir sufijos por otras subcadenas o cadenas vacías.

Stemming Tablas de búsqueda
Se busca la raíz de una palabra en una tabla. Depende de los datos que se tengan de la raíz para el idioma. Puede no resultar práctico debido a la falta de información sobre las raíces de los términos y el espacio de almacenamiento que necesita. No se puede aplicar para palabras específicas o que no estén en el idioma para el que se tiene la tabla.

Stemming Variedad de sucesores
Se basa en la determinación de las fronteras de los morfemas. Utiliza cierto conocimiento de la lingüística estructural. Es más complejo que la eliminación de prefijos y sufijos. La variedad de sucesores de una cadena es el número de caracteres diferentes que la siguen en las palabras de un texto.

Stemming Ejemplo de variedad de sucesores: Texto
able, axle, accident, ape, about Palabra apple Variedad de sucesores a  4 (b, x, c, p) ap  1 (e) app  0 appl  0 apple  0

Stemming Cuando el texto es lo suficientemente largo (>2000 palabras), se produce que: Tomando una subcadena, a medida que se añaden caracteres, disminuye la variedad de sucesores. Llegado a un punto determinado (cantidad de caracteres de la subcadena), la variedad de sucesores comienza a aumentar. Este es el punto que marca cual es la raíz de la palabra.

Stemming Metodos de corte para la variedad de sucesores:
Cutoff. Seleccionar un valor de corte fijo. Peak and plateau. El corte se produce en el carácter para el que la variedad de sucesores excede la inmediatamente anterior y a la inmediatamente siguiente. Complete word. El corte se produce en el segmento que coincide con una palabra en el texto. Entropy. Considera la distribución de variedades de sucesores. Es un cálculo matemático.

Stemming Se debe elegir el segmento que es la raíz:
Si el primer segmento aparece en menos de 12 palabras, es probable que sea la raíz. En caso contrario, es posible que el primer segmento sea un prefijo, con lo que se debe seleccionar el segundo segmento como raíz de la palabra. Ninguno de los métodos es perfecto.

Stemming Ejemplo de variedad de sucesores Texto
able, ape, beatable, fixable, read, readable, reading, reads, red, rope, ripe Palabra readable PREFIJO VARIEDAD DE SUCESORES LETRAS R E, I, O RE A, D REA D READ A, I, S READA B READAB L READABL 1 E READABLE 1 BLANCO

Stemming N-gramas Se basa en la identificación de digramas y trigramas. Es más un procedimiento de clustering de términos que de stemming (no se produce corte de palabras). Puesto que se pueden usar digramas, trigramas, etc., se la ha llamado método de los n-gramas.

Stemming Ejemplo n-gramas
dirigir  di | ir | ri | ig | gi | ir direccion  di | ir | re | ec | cc | ci | io | on director  di | ir | re | ec | ct | to | or escena  es | sc | ce | en | na escenario  es | sc | ce | en | na | ar | ri | io cenar  ce | en | na | ar A = Número de digramas únicos en la primera palabra B = Número de digramas únicos en la segunda palabra C = Número de digramas únicos compartidos por la primera y segunda palabras

Stemming Ejemplo n-gramas Dirigir Dirección Director Escena Escenario

Stemming Ejemplo n-gramas Dirigir Dirección Director Escena Escenario
0.30 0.53 0.15 0.13 0.77 0.67

Ejercicios 1. Dado el texto con las siguiente palabras:
armario, armas, armazón, vencer, derrota, valentía, venerado, destrozar, descubrir, desestimar, descolgar, construir, derribar, derrocar, desarme, armada, vencimiento Aplicar el método de peak and plateau y el complete word para obtener la raíz de las palabras: desarmar, armamento, vencido (Nota: tomar como límite de prefijos el valor 4) 2. Utilizando el método de los n-gramas (usando digramas), calcular las similitudes para las palabras: colocar, colocación, coloso, vocación, evocación, gesto.

Tema 3. Operaciones sobre el texto

Presentaciones similares

Presentación del tema: "Tema 3. Operaciones sobre el texto"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tema 3. Operaciones sobre el texto

Presentaciones similares

Presentación del tema: "Tema 3. Operaciones sobre el texto"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback