Index Engine v1.0 Un módulo de importación de documentos Juan Andrada Romero Jose Domingo López López Univ. De Castilla La Mancha.

Slides:



Advertisements
Presentaciones similares
Almacenamiento del sistema de archivos La gestión de archivos es uno de los componentes mas visibles de un sistema operativo. Las computadores pueden almacenar.
Advertisements

Búsqueda de una frase exacta
UNIVERSIDAD DEL VALLE DE MEXICO CAMPUS CHAPULTEPEC
INGENIERÍA DE SOFTWARE Introducción Arquitectura de Software
Hardware y Software de servidor
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
Sistema operativo Componentes de un sistema operativo
Profesor: Mario Figge Curso de Diseño Web HOSTING.
Javier López García OBJETIVOS DEL PROYECTO Diseñar una nueva arquitectura para SERVIVOX que le proporcione mayor modularidad y flexibilidad. Reestructurar.
Metodología de la Programación
Objetos de un programa Datos: Se denomina dato a toda aquella información característica de una entidad y que es susceptible de tratamiento en un programa.
Tema II Unidad de memoria. 2 Unidad de memoria 2.1 Definiciones y conceptos básicos Localización Capacidad Unidad de transferencia
Implementación de archivos
INSTALACIÓN Y MANTENIMIENTO DE SISTEMAS OPERATIVOS
Teoría de lenguajes y compiladores
SISTEMAS OPERATIVOS DE RED
Johanna Lizeth Rodríguez Lorena Fda. Chávarro Ramos
SISTEMAS DE INFORMACION
Introducción al desarrollo de proyectos RIA.
TRADUCTOR DE UN PROGRAMA
Colegio San Ignacio de Loyola
TIPOS Y ESTRUCTURAS BÁSICAS DE DATOS
ACIDE A C onfigurable I ntegrated D evelopment E nvironment (Un entorno integrado de desarrollo configurable)
UNIDAD 1 NOMBRE DE LA UNIDAD DE TRABAJO
Informática- R.L.G.1 Computadora: Herramienta electromecánica que facilita diversas y muy variadas tareas dependiendo del programa que se utilice. Se caracteriza.
Aplicación Web para Informes de Asignaturas de Trabajo en Grupo
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
Programación Básica con NQC Patricio A. Castillo Pizarro 25/08/2007.
Fundamentos de programación Organización de una computadora.
Introducción a los Sistemas Operativos
Introducción a las Bases de Datos Relacionales Juan Alberto Sigüenza Escuela Técnica Superior de Informática Universidad Autónoma de Madrid.
Página 1 20/03/2005 Materia: Tecnología de la Información Curso: Profesora Ariana Rosenthal Tecnología de la Información Profesora Ariana Rosenthal Administración.
Memoria RAM: Arquitectura y funcionamiento. Definición Random Access Memory, normalmente conocida como Memoria RAM) es un tipo de dispositivo de almacenamiento.
Visión Panorámica Diccionario de Datos Paso al diseño
PROCESO DE RESOLUCIÓN DE UN NOMBRE DE DOMINIO. El resolver o cliente DNS es la parte del sistema operativo encargada de resolver nombres de dominio cuando.
5.- Aplicaciones software Procesador de textos Hoja de cálculo Bases de datos Programas de estadística Informática Aplicada al Trabajo Social. Universidad.
Importancia en la efectividad del:
TEMA 2: DIAGRAMAS DE FLUJO
Memoria RAM Sigla de Random Access Memory (‘memoria de acceso aleatorio’), memoria principal de la computadora, donde residen programas y datos, sobre.
Tema 7: UNIDAD CENTRAL DE PROCESOS (CPU) Cáceres Pari Ángel Raúl
LÓGICA DE PROGRAMACIÓN LSC. Susana Alejandra López Jiménez.
Control de desconexión de videostreaming móvil en arquitectura android mediante técnicas de realidad aumentada y motores de reglas con herramientas open.
UNIVERSIDAD LATINA III. MANTENIMIENTO Y GESTIÓN DE LA INFORMACIÓN DE UNA BASE DE DATOS. E.I. L.E. Prof. Ramón Castro Liceaga.
MEDIOS DE ALMACENAMIENTO
File Transfer Protocol.
Búsqueda de Información en Internet
Elaboración de algoritmos usando lógica de programación
Antonio López Gracia Fernando Noain Fernandez Ricardo Meana de la Llave
Presente un cuestionario con los aspectos mas importantes sobre los
ALMACENAMIENTO DE DATOS. Son componentes que leen o escriben datos en medios o soportes de almacenamiento, y juntos conforman lamemoria o almacenamiento.
 .
Entorno de trabajo de Microsoft Word 2007
ARQUITECTURA DE LA INFORMACION
Tecnologías Cliente / Servidor Capitulo II Richard Jiménez V. clienteserver.wordpress.com.
Juan Romero Juanjo López Patxi Oliva “Buscador de blogs”
OIS: Object's Indexed Serialiation Version Un sistema jerárquico de almacenamiento de objetos TOL de estructura arbitraria basado en ficheros binarios.
Sistemas operativos Presentado por: Juan Carlos Loaiza UNIVERSIADAD CATOLICA DE MANIZALES.
Lic. Carla Aguirre Montalvo
Gestión de proyectos fin de carrera
Aplicaciones en 2,3 y n capas
9. Servicelab. Descripción El sistema SERVICELAB está desarrollado para funcionar con un servidor LAMP (Linux, Apache, MySQL y PHP) con las siguientes.
Instituto Tecnológico Superior de Libres Organismo Publico Descentralizado del Gobierno del Estado de Puebla José Alejandro Leal González.
Universidad Metropolitana Introducción a la Computación Universidad Metropolitana Introducción a la Computación Septiembre, 2007 Arquitectura Von Newman.
INVESTIGACION DE TEMARIO JOSE LUIS VEGA MERINO.  1.2. Requerimientos de instalación.  Microsoft Windows 7 Professional y Microsoft Windows 7 Ultimate.
El microprocesador y su arquitectura
Autores: Myriam Montes, Iván Viera, Carlos Caizaguano, José Sancho
Lenguaje ensamblador Conceptos introductorios. Formatos de Instrucción. Modos de Direccionamiento. Conjunto de instrucciones básico. Introducción al Lenguaje.
Clase #4 – Introducción al Procesamiento de Datos Prof. Miguel Morales CIS 101.
NOMBRE: SONIA IDROBO GRADO: 11 COMPUTACION PROFESOR: IGNACION REALPE.
Ing. José David Ortiz Salas
Transcripción de la presentación:

Index Engine v1.0 Un módulo de importación de documentos Juan Andrada Romero Jose Domingo López López Univ. De Castilla La Mancha

Contenidos Decisiones de diseño Estadísticas de uso Futuras mejoras

Contenidos Decisiones de diseño Estadísticas de uso Futuras mejoras

Decisiones de diseño Arquitectura: Lenguaje de programación: Python Sistema de almacenamiento: MySQL Sistema operativo: GNU/Linux

Decisiones de diseño Diseño de la base de datos

Decisiones de diseño Diseño multicapa: hace que el sistema sea extensible y reutilizable. Capa de presentación: interfaz gráfica e interfaz basada en texto. Capa de dominio: analizador, memoria caché y un fichero de configuración. Capa de persistencia: agente singleton y patrón de fabricación pura.

Decisiones de diseño Analizador de documentos: Conexión con la base de datos permanente para evitar establecer la conexión múltiples veces. Copia de documentos mediante llamadas al sistema proporcionadas por el módulo os. Codificación (charset) utf-8. El posting file se almacena en memoria durante el análisis de cada documento y sólo se vuelca a disco cuando éste finaliza.

Decisiones de diseño Uso de memoria caché para el diccionario de términos. Realización de un parser reutilizable para que tanto el módulo de importación de documentos como el módulo de búsqueda den el mismo tratamiento a las cadenas. Escape de los caracteres ‘\’ y ‘’’ Definición de una expresión regular para reconocer direcciones IP. Eliminación de los símbolos de acentuación (´, `, ^, ¨) de las vocales. Uso de una stoplist para eliminar palabras comunes y sin significado relevante.

Decisiones de diseño Todos los signos de puntuación se consideran separadores, del mismo modo que los espacios. A partir de una palabra, obtenemos una lista de palabras, como resultado de reemplazar los separadores por espacios. Si en esa lista sólo existe una palabra que se encuentra en la stop_list y el resto son espacios, se elimina. Ejemplo: “\t already?” Si al dividir la palabra en varias, alguna de las resultantes carece de sentido, no se descompone. Ejemplo: “I’ll” Las direcciones web y reciben el mismo tratamiento (división en palabras) Ejemplo: palabras”

Contenidos Decisiones de diseño Estadísticas de uso Futuras mejoras

Estadísticas Características del equipo: SSOO: Debian GNU/Linux 4.0 Procesador: Intel Centrino 2.0Ghz FSB 800MHz RAM: 2.0GB DDR2 800MHz Tiempo empleado en indexar 239 documentos: 27 minutos y 45 segundos

Contenidos Decisiones de diseño Estadísticas de uso Futuras mejoras

Futuras Mejoras Caché Extensibilidad: posibilidad de utilizar diferentes métodos de almacenamiento Acceso a disco: cargar los documentos en memoria antes de procesarlos