Paradigma Tecnológico Servicios de formación

Slides:



Advertisements
Presentaciones similares
IBD Plan 90 y 2003 Clase 10.
Advertisements

Búsqueda de una frase exacta
RED NACIONAL DE TELEDETECCIÓN AMBIENTAL (RNTA)
Curso de Java “Java para Web” Rogelio Ferreira Escutia.
CSS Rogelio Ferreira Escutia. 2 Hojas de estilo cascada, mayo 2010 Definición La hojas de estilo en cascada (en inglés.
Bases de conocimiento colaborativas
Centro de Intercambio de Información del Protocolo de Cartagena Guía de aprendizaje Recursos del CIISB.
Nau Gran dHivern Intr. a la creación y gestión de páginas web Introducción a la web.
Herramientas informáticas
Preparación de documentos
Tema 6. Evaluación de SRIs
Internet y tecnologías web
Diseño de Bases de Datos
Libro Blanco XBRL Objetivos del grupo de Tecnología de XBRL España: Objetivo general: Facilitar a las entidades interesadas en implantar XBRL el acceso.
JOURNAL CITATION REPORTS®
4. ANÁLISIS FACTORIAL Introducción Modelo factorial ortogonal
Cómo cargar contenidos en un curso en Moodle
PRESENTA: Mizrain Cano Chico Profesor: Lic. Albino Petlacalco Ruiz
IBD Clase 7.
Introduccion a UML Wilson Peláez Hernández
ADELA TORRES JONATHAN BEJARANO
BASE DE DATOS Primeros pasos
Base de Datos Distribuidas Bases de Datos II Universidad Argentina J. F. Kennedy - Año 2008 Maletin Yahoo => briefcase.yahoo.com Usuario => bd2_jfk Pssw.
Programa para el Impulso a la Implementación del Protocolo IPv6 en Instituciones Vinculadas a RENATA 2012 Servicio FTP.
DESCRIPCION DE SISTEMAS
4. Mantenimiento de los espacios de trabajo. Manual de formación 2 4. Modificación de los espacios de trabajo 4.1 Introducción……………………………….……..……..…pág.
Universidad Nacional Autónoma de Honduras
1.- A vuelo de pájaro..
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
INTRODUCCIÓN A JAVA.
PROTOCOLOS Y ESTANDARES DE RED
Servicios Web.
"java del lado del servidor" Servlet y JSP Java Server Pages.
¿Nuevo autor?, dar clic en “Register”
INTELIGENCIA ARTIFICIAL
Expresiones Racionales
Compartir Informacion Compartir Hardware y Software
Combinadores SK.
Proyecto de Ingeniería de Software 2010 Producto
Cómo consultar una base de datos o un catálogo en 5 minutos
WCS: WEB COVERAGE SERVICE
Java 2 Platform Enterprise Edition
Proyecto Fin de Carrera E.T.S. Ingeniería Informática 26 de Septiembre de 2006 DESARROLLO DE UN COMPONENTE TECLADO ALUMNO: Fco. Javier Sánchez Ramos TUTORES:
Características generales de un servicio Web.
Tema: Funciones en Excel (II) Funciones de Texto
3. INTRODUCCIÓN A LA PROGRAMACIÓN
INTRODUCCIÓN A LA PROGRAMACIÓN
Índice Sesión I Bloque I (09:30 a 10:30 Horas) Configuración Inicial
Lección 9 Deslizadores, selecc. actuales y marcadores
TECNOLOGÍA IDC Internet Database Connector Trinitario Gómez López.
Koldo Parra de la Horra 1 MANUAL DEL PUBLICADOR EN JOOMLA (12) Todo lo que necesitas saber para publicar tus artículos en la página Web del Centro Visualizar.
Manual del Usuario Perfil 03. Reportes Web. Ver. 1.1
Aspectos básicos de networking: Clase 5
Manipulación de caracteres e hileras de texto
1 Correo Electrónico TALLER DE ALFABETIZACIÓN DIGITAL.
Introducción a los Conceptos de Bases de Datos Docente: Ing. Marleny Soria Medina.
DEMO Slide 1 Press Esc to exit Usando Reason!Able Una guía simple para empezar The Reason Group, June 2001 Tr. Gerardo Bolado
1 Consigna 2006 UPV/EHU Consigna David Fernández Acin CIDIR Bizkaia Euskal Herriko Unibertsitatea / Universidad del País Vasco XXII.
Eurostat Unit A6 – Statistical cooperation SDMX Seminar Seminario para contribuir a la modernización de la transmisión de datos y metadatos estadísticos.
Cuestionario de power point
Servicios Web. Servicios web Son programas con funcionalidad accesible a través de protocolo http que permiten la ejecución remota de métodos y funciones.
INTRODUCCIÓN A AJAX. ¿Qué es AJAX? Acrónimo de Asynchronous JavaScript And XML No es ninguna tecnología, ni lenguaje de programación. Es una técnica de.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
EQUIPO:#3 GRUPO:304 NOMBRES: Lizbeth Nava Barón y Erick Ali Mejía.
Búsqueda de Información en Internet
Colegio de Bachilleres Plantel 13 Xochimilco - Tepepan
INTERFAZ DE ACCESS  Access es un sistema gestor de bases de datos relacionales (SGBD). Una base de datos suele definirse como un conjunto de información.
Index Engine v1.0 Un módulo de importación de documentos Juan Andrada Romero Jose Domingo López López Univ. De Castilla La Mancha.
Planificación Curso UNIDAD 1. INTRODUCCIÓN A LOS SERVICIOS EN RED UNIDAD 2. SERVICIOS DHCP UNIDAD 3. SERVICIOS DNS UNIDAD 4. SERVICIOS DE ACCESO REMOTO.
Lenguaje ensamblador Conceptos introductorios. Formatos de Instrucción. Modos de Direccionamiento. Conjunto de instrucciones básico. Introducción al Lenguaje.
Transcripción de la presentación:

Paradigma Tecnológico Servicios de formación Apache Solr Paradigma Tecnológico Servicios de formación

Índice Introducción Indexación Búsqueda Analizadores de Texto Lucene Solr Instalación Indexación Esquema de Datos Búsqueda Parámetros de Búsqueda Búsqueda Avanzada Analizadores de Texto Tokenización Stemming Sinónimos Stop Words N-Gramas Componentes de Búsqueda Highlighting Corrección ortográfica More like this

Paradigma Tecnológico Servicios de formación Introducción Paradigma Tecnológico Servicios de formación

Introducción (I): Lucene Solr: Motor de búsqueda basado en Lucene. Lucene : Proyecto de código abierto escrito en java. Librería que proporciona búsquedas de texto de alto rendimiento haciendo uso de índices invertidos. Mayor velocidad en la búsqueda de cadenas de texto. Menor dependencia del tamaño del índice. Mayor flexibilidad en las búsquedas de texto: Búsquedas por término, mediante N-Gramas, búsquedas fonéticas… Mayor facilidad para ordenaciones por score y ponderaciones. Características adicionales: Analizadores de texto, resaltado de coincidencias, corrector ortográfico, etc.

Introducción (II): Índice Invertido vs. Índice Directo 1 que es esto 2 esto es un texto 3 este texto es otro texto que 1 es 1, 2, 3 esto 1, 2 un 2 texto 2, 3 este 3 otro que (1,1) es (1,2) (2,2) (3,3) esto (1,3) (2,1) un (2,3) texto (2,4) (3,2) (3,5) este (3,1) otro (3,4)

Introducción (III): Solr Solr es un proyecto de código abierto escrito en java que proporciona un recubrimiento de Lucene añadiendo características adicionales: Acceso HTTP a Lucene. Cachés para lograr mayor velocidad en las búsquedas. Interfaz de administración web. Configuración del esquema de datos y del servidor mediante archivos XML. Facetado de resultados (Agrupación de resultados con contadores). Distribución de servidores.

Arquitectura de Solr (I) Solr se divide en dos partes: Índice: Sistema de ficheros que almacenan la información. Contiene la configuración de Solr y la definición de la estructura de datos. Servidor: Proporciona el acceso a los índices y las características adicionales. Admite plugins para añadir funcionalidades.

Arquitectura de Solr (II): Arquitectura Distribuida Solr permite búsquedas distribuidas: Uno de los servidores actúa como maestro, consultando al resto y componiendo la respuesta.

Instalación de Solr Descarga: Requisitos: Java 1.5+ Servidor de aplicaciones Descarga: http://apache.rediris.es/lucene/solr/ Pasos: Copia de índice. Despliegue de servidor sobre el servidor de aplicaciones. Configuración de enlace entre servidor e índice. (Modificación del fichero web.xml)

Paradigma Tecnológico Servicios de formación Indexación Paradigma Tecnológico Servicios de formación

Indexación de Contenidos (I): Esquema de datos schema.xml: Archivo XML que define las estructura de datos a indexar. Estructura de campo: Tipos de Datos: Definidos por clases java. Parámetros opcionales: default: Valor a usar si no se recibe ninguno required: Define si un campo es obligatorio. indexed: Determina si un campo es buscable u ordenable. stored: Determina si un campo se puede recuperar en una consulta. multiValued: El campo contiene más de un valor. <field name=“nombre de campo" type=“tipo de dato" />

Indexación de Contenidos (II) Canales para el envío de documentos: Petición HTTP: Envío de instrucción y datos asociados vía HTTP POST. Cliente Solrj: Cliente java. Permite realizar las diferentes operaciones sobre el índice y enviar la información en diferentes formatos. Fuentes de datos para la indexación: XML: Coherente con la estructura de datos definida. Objetos Java: Representación binaria del documento XML. CSV: Documento de texto con valores separados. Documentos enriquecidos: PDF, XLS, DOC, PPT, … Base de Datos: Adaptador intermedio (DataImportHandler).

Paradigma Tecnológico Servicios de formación Búsqueda Paradigma Tecnológico Servicios de formación

Búsquedas (I) Canales de búsqueda: Petición HTTP: Envío de instrucción de búsqueda y parámetros mediante HTTP GET. Administrador de Solr: proporciona un recubrimiento para simplificar la petición HTTP. Cliente Solrj: Posee también los métodos necesarios para realizar búsquedas sobre los índices. Respuesta como estructura XML.

Búsquedas (II): Parámetros de Búsqueda q: Petición con formato “campo:valor” start: Documento inicial a partir del cual se van a mostrar los resultados. rows: Indica el número máximo de resultados a mostrar. facets: Indica si se desean mostrar facetas. Parámetros adicionales para indicar el campo por el que realizarlas, límite, ordenación, etc. sort: Define la ordenación de los resultados. Ordenaciones combinadas. Formato de ordenaciones: “precio desc, nombre asc” fl: Campos que se devuelven en la respuesta fq: Mismo formato que “q”. Limita la query (actúa como filtro). Los resultados se cachean. …

Búsquedas (III): Búsqueda Avanzada Wildcards: Solr no permite wildcards iniciales word*: * sustituye a cualquier número de caracteres. w?rd: ? sustituye a un único carácter. w?*d: Pueden componerse ambos comodines. Operadores Lógicos AND: word1 AND word2 = word1 && word2 = +word1 +word2 OR: word1 OR word2 = word1 || word2 = word1 word2 NOT: word1 NOT word2 = word1 -word2

Búsquedas (IV): Búsqueda Avanzada Rangos: Se expresan como “campo:[A TO B]” Boosting: Se pueden ordenar resultados dando más importancia a ciertos campos nombre:jose^2 AND alias:pepe^0.7 Fuzzy: Busca términos similares basándose en número de inserciones, borrados o intercambios de caracteres. Puede definirse el grado de proximidad. nombre: sony~0.9 -> Devuelve resultados con nombre “sony” nombre: sony~0.4 -> Devuelve resultados con nombre “coby”

Paradigma Tecnológico Servicios de formación Analizadores de Texto Paradigma Tecnológico Servicios de formación

Analizadores de Texto (I) Procesadores propios de Solr o posibilidad de implementar nuevos analizadores. Configurables por XML (schema.xml). Aplicables a campos específicos. Aplicables en tiempo de indexación, durante la búsqueda o en ambos. Existen múltiples analizadores y se pueden definir analizadores propios, algunos de los que proporciona Solr: Tokenización Stemming Sinónimos Stop Words N-Gramas

Analizadores de Texto (II): Tokenización, Stemming, Sinónimos Tokenización: División de texto mediante diferentes expresiones (Espacios en blanco, etiquetas html, signos de puntuación, expresiones regulares…) Stemming: Reducción de términos derivados a su forma raíz. Sinónimos: Transformación de texto mediante definición explícita de relaciones de sinonimia. <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

Analizadores de Texto (III): Stop Words, N-Gramas Stop words: Eliminación de palabras no significativas para el proceso de búsqueda. N-Gramas: Separación de texto en los diferentes grupos de caracteres que lo componen. <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/> <filter class="solr.NGramFilterFactory" minGramSize="2" maxGramSize="15"/>

Paradigma Tecnológico Servicios de formación Componentes de Búsqueda Paradigma Tecnológico Servicios de formación

Componentes de Búsqueda (I) Los componentes de búsqueda proporcionan funciones adicionales a la recuperación de resultados. Son configurables en tiempo de consulta (Algunos pueden necesitar configuración adicional en los archivos xml). Algunos de los componentes de búsqueda que proporciona Solr: Highlighting: Resaltado de términos. Spell Checker: Corrección ortográfica. More Like This: Resultados similares.

Componentes de Búsqueda (II): Highlighting Highlighting: Ofrece el resaltado de términos buscados dentro de una cadena de texto. Algunos parámetros de configuración: hl=true: Activa el resaltado de términos hl.fl=[fieldnames]: Campo o campos sobre los que se realizará el resaltado. hl.simple.pre / hl.simple.post=[etiqueta]: Etiqueta que se añadirá antes y después del término resaltado (Ej. <span class=“bold”> término </span>)

Componentes de Búsqueda (III): Corrección Ortográfica Spell Checker: Proporciona sugerencias para errores ortográficos basadas en el contenido indexado o en un diccionario. Para sugerencias por contenido indexado es recomendable crear un campo para corrección ortográfica (De tipo “textSpell” o “textSpellPhrase”). Configuración: <searchComponent name="spellcheck" class="solr.SpellCheckComponent"> <str name="queryAnalyzerFieldType">textSpell</str> <lst name="spellchecker"> <str name="name">default</str> <str name="classname">solr.IndexBasedSpellChecker</str> <str name="field">corrector</str> <str name="spellcheckIndexDir">./spellchecker</str> </lst> </searchComponent>

Componentes de Búsqueda (IV): More Like This More Like This: Componente de sugerencia de documentos similares. Se basa en los términos que aparecen en el documento recuperado y la frecuencia de los mismos. Configuración por parámetros de búsqueda: mlt=true: Activa la utilidad de resultados similares. mlt.fl=[fieldnames]: Campo o campos analizados. mlt.count=[número]: Número de resultados devueltos. mlt.qf=[field1^2.0 field2^5.0]: Configuración de ponderación sobre diferentes campos para el cálculo de similitud. …

Paradigma Tecnológico Servicios de formación Referencias Paradigma Tecnológico Servicios de formación

Referencias y Enlaces de Interés Página Oficial: http://lucene.apache.org/solr/ Wiki: http://wiki.apache.org/solr/ Mailing list: http://mail-archives.apache.org/mod_mbox/lucene-solr-user/ Manuales: Smiley, D. y Pugh, E. (2009). Solr 1.4 Enterprise Search Server. Packt Publishing