What Time Is It in the Data Warehouse

Slides:



Advertisements
Presentaciones similares
Bases De Datos Para El Soporte En La Toma De Decisiones
Advertisements

DATA MART Sergio Daniel.
Cognos Data Integration
ORACLE OLAP Integrantes: *Aizaga, Martiniano *Gallegos, Marina
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
Introducción a LAS Bases de Datos
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
Carlos Rojas Kramer Universidad Cristóbal Colón
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Microsoft SQL Server 2008 – SQL Server Integration Services
CONSTRUCCIÓN DE BODEGAS DE DATOS
Especialista en Business Intelligence Integration Services SSIS (Sesión 7) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
SQL Server Integration Services SSIS
¿QUÉ SON LAS BASES DE DATOS?
El Papel del DWH en una Arquitectura Orientada a Servicios
Director: Ing. Washington Pérez Codirector: Ing. Andrés de la Torre
Jesús Angel Ovando División de Estudios de Posgrado Instituto Tecnológico de Orizaba.
Modelos de Proceso del Software
Windows XP sp3.
Introducción arquitectura base de datos Microsoft SQL Server 2000/2005
UNIDAD II Modelo de Datos.
Nacional Financiera, tu brazo derecho.. Objetivo Cronología Flujo de la Información Estadísticas Front-End Factores críticos de éxito Ventajas y Beneficios.
HERRAMIENTAS CASE.
1 Propuesta de Plataforma Tecnológica Sistema Nacional de Indicadores Universidad Veracruzana.
INTELIGENCIA DE NEGOCIOS

SQL Server 2008 Integration Services
DATA MART Los data warehouses están hechos para proporcionar una fuente de datos única para todas las actividades de apoyo para la toma de decisiones.
Mejorando la forma de construir datawarehouses usando Microsoft SQL Server 2008 Integration Services.
Implementación de Datawarehouse
DATA WAREHOUSE Equipo 9.
DATA WAREHOUSE PREPARADO POR : María Alejandra Franco Lina María Arias.
Especialista en Business Intelligence Integration Services SSIS Tareas de Flujo de Control (Parte I) Microsoft SQL Server 2008 R2 Suscribase a
SISTEMAS DE INFORMACION GEOGRAFICA. LOS SIG DEFINICION DEFINICION Un SIG se define como un conjunto de métodos, herramientas y datos que están diseñados.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Introducción a Pentaho BI Suite 3.5
Herramientas ETL.
INGENIERÍA DE SOFTWARE
Diseño del servicio ITIL..
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
El modelo de análisis tiene como objetivo generar una arquitectura de objetos que sirva como base para el diseño posterior del sistema. Dependiendo del.
TEMA: DESARROLLO DE UN SISTEMA INFORMÁTICO PARA EL CONTROL DE USO Y EL MANTENIMIENTO DE VEHÍCULOS DE UNA INSTITUCIÓN PÚBLICA AUTOR: EDISON GUAMAN   DIRECTOR:
Ing. Fredys Simanca Herrera.  Es muy habitual encontrarse con que más de un 30% de la información contenida en los sistemas operaciones o es incorrecta.
Términos y Conceptos Básicos
Modelo de 3 capas.
Alexander Aristizabal Ángelo flores herrera
Introducción a UML Departamento de Informática Universidad de Rancagua
ORACLE OLAP CAECE Integrantes: *Aizaga, Martiniano *Gallegos, Marina *Kleinlein, Guillermo *Schiano di Cola, Emiliano.
Tecnologías Cliente / Servidor Capitulo II Richard Jiménez V. clienteserver.wordpress.com.
Introducción al Data Warehouse
BASE DE DATOS DISTRIBUIDAS
Procesamiento de transacciones: consiste en los procesos de captura, recolección, clasificación, ordenamiento, cálculo, resumen y almacenamiento de todos.
Taller de Inteligencia de Negocios SQL Server Integration Services SSIS Semana 2.
Extracción, transformación y carga de datos
• SQL Server Integration Services SSIS
Taller de Business Intelligence Conceptos Introductorios a BI
SISTEMAS DE INFORMACION ORGANIZACIONAL
Taller de Inteligencia de Negocios SQL Server Analysis Services Semana 8.
DATA WAREHOUSE.
Arquitectura de una aplicación Arquitectur a: desarrolla un plan general del sistema, asegurando que las necesidades de los usuarios sean atendidas. Ingeniería.
SOLUCIONES EMPRESARIALES
BUSINESS T&G Think & Grow Uniclass Business Intelligence La solución Business Objects que analiza los procesos de su negocio.
María Trinidad Serna Encinas
Ingeniería de Software Agustín J. González ElO329: Diseño y Programación Orientados a Objeto Adaptado de:
Maestría en Gerencia en Tecnología de la Información Cátedra Ingeniería de Software Profesora: Mary Carmen Milano. Integrantes: Rosa Arellano Osbaldo Goitia.
CICLO DE VIDA DE UN SOFTWARE. Es el conjunto de los programas de cómputo, procedimientos, reglas, documentación y datos asociados, que forman parte de.
BASES DE DATOS CONCEPTOS BASICOS Elizabeth Maite Zarate Machaca “El tratamiento eficiente de la información al servicio del usuario”
Conociendo el modelo Cliente-Servidor
DLM Transact SQL Sesión I Introducción al SQL Server Uso de las herramientas de consultas del Transact SQL.
VERIFICACIÓN Y VALIDACIÓN DE SISTEMAS 3.10 Fase de manejo de requerimientos 4.1 Modelado de pruebas en UML Ponente: ing. Alejandro tapia vazquez.
Transcripción de la presentación:

What Time Is It in the Data Warehouse

Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones 5-Slowly changing dimensions 6-Herramientas ETL 7-La solución Change Data Capture(CDC) 8-Bibliografía y webliografia

Introducción (I) El Data Warehouse es una tecnología que básicamente se encarga de consolidar, integrar y centralizar los datos que la empresa genera en todos los ámbitos de una actividad de negocio, facilitando posteriormente una amplia gama de análisis que permitirá la toma de decisiones estratégicas y tácticas.

Introducción (II) Una de las definiciones del data Warehouse es: El Data Warehouse es una colección de datos temática, integrada, no volátil y variante en el tiempo diseñada para ayudar en la toma de decisiones.

Actualización en Data Warehouse (I) La necesidad de actualizaciones surge típicamente cuando las medidas iniciales de los eventos pueden estar sujetas a error o cuando los eventos evolucionan inherentemente en el tiempo. Desafortunadamente, si las actualizaciones se realizaran mediante la sobreescritura física de los eventos pasados, surgirían varios problemas:

Actualización en Data Warehouse (II) la justificación y la trazabilidad de la información requieren la capacidad de preservar la información exacta sobre la que el analista basó su decisión. Si los antiguos eventos son reemplazados por sus “nuevas” versiones, las decisiones pasadas ya no pueden justificarse.

Actualización en Data Warehouse (III) En algunas aplicaciones tener acceso sólo a la versión más actual de la información no es suficiente para asegurar la calidad del análisis.

Actualización en Data Warehouse (IV) La carga de datos en el Data Warehouse suele realizarse como procesos batch con periodicidades establecidas (por ejemplo cada noche, una vez a la semana). La pregunta ahora es ¿cómo actualizamos los datos en un Data Warehouse? Y qué implicación tiene actualizar los datos con retraso respecto al tiempo en el que ocurrió?

Gestión de tiempo (I) algunas soluciones adoptadas para ofrecer información consistente están basadas sobre el hecho de distinguir entre el tiempo de transacción y el tiempo valido en el que ocurren los eventos: Dos posibles semánticas de eventos se distinguen y son denominadas (FLOW y STOCK). Tres categorías de consultas. Un par de diseños introducidos que tratan el problema y que utilizan las soluciones mencionadas.

Gestión de tiempo (II) semántica de eventos Transactional fact: en este modelo cada evento se registra una sola vez o se resume un conjunto de transacciones que ocurren en el mismo intervalo de tiempo. Son medidas tomadas en el flujo de tiempo y son generalmente aditivas. Snapshot fact: los eventos se corresponden a medidas periódicas de un evento, no son aditivas.

Gestión de tiempo (III) dimensiones y tipos de consultas Dado el problema de actualización retrasada se pueden considerar dos dimensiones temporales distintas, una para “tiempo de validez” y otra para “tiempo de transacción”: Tiempo de validez: indica el periodo de tiempo en el cual un hecho es verdad en el mundo real. Tiempo de transacción: indica el periodo de tiempo en el cual un hecho está guardado en la base de datos.

Gestión de tiempo (IV) dimensiones y tipos de consultas Dadas estas dos dimensiones, tres tipos de consultas se pueden considerar: Up-to-date queries: son las consultas que requieren las últimas actualizaciones para sus medidas. Rollback queries: son las consultas que requieren un dato antiguo para cada medida que realizan (ejemplo: comparación). Historical queries: son consultas que requieren varios datos antiguos para cada medida que realizan.

Diseño de soluciones (I) Esquema Monotemporal: donde sólo el tiempo válido se modela como una dimensión.(se actualizan los eventos y no se traza el tiempo). Esquema bitemporal: donde el tiempo válido y tiempo de transacción se modelan como dimensiones. (los nuevos eventos se añaden y su tiempo de registro se traza). dos soluciones específicas se pueden idear para un esquema bitemporal, delta solución y solución consolidada, donde los eventos utilizados para representar cambios tienen semántica de flujo y stock respectivamente.

Diseño de soluciones (II) dos soluciones específicas se pueden idear para un esquema bitemporal, delta solución y solución consolidada, donde los eventos utilizados para representar cambios tienen semántica de flujo y stock respectivamente.

Diseño de soluciones (III) DELTA solución En la solución delta: cada actualización está representada por un evento de “flujo” que registra lo que se denomina un "delta" para un hecho; El tiempo de la transacción se modela añadiendo al hecho una nueva dimensión temporal.

Diseño de soluciones (IV) DELTA solución En la solución consolidada: cada actualización está representada por un evento “stock” que registra la versión consolidada del hecho. El tiempo de la transacción se modela añadiendo al hecho dos nuevas dimensiones temporales, utilizando marcas de tiempo para marcar el intervalo de tiempo durante el cual cada evento era el actual en el data warehouse. NOTA: los dos diseños admiten los tres tipos de consultas mencionadas.

Slowly changing dimensions (I) Es una solución al problema de actualizaciones. No se consideran todos los hechos o todas las dimensiones que dependen del tiempo. Se denomina a estas dimensiones casi constantes slowly changing dimensions (SCD) y para su tratamiento Kimball identificó originalmente tres tratamientos diferentes, a los que denominó “Tipo 1”, “Tipo 2” y “Tipo 3”.

Slowly changing dimensions (II) Tipo 1: Se sobrescribe el dato antiguo con el nuevo, y por tanto no se registra la historia. Tipo 2: Registra datos históricos mediante la creación de múltiples registros con claves diferentes. Con el tipo 2 se preserva toda la historia mediante la inserción de un nuevo registro cada vez que se hace un cambio. Tipo 3: Registra los cambios utilizando columnas separadas.

Slowly changing dimensions (III) Tipo 6: Este método combina los anteriores 1, 2 y 3 (1 + 2 + 3 = 6), de ahí su nombre.

Herramientas ETL

Definición. Extract Transform Load Extract : extraer datos de diferentes fuentes Transform : transformar los datos Load : cargar los datos en un data Warehouse

Procesos ETL. Extraer : Consiste en extraer los datos desde diferentes sistemas de origen. Extraer : Analizar los datos extraídos . Correspondencia Bases de datos operacionales Almacenamiento intermedio Almacén de datos Extracción

Procesos ETL. Transformación : En esta fase se aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados . Correspondencia Bases de datos operacionales Almacenamiento intermedio Almacén de datos Transformación

Procesos ETL. Limpieza de datos: eliminar datos, corregir y completar datos, eliminar duplicados. 12M65431 12-m-65421 “12m65421” “ ” 12 M m 65431 65421

Procesos ETL. Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Mujer” en “M″) Aplicación: Hombre y Mujer H - M

Procesos ETL. Unir varias columnas en una .

Procesos ETL. Obtener nuevos valores calculados Calcular totales de múltiples filas de datos Dividir una columna en varias

Procesos ETL. Cargar : En esta false los datos de la fase anterior (transformar) son cargados en el sistema de destino . Correspondencia Almacenamiento intermedio Extracción Carga Bases de datos operacionales Transformación Almacén de datos

Procesos ETL. Existen dos etapas del proceso de carga: - Carga inicial. - Mantenimiento periódico. Existen dos formas de desarrollar el proceso de carga: - TAL (Trunc and Load) . - Incremental .

Procesos ETL. Procesamiento : Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo . Hay 3 tipos principales de paralelismos que se pueden implementar en las aplicaciones ETL: - De datos - De segmentacion (pepline) - De componente

Herramientas ETL

Herramientas ETL Colver.ETL : Es una herramienta ETL open source basado en un framework Java que puede ser utilizado para transformar datos estructurados . Puede ser utilizado solo como un servidor de aplicación .

Desventajas de ETL. Costo de las licencias Flexibilidad Incertidumbre

Conclusión. En sistemas de información no existen soluciones universales, es decir soluciones que siempre van a dar buenos resultados en el ciento por ciento de los casos. Por esta razón durante la presentación , veremos otras soluciones que pueden ser mejores o peores .

La solución Change Data Capture(CDC) La tecnologia Change Data Capture permite capturar solamente los cambios que se han hecho en los datos fuente y enviarlos directamente al sistema en tiempo real , asi se ahorra mucho trafico en la red y tambien reducir el tiempo de tratamiento ETL . Las soluciones que utilizan CDC tienen una gran ventaja que las herramientas ETL traditional et son complementos de ellos en muchos casos

La solución Change Data Capture(CDC)

La solución Change Data Capture(CDC) Las ventajas de esta tecnologia son lo siguiente : Los cambios se detectan en tiempo real para que la informacion siempre queda actualizada .la tecnologia CDC permite capturar la informacion un vez que ha sido producida No existe ningun impacto sobre la eficiencia de los sistemas de produccion

La solución Change Data Capture(CDC) No hace falta parar el sistemas para poder efectuar estos cambios Se adapta facilmente a unos bases de datos muy grandes y a un gran numero de transacciones La tecnologia CDC solamente lee las informaciones de la base de datos y no hace ninguna modificacion en la base de datos fuente

La solución Change Data Capture(CDC) Puede completar las herramientas ETL tradicional , Muchas empresas combinaban entre las ventajas que ofrece el CDC y un ETL tradicional

IBM InfoSphere Change Data Capture

IBM InfoSphere Change Data Capture IBM infosphere Change data Capture ofrece una integracion bidireccional et en tiempo real y las transformaciones entres distintas bases de datos y de otros datos almacenados en otras plataformas . Al contrario de las herramientas ETL tradicional , los cambios batch y de las consultas y los sistemas basados en mensajes

Beneficios de IBM InfoSphere Impacto minimo : en vez de utilizar triggers o ejecutar consultas en las bases de datos , IBM InfoSphere utiliza lo mejor de la tecnologia CDC basada en los logs de las bases de datos Facil a desplegar : la facilidad de uso de la interfaz grafica de IBM InfoSphere facilita la seleccion de la fuente de la base de datos y de configurar las transformaciones Tiempo real : los cambios de datos son captados en el sistemas fuente a medida que se producen , los cambios son distribuidos inmediatamente a los sistemas

Beneficios de IBM InfoSphere Flexibilidad : Los usuarios de IBM InfoSphere lo usan para distintos problemas sobre una gama de plataformas desde los mainframes hasta las aplicaciones movil , InfoSphere puedes despegarse sobre distintas arquitecturas tal como : DB2 , UDB,Microsoft SQL , server oracle , ....

Bibliografia y webliografia - Concevoir et deployer un data warehouse[Ralph kimball] - Le data warehouse : guide et de conduite de projet[Margy Ross] - Data warehouse performance [ Ken Rudin ] - http://www-935.ibm.com/services/fr/gbs/consulting/ - http://www.stratebi.com/etl/data-quality - http://openaccess.uoc.edu/webapps/o2/bitstream/10609/8175/1/Sduras_TFM_06 11.pdf

Gracias