What Time Is It in the Data Warehouse

What Time Is It in the Data Warehouse

Indice 1-Introducción 2-Actualización en Data Warehouse
3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones 5-Slowly changing dimensions 6-Herramientas ETL 7-La solución Change Data Capture(CDC) 8-Bibliografía y webliografia

Introducción (I) El Data Warehouse es una tecnología que básicamente se encarga de consolidar, integrar y centralizar los datos que la empresa genera en todos los ámbitos de una actividad de negocio, facilitando posteriormente una amplia gama de análisis que permitirá la toma de decisiones estratégicas y tácticas.

Introducción (II) Una de las definiciones del data Warehouse es:
El Data Warehouse es una colección de datos temática, integrada, no volátil y variante en el tiempo diseñada para ayudar en la toma de decisiones.

Actualización en Data Warehouse (I)
La necesidad de actualizaciones surge típicamente cuando las medidas iniciales de los eventos pueden estar sujetas a error o cuando los eventos evolucionan inherentemente en el tiempo. Desafortunadamente, si las actualizaciones se realizaran mediante la sobreescritura física de los eventos pasados, surgirían varios problemas:

Actualización en Data Warehouse (II)
la justificación y la trazabilidad de la información requieren la capacidad de preservar la información exacta sobre la que el analista basó su decisión. Si los antiguos eventos son reemplazados por sus “nuevas” versiones, las decisiones pasadas ya no pueden justificarse.

Actualización en Data Warehouse (III)
En algunas aplicaciones tener acceso sólo a la versión más actual de la información no es suficiente para asegurar la calidad del análisis.

Actualización en Data Warehouse (IV)
La carga de datos en el Data Warehouse suele realizarse como procesos batch con periodicidades establecidas (por ejemplo cada noche, una vez a la semana). La pregunta ahora es ¿cómo actualizamos los datos en un Data Warehouse? Y qué implicación tiene actualizar los datos con retraso respecto al tiempo en el que ocurrió?

Gestión de tiempo (I) algunas soluciones adoptadas para ofrecer información consistente están basadas sobre el hecho de distinguir entre el tiempo de transacción y el tiempo valido en el que ocurren los eventos: Dos posibles semánticas de eventos se distinguen y son denominadas (FLOW y STOCK). Tres categorías de consultas. Un par de diseños introducidos que tratan el problema y que utilizan las soluciones mencionadas.

Gestión de tiempo (II) semántica de eventos
Transactional fact: en este modelo cada evento se registra una sola vez o se resume un conjunto de transacciones que ocurren en el mismo intervalo de tiempo. Son medidas tomadas en el flujo de tiempo y son generalmente aditivas. Snapshot fact: los eventos se corresponden a medidas periódicas de un evento, no son aditivas.

Gestión de tiempo (III) dimensiones y tipos de consultas
Dado el problema de actualización retrasada se pueden considerar dos dimensiones temporales distintas, una para “tiempo de validez” y otra para “tiempo de transacción”: Tiempo de validez: indica el periodo de tiempo en el cual un hecho es verdad en el mundo real. Tiempo de transacción: indica el periodo de tiempo en el cual un hecho está guardado en la base de datos.

Gestión de tiempo (IV) dimensiones y tipos de consultas
Dadas estas dos dimensiones, tres tipos de consultas se pueden considerar: Up-to-date queries: son las consultas que requieren las últimas actualizaciones para sus medidas. Rollback queries: son las consultas que requieren un dato antiguo para cada medida que realizan (ejemplo: comparación). Historical queries: son consultas que requieren varios datos antiguos para cada medida que realizan.

Diseño de soluciones (I)
Esquema Monotemporal: donde sólo el tiempo válido se modela como una dimensión.(se actualizan los eventos y no se traza el tiempo). Esquema bitemporal: donde el tiempo válido y tiempo de transacción se modelan como dimensiones. (los nuevos eventos se añaden y su tiempo de registro se traza). dos soluciones específicas se pueden idear para un esquema bitemporal, delta solución y solución consolidada, donde los eventos utilizados para representar cambios tienen semántica de flujo y stock respectivamente.

Diseño de soluciones (II)
dos soluciones específicas se pueden idear para un esquema bitemporal, delta solución y solución consolidada, donde los eventos utilizados para representar cambios tienen semántica de flujo y stock respectivamente.

Diseño de soluciones (III) DELTA solución
En la solución delta: cada actualización está representada por un evento de “flujo” que registra lo que se denomina un "delta" para un hecho; El tiempo de la transacción se modela añadiendo al hecho una nueva dimensión temporal.

Diseño de soluciones (IV) DELTA solución
En la solución consolidada: cada actualización está representada por un evento “stock” que registra la versión consolidada del hecho. El tiempo de la transacción se modela añadiendo al hecho dos nuevas dimensiones temporales, utilizando marcas de tiempo para marcar el intervalo de tiempo durante el cual cada evento era el actual en el data warehouse. NOTA: los dos diseños admiten los tres tipos de consultas mencionadas.

Slowly changing dimensions (I)
Es una solución al problema de actualizaciones. No se consideran todos los hechos o todas las dimensiones que dependen del tiempo. Se denomina a estas dimensiones casi constantes slowly changing dimensions (SCD) y para su tratamiento Kimball identificó originalmente tres tratamientos diferentes, a los que denominó “Tipo 1”, “Tipo 2” y “Tipo 3”.

Slowly changing dimensions (II)
Tipo 1: Se sobrescribe el dato antiguo con el nuevo, y por tanto no se registra la historia. Tipo 2: Registra datos históricos mediante la creación de múltiples registros con claves diferentes. Con el tipo 2 se preserva toda la historia mediante la inserción de un nuevo registro cada vez que se hace un cambio. Tipo 3: Registra los cambios utilizando columnas separadas.

Slowly changing dimensions (III)
Tipo 6: Este método combina los anteriores 1, 2 y 3 ( = 6), de ahí su nombre.

Herramientas ETL

Definición. Extract Transform Load
Extract : extraer datos de diferentes fuentes Transform : transformar los datos Load : cargar los datos en un data Warehouse

Procesos ETL. Extraer : Consiste en extraer los datos desde diferentes sistemas de origen. Extraer : Analizar los datos extraídos . Correspondencia Bases de datos operacionales Almacenamiento intermedio Almacén de datos Extracción

Procesos ETL. Transformación : En esta fase se aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados . Correspondencia Bases de datos operacionales Almacenamiento intermedio Almacén de datos Transformación

Procesos ETL. Limpieza de datos: eliminar datos, corregir y completar datos, eliminar duplicados. 12M65431 12-m-65421 “12m65421” “ ” 12 M m 65431 65421

Procesos ETL. Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Mujer” en “M″) Aplicación: Hombre y Mujer H - M

Procesos ETL. Unir varias columnas en una .

Procesos ETL. Obtener nuevos valores calculados
Calcular totales de múltiples filas de datos Dividir una columna en varias

Procesos ETL. Cargar : En esta false los datos de la fase anterior (transformar) son cargados en el sistema de destino . Correspondencia Almacenamiento intermedio Extracción Carga Bases de datos operacionales Transformación Almacén de datos

Procesos ETL. Existen dos etapas del proceso de carga:
- Carga inicial. - Mantenimiento periódico. Existen dos formas de desarrollar el proceso de carga: - TAL (Trunc and Load) . - Incremental .

Procesos ETL. Procesamiento : Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo . Hay 3 tipos principales de paralelismos que se pueden implementar en las aplicaciones ETL: - De datos - De segmentacion (pepline) - De componente

Herramientas ETL

Herramientas ETL Colver.ETL : Es una herramienta ETL open source basado en un framework Java que puede ser utilizado para transformar datos estructurados . Puede ser utilizado solo como un servidor de aplicación .

Desventajas de ETL. Costo de las licencias Flexibilidad Incertidumbre

Conclusión. En sistemas de información no existen soluciones universales, es decir soluciones que siempre van a dar buenos resultados en el ciento por ciento de los casos. Por esta razón durante la presentación , veremos otras soluciones que pueden ser mejores o peores .

La solución Change Data Capture(CDC)
La tecnologia Change Data Capture permite capturar solamente los cambios que se han hecho en los datos fuente y enviarlos directamente al sistema en tiempo real , asi se ahorra mucho trafico en la red y tambien reducir el tiempo de tratamiento ETL . Las soluciones que utilizan CDC tienen una gran ventaja que las herramientas ETL traditional et son complementos de ellos en muchos casos

Las ventajas de esta tecnologia son lo siguiente : Los cambios se detectan en tiempo real para que la informacion siempre queda actualizada .la tecnologia CDC permite capturar la informacion un vez que ha sido producida No existe ningun impacto sobre la eficiencia de los sistemas de produccion

No hace falta parar el sistemas para poder efectuar estos cambios Se adapta facilmente a unos bases de datos muy grandes y a un gran numero de transacciones La tecnologia CDC solamente lee las informaciones de la base de datos y no hace ninguna modificacion en la base de datos fuente

Puede completar las herramientas ETL tradicional , Muchas empresas combinaban entre las ventajas que ofrece el CDC y un ETL tradicional

IBM InfoSphere Change Data Capture

IBM InfoSphere Change Data Capture
IBM infosphere Change data Capture ofrece una integracion bidireccional et en tiempo real y las transformaciones entres distintas bases de datos y de otros datos almacenados en otras plataformas . Al contrario de las herramientas ETL tradicional , los cambios batch y de las consultas y los sistemas basados en mensajes

Beneficios de IBM InfoSphere
Impacto minimo : en vez de utilizar triggers o ejecutar consultas en las bases de datos , IBM InfoSphere utiliza lo mejor de la tecnologia CDC basada en los logs de las bases de datos Facil a desplegar : la facilidad de uso de la interfaz grafica de IBM InfoSphere facilita la seleccion de la fuente de la base de datos y de configurar las transformaciones Tiempo real : los cambios de datos son captados en el sistemas fuente a medida que se producen , los cambios son distribuidos inmediatamente a los sistemas

Beneficios de IBM InfoSphere
Flexibilidad : Los usuarios de IBM InfoSphere lo usan para distintos problemas sobre una gama de plataformas desde los mainframes hasta las aplicaciones movil , InfoSphere puedes despegarse sobre distintas arquitecturas tal como : DB2 , UDB,Microsoft SQL , server oracle , ....

Bibliografia y webliografia
- Concevoir et deployer un data warehouse[Ralph kimball] - Le data warehouse : guide et de conduite de projet[Margy Ross] - Data warehouse performance [ Ken Rudin ] - - pdf

Gracias

What Time Is It in the Data Warehouse

Presentaciones similares

Presentación del tema: "What Time Is It in the Data Warehouse"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

What Time Is It in the Data Warehouse

Presentaciones similares

Presentación del tema: "What Time Is It in the Data Warehouse"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback