La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Modelado dimensional Hugo M. Castro.

Presentaciones similares


Presentación del tema: "Modelado dimensional Hugo M. Castro."— Transcripción de la presentación:

1 Modelado dimensional Hugo M. Castro

2 Modelo de datos En los sistemas transaccionales
Modelo de entidad-relación Protección de integridad Altas-bajas-modificaciones Eficiencia en los procesos En los sistemas de soporte a la decisión Modelo dimensional

3 Modelado dimensional Variables del negocio Medidas Dimensiones
Valores numéricos Sumas, consolidaciones, operaciones aritméticas Dimensiones Textuales Filtros

4 Modelo dimensional Diferencias
El modelo de datos dimensional es lo que hace que un Data Warehouse sea una base de datos orientada al negocio

5 Diseñamos el Data Warehouse
Elegimos el proceso de negocios que vamos a modelar: Ventas diarias, manejo de stock, … Elegimos la granularidad (nivel de detalle) del proceso de negocios Elegimos las dimensiones que van a intervenir Elegimos los hechos o medidas que se van a utilizar

6 Diagrama Lógico Es una representación de la estructura que va a tener el Data Warehouse Se puede revisar con el profesional de negocios Comprende Descripción de medidas y granularidad Descripción de las dimensiones

7 Medidas Valores numéricos
Cantidad Importe Sumas, consolidaciones, operaciones aritméticas Granularidad Por fecha Por producto Por sucursal

8 Medidas Sucursales Fecha Sucursal Día Ventas Cantidad Importe
Productos Producto

9 Dimensiones Variables del negocio Son de tipo textual
Fechas, productos, sucursales Son de tipo textual Sirven para mostrar, agrupar, filtrar Valores numéricos categorizados Rangos de edades, niveles de precios Atributos

10 Relaciones entre atributos
Uno-uno A cada código de artículo le corresponde una descripción A cada descripción le corresponde un código de artículo Ambos atributos forman parte de la misma dimensión

11 Relaciones entre atributos
Uno-muchos Productos Una familia de productos comprende varios productos Un tipo de producto comprende varias familias La relación jerárquica es tipo > familia > producto

12 Dimensiones Tipo Familia Producto

13 Dimensiones Jerarquías múltiples
Puede ocurrir que además de agrupar los productos por tipo y familia sea útil agruparlos por nivel de precio (caro, mediano, barato) Esto se representa con una doble jerarquía tipo > familia > producto nivel de precio > producto

14 Dimensiones Nivel de precios Tipo Familia Producto

15 Relaciones entre atributos
Muchos-muchos Cada producto se vende en varias sucursales En cada sucursal se venden varios productos Estos atributos corresponden a dimensiones diferentes Se relacionan a través del diagrama de medidas

16 Medidas Sucursales Fecha Sucursal Día Ventas Cantidad Importe
Productos Producto

17 Estructura de tablas Tabla de hechos
Se construye sobre la base del diagrama de medidas Contiene una fila por cada acontecimiento que debe reflejar Tiene dos partes: Las referencias a las dimensiones Las medidas

18 Tabla de Hechos Fecha Dimensiones Producto Sucursal Importe Medidas
Unidades Tickets

19 Estructura de tablas Tabla de dimensión
Se construye sobre la base del diagrama de dimensión respectivo Contiene atributos descriptivos De tipo textual y discreto Para seleccionar Para agrupar Para mostrar No contiene valores que intervengan en cálculos Valores numéricos categorizados

20 Estructura de tablas Los códigos son un atributo más
Se incluyen las decodificaciones como atributo No hay que confiar en que los usuarios conocen los códigos

21 Estructura de tablas Hay una tabla de dimensión por cada dimensión
En cada tabla de dimensión se colocan todos los atributos de esa dimensión que los profesionales de negocios consideran relevantes

22 Atributos Para la dimensión Fecha El día El mes El año Feriado
Semana Santa Día de la madre

23 Atributos Para la dimensión Producto El código de artículo
La descripción El tipo de envase El tamaño Dietético El nivel de precio

24 Tabla de dimensiones Producto-ID Descripción Familia Tipo Niv. Precio

25 Esquema Estrella Importe Unidades Tickets Producto-ID Fecha-ID
Cód.Artículo Fecha-ID Día Artículo Mes Producto-ID Familia Año Tipo Sucursal-ID Niv. Precio Sucursal-ID Importe Sucursal Unidades Distrito Tickets Zona

26 Esquema Estrella La tabla de hechos está en tercera forma normal
No tiene filas repetidas Las tablas de dimensiones están en segunda forma normal Todos los productos de una misma familia llevan como atributo el nombre de la familia

27 Esquema Estrella La tabla de hechos ocupa 95-98% del volumen total de un Data Warehouse En comparación las tablas de dimensiones ocupan poco espacio Los datos en un Data Warehouse no se modifican Los únicos joins son los de la tabla de hechos con cada tabla de dimensiones Mejor rendimiento en consultas

28 Esquema Copo de Nieve Familia-ID Producto-ID Descripción Descripción

29 Esquema Copo de Nieve En un esquema Copo de Nieve todas las tablas (hechos y dimensiones) están en tercera forma normal Es aplicable para tablas de dimensiones (p.ej. Producto o Cliente) con una gran cantidad de filas

30 Manejo de joins En un SELECT se eligen las tablas de las que se va a hacer join Con WHERE se especifican las condiciones de join Una vez efectuado el join con WHERE se especifican los criterios de selección de las filas que interesan

31 Manejo de joins Si la búsqueda se hace sobre un Data Warehouse de esa forma Se efectúan los joins de la tabla de hechos con las tablas de dimensiones La tabla resultante tiene millones de filas Se elige una parte de ellas y se descarta el resto Hay mucho trabajo desperdiciado

32 Manejo de joins Cuando el motor de Base de Datos debe procesar un Data warehouse Primero establece las restricciones sobre las tablas de dimensiones Luego efectúa los joins con las filas de la tabla de hechos que realmente se usan

33 Tipos de Medidas Aditivas
Se pueden sumar a lo largo de todas las dimensiones Importes Tiene sentido sumarlos por producto, por sucursal, por fecha

34 Medidas Semiaditivas Se pueden sumar a lo largo de una determinada dimensión Cantidad de unidades vendidas Sólo dimensión producto Carece de sentido sumarla en otras dimensiones Nivel de stock

35 Medidas No aditivas No tiene sentido sumarlas a lo largo de ninguna dimensión Porcentaje de ganancia Temperatura

36 Otras formas de consolidación
Promedio Máximo Mínimo Cantidad de casos

37 Cómo se conecta la tabla de hechos a las de dimensión
Tiene que verificarse la integridad referencial entre la tabla de hechos y las tablas de dimensión En la tabla de hechos : cada dimensión tiene una clave foránea (foreign key) que apunta a la fila que corresponde en la tabla de dimensión En la tabla de dimensión : esa clave tiene que ser una clave primaria (primary key)

38 Cuál es esa clave ? Opción 1 : la clave provista por los sistemas fuente (ej. código de artículo, código de cliente) Se la llama clave natural, clave del negocio, clave operativa, clave inteligente

39 Clave Inteligente PRODUCTO Cód. Artículo TABLA DE HECHOS
Tiene significado para el negocio

40 Clave Inteligente Desventajas
Incluye lógica del negocio (ej. parte del código de artículo es el código de proveedor) Requiere el uso conjunto de 2 ó más campos para identificar unívocamente a la fila (ej. código de artículo, fecha de vigencia) Es de longitud considerable (ej. alfanumérico de 15 ó más posiciones)

41 Clave Inteligente Desventajas
Los códigos son reutilizados en los sistemas fuente La estructura o longitud puede cambiar con el tiempo La forma de identificar un elemento cambia con el tiempo

42 Clave Inteligente Tiene dos funciones
Aportar conocimiento sobre el negocio Conectar la tabla de hechos con una tabla de dimensiones Ocupa mucho espacio en la tabla de hechos ¿Por qué no separar las funciones?

43 Clave Subrogada Opción 2 : generar dentro del ámbito del Datawarehouse una clave numérica sin significado para el negocio (número entero asignado en forma secuencial) Se la llama clave artificial, clave entera, clave subrogada

44 Clave Subrogada Sólo se usa para conectar las tablas PRODUCTO
Producto-ID TABLA DE HECHOS Cód. Artículo Producto-ID No tiene significado para el negocio

45 Clave Subrogada Tiene la única función de conectar la tabla de hechos con la tabla de dimensiones Es un número consecutivo (el número de fila en la tabla de dimensiones respectiva) Ocupa menos espacio en la tabla de hechos (la más voluminosa) La clave inteligente aparece como un atributo más

46 Clave Subrogada Ventajas
La lógica para identificar la fila de la tabla de dimensión que corresponde se hace en el proceso de ETL y no en el momento de la consulta El datawarehouse se independiza de cambios en el manejo de claves de los sistemas fuente Permite manejar dimensiones de cambio lento

47 Clave Subrogada Desventajas
Hay que manejar y administrar estas claves en el proceso de ETL Esta complejidad adicional se ve compensada en el mediano y largo plazo.

48 Dimensiones de cambio lento
El horizonte temporal del Data Warehouse es mayor que el de los sistemas transaccionales El Data Warehouse debe reflejar el paso del tiempo pero no perder la historia Un producto cambia de denominación Una sucursal cambia de distrito

49 Dimensiones de cambio lento
¿Qué hay que hacer? Interpretación del profesional de negocios ¿Queremos guardar la historia? ¿Con qué detalle?

50 Dimensiones de cambio lento
Distintos tipos Manejan en forma diferente la conservación de la historia Se define para cada atributo No hay un tipo que sea mejor que otro Interpretación del profesional de negocios Es una técnica que se llama SCD (slowly changing dimensions)

51 Dimensiones de cambio lento
Tipo 1 No conserva la historia Modifica el datos en la tabla de dimensiones

52 Dimensiones de cambio lento
PRODUCTO Enero 2008 146 267894 HECHOS Yogur dietético 146 TIPO 1

53 Dimensiones de cambio lento
PRODUCTO Octubre 2008 146 267894 HECHOS Yogur BC 146 TIPO 1

54 Dimensiones de cambio lento
Tipo 2 Cuando un atributo cambia de valor se agrega una nueva fila a la tabla de dimensiones Los nuevos hechos apuntan a la nueva fila Los hechos anteriores continúan apuntando a la fila anterior

55 Dimensiones de cambio lento
PRODUCTO Enero 2008 146 267894 HECHOS Yogur dietético 146 TIPO 2

56 Dimensiones de cambio lento
PRODUCTO Octubre 2008 542 267894 HECHOS Yogur BC 542 TIPO 2

57 Dimensiones de cambio lento
Tipo 3 Guarda una cantidad limitada de valores históricos de atributos seleccionados El profesional de negocios debe identificar el valor correspondiente

58 Dimensiones de cambio lento
PRODUCTO 385 HECHOS 267894 Denom. actual 385 Denom. anterior Denom. original TIPO 3

59 Dimensiones de cambio no tan lento
Problema Tabla de dimensiones con gran cantidad de filas Atributos que cambian con cierta frecuencia Aumento desmedido de la cantidad de filas

60 Minidimensiones El caso Dimensión clientes con gran cantidad de filas
Hay cambios de tipo socioeconómico Nivel de ingresos Estado civil Rango de edad

61 Minidimensiones Solución
Se crea una dimensión que agrupa a estos atributos Nivel de ingresos Rango de edad Estado civil Personas a cargo

62 Dimensiones de cambio no tan lento
Cada fila de esa tabla de dimensiones contiene un juego de valores posibles de cada uno de esos atributos Estado civil: Casado Ingresos: entre $1000 y $2000 Edad: entre 50 y 60 años Más de 3 personas a cargo

63 Minidimensiones SOCIOEC 67 CLIENTE 1518 67 HECHOS 1518 67 Casado
50 – 60 Más 3 pers 67 HECHOS 1518 67

64 Tablas de hechos sin medidas
Tabla de hechos que se refiere a la asistencia de alumnos a distintos cursos Tabla de hechos correspondientes a un censo Cada fila de la tabla de hechos identifica un caso a estudiar No existen medidas numéricas para sumar

65 Tablas de hechos sin medidas
Fecha-ID Curso-ID N° Curso Fecha-ID Alumno-ID Alumno-ID N° Matrícula Curso-ID Aula-ID Profesor-ID Ubicación Profesor-ID Aula-ID N° Legajo


Descargar ppt "Modelado dimensional Hugo M. Castro."

Presentaciones similares


Anuncios Google