La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 DATAWAREHOUSE. 2 Introducción Un datawarehouse es un conjunto de datos integrados, orientados a una materia que varian con el tiempo y que no son transitorios,

Presentaciones similares


Presentación del tema: "1 DATAWAREHOUSE. 2 Introducción Un datawarehouse es un conjunto de datos integrados, orientados a una materia que varian con el tiempo y que no son transitorios,"— Transcripción de la presentación:

1 1 DATAWAREHOUSE

2 2 Introducción Un datawarehouse es un conjunto de datos integrados, orientados a una materia que varian con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decision datos integrados orientados a una materia varian con el tiempono son transitoriosel proceso de toma de decisiondatos integrados orientados a una materia varian con el tiempono son transitoriosel proceso de toma de decision

3 3 No son transitorios No son volatiles No son volatiles No se llevan a cabo modificaciones o eliminaciones, solo inserciones No se llevan a cabo modificaciones o eliminaciones, solo inserciones Guarda datos sumarizados Guarda datos sumarizados

4 4 Orientados a una materia Organiza y orienta los datos en función del usuario final y sus temas de interés Ejemplo Ventas, Competencias, Internaciones

5 5 Datos integrados Los datos provienen de diferentes fuentes La integración de datos se logra mediante la consistencia en la Convenciones de nombres, Unidades de medida y Convenciones de nombresUnidades de medidaConvenciones de nombresUnidades de medida Codificación CodificaciónCodificación

6 6 Unidades de medida Las distintas fuentes de datos pueden tener un mismo elemento medido en: –Centímetros| –Metros –pulgadas

7 7 Codificación Las distintas fuentes de datos pueden tener distintas codificaciones, ejemplo: genero M, F 0, 1 0, 1 x, y x, y

8 8 Convenciones de nombres El mismo elemento puede estar referido con nombres diferentes en distintas aplicaciones

9 9 Varían con el tiempo Mantiene tanto datos históricos como datos actuales Mantiene tanto datos históricos como datos actuales La información histórica es de gran importancia, permite analizar tendencias La información histórica es de gran importancia, permite analizar tendencias

10 10 Toma de decisión Sistemas orientados para dar soporte a la toma de decisión dirigido a los trabajadores del conocimiento: EjecutivosAdministradoresAnalistas

11 11 Diferencias entre OLTP y OLAP OLTP: On Line Transaction Processing OLAP: On-Line Analytical Processing

12 12 Diferencias entre OLTP y OLAP OLTP Datos organizados por aplicación Datos organizados por aplicación Focalizado en aplicaciones específicas Focalizado en aplicaciones específicas No integradas No integradas Distintos tipos de datos Distintos tipos de datos OLAP Datos organizados por tema Focalizado en requerimientos empresariales Integradas Mismo tipo de datos

13 13 Diferencias entre OLTP y OLAP OLTP Diferente formatos de archivos Diferente formatos de archivos Diferentes plataformas hardware Diferentes plataformas hardware Realizan periodicamente altas, bajas y modificaciones Realizan periodicamente altas, bajas y modificaciones OLAP Formatos de archivos standard Un sólo servidor (lógico) Solamente altas de datos

14 14 Diferencias entre OLTP y OLAP OLTP Se realizan acciones repetidas Se realizan acciones repetidas Manipulación de datos registro a registro Manipulación de datos registro a registro Transacciones y/o validación a nivel de registro Transacciones y/o validación a nivel de registro OLAP Continuamente cambia el tipo de pregunta Carga y acceso de datos en forma masiva Validación antes o después de la carga (nunca a nivel de registro o transacción)

15 15 Diferencias entre OLTP y OLAP OLTP Manejan cientos de transacciones diarias Manejan cientos de transacciones diarias Falta de soporte explícito para datos historicos Falta de soporte explícito para datos historicos Datos operacionales volátiles Datos operacionales volátiles OLAP Manejan pocas transacciones con muchos registros Soporte para datos históricos Datos altamente estables

16 16 Diferencias entre OLTP y OLAP Normalmente se encuentra separado el DataWarehouse del OLTP, debido a: –El DataWarehouse tiene alta demanda de recursos, puede entorpecer el desempeño del OLTP –Los datos del DataWarehouse normalemente son integrados de múltiples sistemas OLTP remotos

17 17 Arquitectura General de un DataWarehouse

18 18 Arquitectura General de un DataWarehouse Extracción de datos de múltiples fuentes Extracción de datos de múltiples fuentes Extracción de datos de múltiples fuentes Extracción de datos de múltiples fuentes Transformación de datos Transformación de datos Transformación de datos Transformación de datos Carga de datos Carga de datos Carga de datos Carga de datos Acceso de datos Acceso de datos Acceso de datos Acceso de datos

19 19 Transformación de datos Proceso de sumarización y cambios en los datos operacionales para reunir los objetivos de orientación a temas

20 20 Extracción de datos Se extraen datos de las distintas fuentes operativas a un espacio temporal para posterior limpieza y transformación

21 21 Carga de datos Inserción sistemática de datos en el componente de almacenamiento fisico del DataWarehouse

22 22 Acceso de datos Los usuarios acceden al DataWarehouse mediante herramientas basados en GUI: –Software de consultas –Generadores de reportes –Data mining

23 23 Metadatos Representan toda la información de administración y seguimiento necesarios para: necesarios para: –Acceso a datos –Compresión y utilización »Semántica »Origen »Formato »Reglas de agregación

24 24 Datamarts Subconjuntos departamentales que focalizan objetos seleccionados Subconjuntos departamentales que focalizan objetos seleccionados Se caracteriza por una definición de requerimientos más rápida y fácil Se caracteriza por una definición de requerimientos más rápida y fácil Pueden integrarse en un futuro en un DataWarehouse Pueden integrarse en un futuro en un DataWarehouse

25 25 Data mining Extracción de información oculta y predecible de grandes bases de datos Predicción automatizada de tendencias y comportamientos Predicción automatizada de tendencias y comportamientos Descubrimiento automatizado de modelos previamamente desconocidos Descubrimiento automatizado de modelos previamamente desconocidos

26 26 Modelo Conceptual de un DataWarehouse

27 27 Esquema de Hechos

28 28 Esquema de Hechos El esquema de DataWarehouse consiste en un conjunto de esquemas de hechos. Componentes: –Hechos Hechos –Dimensiones Dimensiones –jerarquías jerarquías

29 29 Hecho Es un enfoque de interés para la empresa Ejemplo VENTAS VENTASCOMPETENCIASINTERNACIONES

30 30 Dimensiones Determina la granularidad para la determinación de los hechos EjemploProductoFechaalmacen

31 31 Jerarquías La dimensiones se asocian con sus jerarquías y especifican distintos niveles de agrupamiento Ejemplo Día Mes trimestre año Producto Tipo Categoría

32 32 Hipercubo

33 33 Vista Multidimensional - Ventas Producto Tiempo Ciudad camisa Mar 99 Feb 99 Ene 99 pantalonsaco NYork Paris Roma Los datos se encuentran en la interseccion de las dimensiones

34 34 Vista de un archivo plano tradicional Campo (columna) Registro (fila) El dato se encuentra en la interseccion de una fila y columna

35 35 Operaciones Pivoting Pivoting Pivoting Slicing dicing Slicing dicing Slicing dicing Slicing dicing Roll up Roll up Roll up Roll up Drill down Drill down Drill down Drill down

36 36 Pivoting Rotar el cubo para ver una cara en particular Ejemplo Analizar informacion referida a proveedores

37 37 Slicing dicing Seleccionar algún subconjunto de ese cubo Ejemplo Analizar el cubo de datos restringiendolo para algunos proveedores, productos y fechas

38 38 Roll up Agrupamiento por alguna dimensión determinada Ejemplo Analizar las ventas de producto a las ventas por tipo de producto

39 39 Drill down Operación inversa: muestra información detallada de cada agrupamiento Ejemplo Analizar las ventas de tipo de producto a las ventas por producto

40 40 Implementaciones relacionales Esquema estrella Esquema estrella Copo de nieve ó Pochoclo Copo de nieve ó Pochoclo Constelación Constelación

41 41 Esquema estrella Compuesto por una tabla central –tabla de hechos- y un conjunto de tablas mostradas en una forma radial alrededor de ésta –tablas dimensión-

42 42 Esquema estrella

43 43 Modelos - Estrella Ventajas Facil de entender Rapida respuesta a consultas Datos simples Desventajas Mas susceptible a los cambios Lenta de construir por la denormalizacion

44 44 Copo de nieve ó Pochoclo Extensión del esquema estrella, donde cada una de las tablas del esquema se divide en más tablas se divide en más tablas -tablas más normalizadas-

45 45 Modelos - Pochoclo Ventajas Mas flexible a requerimientos Mas flexible a requerimientos Carga mas rapida Carga mas rapidaDesventajas Puede agrandarse y ser inmanejable Puede agrandarse y ser inmanejable Puede degradar la performance Puede degradar la performance

46 46 Copo de nieve

47 47 Modelos - Constelación Tabla clientes cod-cliente nombre-cliente Tabla hechos precio-unidad ventas-unidad ventas-pesos costo-pesos Tabla producto cod-prod desc-prod Tabla tiempo cod-semana cod-periodo cod-año Tabla deposito cod-depo cod-localidad Tabla resumen cod-cliente ventas-total valor top-ventas promedio-ventas Resumen por producto, deposito, y tiempo para todos los clientes

48 48 Modelos - Constelación Tabla producto cod-prod desc-prod Tabla hechos cod-depo cod-item ventas-pesos ventas-unidades Tabla Item cod-item desc-item Tabla tiempo cod-semana cod-periodo cod-año Tabla deposito cod-depo cod-localidad Tabla Regiones cod-region desc-region Tabla Hechos-inventario cod-prod cod-estante costo-pesos cantidad

49 49 Diseño conceptual de un DataWarehouse a partir del Modelo Entidad Interrelación

50 50 Diseño conceptual de un DataWarehouse Metodología semi automática para construir un modelo lógico de un DataWarehouse a partir de un Modelo Entidad Interrelación

51 51 Ejemplo de MER

52 52 Transformación de una relación en entidad

53 53 Metodología Definir los hechos Definir los hechos Definir los hechos Definir los hechos Por cada hecho Por cada hecho –Construir el árbol de atributos Construir el árbol de atributosConstruir el árbol de atributos –Recortar e injertar el árbol Recortar e injertar el árbolRecortar e injertar el árbol –Definir dimensiones Definir dimensionesDefinir dimensiones –Definir atributos de hecho Definir atributos de hechoDefinir atributos de hecho –Definir jerarquias Definir jerarquiasDefinir jerarquias

54 54 Definir los hechos Los hechos son conceptos de interés primario para realizar procesos de toma de decisiones Un hecho puede ser representado en un MER mediante un entidad o una relación que representan archivos actualizables

55 55 Construir el árbol de atributos Dada una porción de interés del MER y una entidad F que pertenece a él, denominamos árbol de atributos al árbol que: Cada vértice corresponde a un atributo del esquema Cada vértice corresponde a un atributo del esquema La raíz corresponde al identificador de F La raíz corresponde al identificador de F

56 56 Algoritmo translate(F, identifier(F)) donde translate(E, v): // E es la entidad actual, v es el vértice actual translate(E, v): // E es la entidad actual, v es el vértice actual { for each attribute a E a identifier(F) do addChild (v, a); // agrego un hijo a al vértice v addChild (v, a); // agrego un hijo a al vértice v for each entity G connected to E for each entity G connected to E by a x-to-one relationship R do by a x-to-one relationship R do { for each attribute b R do { for each attribute b R do addChild (v, b); addChild (v, identifier(G)); translate(G, identifier(G)); } }}

57 57 Árbol de atributos

58 58 Recortar e injertar el árbol No todos los atributos representados en el árbol pueden ser de interés. El árbol puede ser podado e injertado para eliminar detalles innecesarios

59 59 Recortar e injertar el árbol graft(v): { for each v v is child of v do addChild(v,v); addChild(v,v); drop v; drop v;}

60 60 Árbol podado e injertado

61 61 Definir dimensiones Las dimensiones determinan cómo las instancias de hechos pueden ser agregadas para el proceso de la toma de decisiones Deben ser elegidas entre los vértices del árbol EjemploFechaProductoAlmacen

62 62 Definir atributos de hecho Son cantidades del número de instancias de hecho o suma/promedio/máximo/mínimo de expresiones que involucran atributos numéricos del árbol de atributos

63 63 Definir jerarquías La jerarquías especifican distintos niveles de agrupamiento El árbol ya muestra una organización jerárquica


Descargar ppt "1 DATAWAREHOUSE. 2 Introducción Un datawarehouse es un conjunto de datos integrados, orientados a una materia que varian con el tiempo y que no son transitorios,"

Presentaciones similares


Anuncios Google