Modelo de datos. Teoría y Práctica.

Slides:



Advertisements
Presentaciones similares
Informe caso de estudio Implementación de un Datawarehouse
Advertisements

On Line Analytical Processing

Implementación de Datawarehouse
Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.
Almacén de Datos MC BEATRIZ BELTRÁN MARTÍNEZ. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 33 Definición Colección de datos orientada a un dominio, integrado,
TSI-SNS Reunión Revisión de la repercusión en la Base de Datos del SNS del Real Decreto Ley 16/2012, de 20 de Abril.
SISTEMA DE GESTIÓN DE LA CALIDAD NORMAS ISO. CONCEPTOS GENERALES.
HERRAMIENTAS DE INTELIGENCIA DE NEGOCIOS
Lcda. Ingrid Graü Diseño de Sistemas 1. Lcda. Ingrid Graü Diseño de Sistemas 2.
Curso de Aptitud Pedagógica 2006/2007 OpenOffice Base Introducción a las Bases de Datos.
“ SISTEMA DE INFORMACIÓN GEOGRAFICA PARA EL CONTROL Y SEGUIMIENTO DE PROYECTOS, UNA APLICACIÓN GVSIG” Raul Fernando Molina Rodriguez 30 de septiembre del.
Introducción a las Bases de Datos Ing. Atzimba G. López M.
NORMA ISO DIS 9001:2015 Draft International Standard.
Introducción a las bases de datos. MODELO ENTIDAD RELACIÓN (CONTINUACIÓN)  Ejemplo de cómo se lee un diagrama entidad relación:
DISEÑO ORGANIZACIONAL Lic. Sujey Herrera Ramos. Es un método planificado que permite adaptar la estructura física, humana y de procesos de una organización.
Datawarehouse Ing. Adan Jaimes Jaimes Datawarehouse 1.
CADENA DE ABASTECIMIENTO Y LOGISTICA Msc. Miguel A. Calancha O.
Estados Financieros de los Bancos, Análisis e Indicadores de Gestión
Proceso de Implantación y Aceptación del Sistema de Información (IAS)
Data Warehouse - OLAP.
BASE DE DATOS.
Proceso de inventario Almacenes
Metodología de Implementación de Sistemas ERP
Gestión de Compras.
SAN LUIS POTOSI, S.L.P. NOVIEMBRE 2016
V Reunión de Usuarios Exlibris Perú
Estado del arte y Gestión de la Información
09 de mayo del 2016Pg. 1 ING. BERTHA MAZON, UNIDAD III: SOLUCIONES DE INTELIGENCIA DE NEGOCIOS.
U.T. 11: Introducción A Las Bases De Datos
Ingeniería del Software III Gabriel Buades Mayo 1.999
Gestión de Riesgos Corporativos
DIAGRAMAS Una Poderosa Herramienta Gráfica para el Análisis e Interpretación de los Procesos.
Inteligencia de Negocios Business Intelligence (BI)
PARTE I: INTRODUCCIÓN.
Caso real DWH. Empresa de distribución
INTRODUCCIÒN AL SISTEMA GESTOR DE BASE DE DATOS
Unidad 7: Nivel Interno Algunos Conceptos Importantes
SISTEMAS DE INFORMACION
TEMA 7 SISTEMAS DE INFORMACIÓN EN MARKETING
Propuesta Comercial dirigida a la
PROVEEDOR DATA WAREHOUSE TERADATA
Metodología de la programación
ORGANIGRAMA METODOLOGIA PARA LA IMPLANTACION DE UN PROYECTO EDI
ANALISTA FUNCIONAL Proyecto Diplomatura FCE/UNC
Conceptos Relacionados Unidad I. Parte A.
DIAGRAMAS Una Poderosa Herramienta Gráfica para el Análisis e Interpretación de los Procesos.
CCAPA Tecnologías de Información SAC Ref.: Presentación OSA-ERP
CCAPA Tecnologías de Información SAC Ref.: Presentación OSA-ERP
Presenta.
Fundamentos de Sistemas de Información
Auditoria de Tecnologías de Información PLANIFICACION Ing. Eder Gutiérrez Quispe.
Desarrollo Técnico  EL PROCESO DE CREACIÓN Y DESARROLLO DE UNA TIPOGRAFÍA CUALQUIERA ES, EN LÍNEA GENERAL MUY SIMILAR. AQUÍ NO SE DESCRIBIRÁ EN DETALLE.
Precisiones en la administración
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
- Que es una BD Según (Gómez, 2007, p.18) una base de datos es un conjunto de datos que pertenecen al mismo contexto, almacenados sistemáticamente para.
SOPORTE TÉCNICO Y SERVICIO AL CLIENTE. Dentro de la fase de Operación del Servicio se encuentran las siguientes funciones :
Sistema de Información de Recursos Humanos
Unidad 1. Introducción a las Bases de Datos FUNDAMENTOS DE BASE DE DATOS.
TALLER DE INVESTIGACION I PROCESO DE CAPTACION DE LA INFORMACION Y ELABORACION DEL CRONOGRAMA DE INVESTIGACION.
DATA WAREHOUSE Joseba Gil Noelia Suaña. ÍNDICE 1. Introducción. 2. ¿Qué es Data Warehouse? 3. Arquitectura. 4. Ventajas/Inconvenientes.
UNIVERSIDAD CATÓLICA LOS ÁNGELES DE CHIMBOTE AUTOR: Dominguez sosa, Bray limbert ASESORA: MGTR. ING. KARLA JUVICZA NEYRA ALEMÁN APLICACIÓN MÓVIL BASADA.
Análisis de Procesos Informáticos Ing. Renato Toasa  Daniel Quintana  Leonardo Herrera  Fernando Moya.
Almacenes de datos Data warehouse y OLAP. Gestión de los datos y del conocimiento.
Estudio de Viabilidad del Sistema (EVS). Estudio de Viabilidad del Sistema Cuestiones ¿Qué es la viabilidad de un sistema? ¿Cuáles son los objetivos del.
Plan de Sistemas de Información (PSI). Plan de Sistemas de Información (PSI) Descripción y Objetivos Tiene como objetivo la obtención de un marco de referencia.
Base de datos años  En la década de los años 80’, se desarrolló el SQL, un lenguaje de consultas que permite consultar, valga la redundancia,
PLANIFICACION Diego Hernández.
La Metodología Kimball, es una metodología empleada para la construcción de un almacén de datos (data warehouse, DW) que no es más que, una colección de.
FUNDAMENTOS DE INTELIGENCIA DE NEGOCIOS. La Inteligencia de Negocios o Business Intelligence (BI )se puede definir como el proceso de analizar los bienes.
Transcripción de la presentación:

Modelo de datos. Teoría y Práctica. Ejemplo sobre Empresa de Distribución 01 de marzo de 2.005 Curso: Datawarehouse y Datamining: Nuevas herramientas de Análisis de Clientes aplicadas en el Marketing actual

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de clientes Nombre Apellido 1 Apellido 2 Tipo Vía Nombre Vía Nº Vía Resto Vía Código Postal Localidad Provincia Fecha nacimiento Estado Civil Fecha Alta Centro Alta Email ... Información de clientes

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Fecha venta Cliente Producto Tienda Coste unitario Nº unidades ... Información de ventas

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de proveedores Nombre Domicilio Social Teléfono 1 Teléfono 2 ... Información de proveedores

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de productos Código Producto Referencia Descripción Fecha alta Fecha baja Subfamilia Familia Sección Departamento ... Información de productos

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de tiendas Código Tienda Descripción Dirección Localidad Regional ... Información de tiendas

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de campañas Código Campaña Descripción Fecha alta Fecha baja Segmento ... Información de campañas

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de segmentos Descripción Cliente Fecha alta Fecha baja ... Información de segmentos

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de comunicaciones Cliente Tipo comunicación Fecha envío Respuesta ... Información de comunicaciones

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de incidencias Cliente Ticket Fecha Clasificación ... Información de incidencias

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de puntos Cliente Puntos obtenidos Puntos canjeados Fecha movimiento Saldo ...

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Información de catálogo Código Producto Referencia Descripción Fecha alta Fecha baja Puntos asociados ... Información de catálogo

Cómo se van a mantener en el tiempo Objetivo: Analizar y extraer información útil de los datos Necesidad: disponer de los datos. Proceso de recopilación .- Diversidad de fuentes .- Tamaño de las fuentes Archivo simple Qué fuentes .- Internas .- Externas Cómo se van a mantener en el tiempo Cómo se van a organizar Cómo se va a poder extraer .- Total / parcialmente .- Agregados / en detalle Los almacenes de datos no son estrictamente necesarios para realizar minería de datos pero sí son muy útiles si se trabaja con grandes volúmenes de datos, que varían en el tiempo y donde se desea realizar tareas de minería de datos variadas, abiertas y cambiantes.

Identificación + recolección de datos · Para una tarea puntual · Poca cantidad · Poca variedad · Diferentes fuentes .- Externas .- Internas · Datos complejos y variados · Cambiantes Metodología y técnica para recopilación e integración de datos para el análisis y obtención de informes “lógica” Almacenes de datos Data Warehouse Base de datos Analizar

¿Puedo calcular cuota de bolsillo? BBDD Transaccional Operan todas las aplicaciones de la empresa: · Producción · Proveedores · Ventas · Nóminas... Ejemplo: Se registra cada venta: .- La fecha .- Las unidades .- El comprador .- El país de origen del comprador ¿Puedo calcular cuota de bolsillo? Identificar la información válida para el análisis: qué fuentes externas serán necesarias Identificar la información válida para el análisis: qué fuentes externas serán necesarias BBDD Transaccional Datos socioeconómicos, demográficos… Información necesaria

Usos del sistema de información .- Procesamiento transaccional: OLTP (On-line transactional processing) .- Aplicaciones del día a día .- Trabajo “primario” de un sistema de información .- Actualizaciones y consultas a la base de datos Objetivo: Operacional .- Procesamiento analítico: OLAP (On-line analytical processing) .- Exclusivamente de consulta .- Agregaciones y cruces de mucha información .- Informes / resúmenes Objetivo: Apoyo en toma de decisiones

Procesamiento transaccional vs procesamiento analítico Base de datos Transaccional Almacén de Datos Propósito Operaciones diarias. Soporta aplicaciones Recuperación de información, informes, análisis y minería de datos Tipo de datos Datos de funcionamiento de la organización Datos útiles para el análisis, el “reporting” Características de los datos Datos de funcionamiento, internos, incompletos Datos históricos, datos internos y externos, datos descriptivos Modelo de datos Datos normalizados Datos en estrella, en copo de nieve, multidimensionales Acceso SQL. Lectura y escritura SQL y herramientas propias. Lectura Procesos de volcado y mantenimiento Base de datos Transaccional Almacenes de datos

Estructura jerárquica Copo de nieve Depto. Estrella Sección Lugar Producto Familia Ventas Color Lugar Producto Tiempo Talla Región CCAA Tiempo Colección Rebajas verano Rebajas invierno Mes Semana Trimestre

Estructura jerárquica

Estructura jerárquica

Tipos de tablas en los almacenes de datos Hay tres tipos fundamentales de tablas en un data warehouse: · Tablas base: (Tablas de datos primarios o tablas de hechos). Contienen tanto métricas como atributos y almacenan los datos “objetivo”. · Tablas Lookup: (Tablas de descripción) Se utilizan cuando los datos en una tabla base vienen referenciados mediante un identificador. Estas tablas almacenan la descripción de los identificadores. · Tablas de relaciones: Almacenan relaciones padres-hijos entre atributos. También relaciones muchos a muchos VENTAS ID_producto ID_Tienda Ventas L_Producto ID_producto DESC_producto L_Tienda ID_Tienda DESC_Tienda Producto_Color ID_producto ID_Color DESC_Color

Relaciones. (Ejemplo: Atributo Cliente) Uno a uno: ID cliente - DNI Un cliente tiene un único dni Un dni pertenece a un único cliente Uno a muchos: ID cliente – ID ticket (hijos) Un cliente puede tener uno / muchos ticket Un ticket corresponde a uno y sólo uno cliente Muchos a uno: ID cliente – código postal (padres) Un código postal tiene uno / muchos clientes Un cliente pertenece a un único código postal Muchos a muchos: ID cliente – segmento Un segmento tiene uno / muchos clientes Un cliente puede pertenecer a uno / muchos segmentos

Explotación de los almacenes de datos Los operadores permiten modificar la consulta realizada sin ejecutar otra: .- Drill (down / across): Aumentar el nivel de detalle. Mayor desglose de la información .- Roll (up / across): Disminuir el nivel de detalle. Menor desglose de la información. .- Slice & Dice: Seleccionar y mostrar .- Pivot: Invertir las dimensiones Implementación del almacén de datos 2 Tipos esquemas físicos ROLAP: físicamente el almacén de datos se construye sobre una base de datos relacional MOLAP: el almacén se construye sobre estructuras basadas en matrices multidimensionales Microstrategy, Informix Metacube, Oracle Discoverer Oracle Express, Hyperion Enterprise

Principales pasos para el diseño de un almacén de datos · Elegir el proceso de la empresa sobre el que se desean generar informes complejos frecuentemente · Decidir el hecho central y el nivel de detalle · Identificar dimensiones y jerarquías de agregación y los atributos básicos de cada nivel · Especificar las relaciones entre atributos. · Tablas Agregadas · Tablas Particionadas · Creación de índices.

Proceso ETL Proceso de carga y mantenimiento .- Extraction .- Transformation .- Load Lectura datos transaccionales Pruebas de calidad Incorporación de datos externos Indización ETL Planificación de la carga y mantenimiento Creación de claves Integración de datos Limpieza y Transformación Agregaciones

Información de catálogo Información de puntos Información de catálogo Información de proveedores Información de clientes Información de incidencias Información de ventas Información de tiendas Información de productos Información de campañas Información de segmentos Información de comunicaciones

Analizar la información Necesidad Analizar la información Objetivo Mejorar la gestión del negocio

Objetivos del Modelo de Datos Consolidación de la Información. Una base de datos única. Cliente único: No duplicidad de información Puntos de vista del análisis: la información deberá ser analizable desde todas las jerarquías consideradas. Esto incluye cruces entre cualquiera de ellas: Cliente Producto Centro ... Agregaciones. Siempre será posible obtener distintos niveles de agregación generando un roll up / drill down, pero la información almacenada será al máximo detalle disponible.

Usuarios de la información ¿Qué información para quién?

Proceso de Implantación 1. Análisis · Conocimiento del negocio · Analizar el sistema informático · Definición de los requerimientos del usuario (informes) · Documentación Planificación · Definición del modelo lógico · Definición del proceso de ETL 2. Desarrollo · Definición del modelo físico · Implementación modelo físico · Desarrollo procesos de ETL · Implementación del modelo lógico 3. Implantación · Generación de objetos básicos para generación de informes · Creación de informes · Configuración de perfiles de usuario y seguridad · Diseño y visualización

1. Análisis Conocer el Sistema de Información existente. Fuentes de Información Modelo de Datos BBDD disponibles Ubicación Física Entorno Tecnológico Contenido del Modelo Desglose de la Información Grado de Normalización Explotación de los Datos Necesidades de Información Herramientas para la Explotación Dimensión de BBDD Usuarios de la Información Informes estándar Visualización de la Información

1. Análisis Grado de Normalización Tratamiento de domicilios Asignación población y vía según INE Corrección y actualización de nombre de vías y poblaciones erróneos u obsoletos Asignación del código postal (en función población, vía y número) Variables de partida Nombre Apellido 1 Apellido 2 Tipo de Vía Nombre de Vía Nº Resto Vía Código Postal Población Provincia Fecha Nacimiento DNI Teléfono 1 Teléfono 2 Tratamiento de nombres Separación de nombre de pila y apellidos Asignación de sexo Corrección de errores Expansión de abreviaturas Detección de nombres no identificables Asignación clave en función nombre y dirección Identificación de duplicados Duplicados Normalización de teléfonos Eliminación caracteres no numéricos Asignación del prefijo Comprobación de los 5 primeros dígitos en función de población y vía.

2. Desarrollo Definición del modelo de datos. DEPARTAMENTO ID departamento CAMPAÑA REGIÓN Descripción ID campaña ID región SECCIÓN ID sección SEGMENTO TIENDA ID segmento ID tienda CLIENTE FAMILIA ID cliente Localidad ID familia Sexo Dirección Postal SEGCLIENTE Municipio Provincia TICKET PRODUCTO SUBFAMILIA Código Postal ID ticket ID producto ID subfamilia Fecha Alta Referencia Fecha Baja Lortad Fecha Pedido email Num Unidades Importe Unidad PUNTOS Entrega Fecha Entrega PDTO_PROV PROVEEDOR Nº Tarjeta Hora Inicio Entrega ID proveedor Fecha Hora Fin Entrega Oferta CIF Puntos Debe Puntos Haber INCIDENCIA SUBCAT_INCID ID incidencia ID subcategoría CATE_INCID ID categoría SALDO Fecha actualiz. Saldo iddepartamento = iddepartamento idscampaña = idcampaña idregión = idregión idtienda=idtienda idsección = idsección idsegmento = idsegmento idtienda=idtienda idproducto = idproducto idfamilia = idfamilia idcliente = idcliente idsubfamilia = idsubfamilia idcliente = idcliente idproducto = idproducto idproveedor = idproveedor idticket = idticket nº tarjeta = nº tarjeta idsubcategoría = idcategoría = idsubcategoría idcategoría

2. Desarrollo Alimentación del modelo de datos. SEGTO-CLIENTE CENTRO MOVIMIENTOS PUNTOS Asignación de los puntos por compra o por oferta Qué cliente pertenece a qué segmento Centro en el que se da de alta Quién compra qué, cuándo y dónde. Quién canjea qué cupón SEGMENTO SALDO Cliente Oro, Plata.. Cl. Zona influencia Cl. Frecuente.. PRODUCTO CLIENTE Actualización automática Datos de registro de alta Descripción productos CAMPAÑA Agrupación de ofertas dentro de una misma campaña Origen: Se genera en el proceso de compra o de carga con cumplimiento condiciones Origen: Se genera en el proceso de análisis en el Sistema de Información Origen: Se genera en el proceso de alta. Formulario solicitud Origen: Se genera en el proceso compra

2. Desarrollo Comprobaciones del modelo de datos Verificación de carga correcta en todas las tablas del modelo Comprobación de igualdad de datos almacenados en origen (cliente) y en el modelo. Coherencia resultados generados Revisión, contrastación y repetición Diseño de informes específicos

3. Implantación Jerarquías Jerarquía de Tiempo Jerarquía de Producto