DataWarehouse e Inteligencia de Negocios Introducción.
Conceptos Generales www.EasyBI.cl
Conceptos Generales Referencia Bibliográfica Ralph Kimball: The DataWarehouse Toolkit Bill Inmon: Building the DataWarehouse Salvador Ramos: Microsoft Business Intelligence: Vea el cubo Medio Lleno Sebastián Rodríguez R.: EIAD, Estrategia para la Implementación Inteligente de DW Thomas Davenport: Analytics at work www.EasyBI.cl
Conceptos Generales Fundamentos. Analizar y Evaluar (OLAP) Registrar y Controlar (OLTP) Transacciones Ventas Inventarios Contabilidad Recursos Humanos Etc- Velocidad de Transacción Integridad de Información Evitar Redundancias “3ª Forma Normal” On-Line Transaction Processing Velocidad de Consultas Apoyo Toma de Decisiones “Desnormalizado” On-Line Analytical Processing www.EasyBI.cl
Conceptos Generales Definición DataWarehouse Conjunto de herramientas y metodologías utilizadas para la administración de información con fines de análisis y gestión. NO ES SOLO UNA TABLA DE HECHOS NO ES SOLO UNA HERRAMIENTA www.EasyBI.cl
Conceptos Generales Definición DataWarehouse, objetivos Automatizar los procesos de recopilación y generación de información usuarios utilizan la información, ya no la construyen. Entregar autonomía a los usuarios Normalizar el proceso de captura de información Normalizar el proceso de entrega de información. Fuente única de Información del Área / Empresa. Información validada. www.EasyBI.cl
Conceptos Generales Modelo de Dato OLTP Ciudad Sucursal Cliente Factura Sexo Producto Est. Civil Det. Factura www.EasyBI.cl
Conceptos Generales Definición DataWarehouse e Inteligencia de Negocios. Sistemas Origen OLAP Reporting ETL, ELT Usuarios Avanzados Minería de Datos www.EasyBI.cl
Conceptos Generales DataWarehouse Definición DataWarehouse Reporting www.EasyBI.cl
Conceptos Generales Características de un DataWarehouse Orientado a Temas Los datos son organizados por temas para facilitar el entendimiento a los usuarios. Todos los datos relativos a una misma “entidad” quedarán en una tabla. Integrado Debido a que la información procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos. Histórico Los cambios en los datos relevantes deben quedar registrados, para luego poder consultarlos en diversos momentos en el tiempo No Volátil Una vez introducida la información, debe quedar almacenada y disponible en formato solo lectura. www.EasyBI.cl
Conceptos Generales Componentes del Cubo Tabla de Hechos Almacena los indicadores del negocio (datos numéricos), tanto básicos como elementos calculados. Tabla de Dimensiones Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relación a las tablas de Hechos, pero pueden contener muchas más columnas. Una correcta y completa definición de campos en la tabla de dimensiones puede ayudar a realizar análisis robusto sobre los datos.
Conceptos Generales Topología Estrella Las dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso robusto de administración de Información (por ejemplo EIAD). Copo de Nieve Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones. Esta estrategia es mejor para la administración directa en el modelo de DW. www.EasyBI.cl
Conceptos Generales Modelo de Datos OLAP – Copo de Nieve Tabla de Dimensiones Modelo de Datos OLAP – Copo de Nieve Ciudad Sucursal Tabla de Dimensiones Cliente Tabla de Hechos Tabla de Dimensiones Tabla de Dimensiones Ventas Sexo Est. Civil Producto Tabla de Dimensiones Tabla de Dimensiones www.EasyBI.cl
Cliente, Ciudad, Sexo, Est. Civil Conceptos Generales Modelo de Datos OLAP – Estrella Sucursal Cliente, Ciudad, Sexo, Est. Civil Tabla de Dimensiones Ventas Tabla de Dimensiones Tabla de Dimensiones Producto Tabla de Hechos www.EasyBI.cl
Conceptos Generales Tipos de Tablas de Hechos. SnapShot Cada período se agrega un registro para la entidad, sin remplazar ni modificar la foto del período anterior. Ejemplo: Balances, Deudas en el sistema financiero. Transaccional Un registro por cada evento, que ocurre en una fecha determinada. Solo se pueden hacer inserciones. Ejemplo: Sistemas de Ventas. Incremental Un registro por cada ocurrencia, pero la fila contiene múltiples fechas que indica el cambio de estados. A diferencia de los anteriores, en este tipo de estructuras se puede insertar y actualizar los registros. Ejemplo: WorkFlow, Juicios. www.EasyBI.cl
Conceptos Generales Tipos de Dimensiones: Slow Changing Dimension SCD N° 1 Sobre escribir la información de la dimensión. No existe referencia histórica de los datos. SCD N°2 La clave de la dimensión es compuesta, registra, por cada cambio en la fila de la dimensión (o los campos que sean relevantes), un nuevo registro. SCD N° 3 Agregar una columna adicional por cada columna cuyo valor queremos mantener en la historia. www.EasyBI.cl
Conceptos Generales Tipos de Dimensiones: Otros tipos de dimensiones Dimensión Compuesta Junta varias dimensiones en una sola, el objetivo principal es mejorar el rendimiento de la solución. Ejemplo: Tabla de clientes del modelo ejemplo. Rol Cuando hay mucha información repetida en una tabla de Hechos, es posible quitar esta información y “Factorizarla” en una tabla de dimensión. Esto minimiza el espacio utilizado por al tabla de Hechos y mejora el análisis sobre los datos. www.EasyBI.cl
Conceptos Generales Tipos de Dimensiones: Dimensión como Tabla de Hechos Es posible encontrar tablas que cumplen la condición de ser Hechos en un modelo, y Dimensión en Otro. Por ejemplo una tabla de hechos que agrupe información de ventas por clientes, puede ser una tabla de dimensiones en el modelo de ventas por Productos. Estas son construcciones poco comunes, que surgen cuando el N° de iteraciones de revisión de los modelos de DW son mayores a 2. www.EasyBI.cl
Conceptos Generales Modelos de datos complejos: “Constelaciones” Dim 1 Hechos 1 Dim 2 Dim 3 Dim 1 Hechos 2 Dim 7 Dim 6 Hechos 2 Dim 5 Dim 4 www.EasyBI.cl
Conceptos Generales Estrategias de Almacenamiento MOLAP Almacenamiento Multidimensional. Requiere alta utilización de disco. Optimizado para consultas rápidas. ROLAP Almacenamiento en Base Relacional. Alta escalabilidad. Rápida adaptabilidad a cambios en las definiciones HOLAP Mezcla de ambas estrategias. www.EasyBI.cl
Conceptos Generales Tecnología Disponible. Bases de Datos Relacionales Permite la implementación de ROLAP, los proveedores de bases de datos están haciendo esfuerzos por mejorar esta tecnología para implementar proyectos de DW. (Ej. SQL Server 2008R2 incorpora optimización para consultas de tipo “Star Join”). Bases de Datos “Columnares”. Diseñadas especialmente para implementar soluciones de tipo analíticas, a diferencia de la anterior, estas B.D. almacenan la información por Columnas y no por Filas, lo que otorga mayor velocidad de lectura y compresión de datos. (Ej. SyBase IQ). www.EasyBI.cl
Conceptos Generales Tecnología Disponible. Bases de Datos Dimensionales. Implementan la estrategia MOLAP y ROLAP, tienen la ventaja de precalcular las consultas que harán los usuarios, por lo cual los tiempos de respuesta serán muy bajos, sin embargo esto genera tiempos de preprocesamiento muy largos, lo que dificulta su utilización en ambientes muy dinámicos. Ej. SQL Server Analysis Services. Bases de datos “NoSQL” Todas las anteriores tienen la información estructurada. Estas bases de datos están diseñadas para buscar información sobre miles de millones de registros, ya sean fotos, textos, logs, etc. Los tiempos de respuesta son muy cortos para la gran cantidad de información que administra. Ejemplo: Hadoop (estrategia que utiliza Yahoo y Amazon para sus búsquedas). www.EasyBI.cl
Conceptos Generales Optimización. Índices Administrar correctamente los índices puede mejorar el rendimiento en forma importante. Estadísticas de utilización entregada por herramientas puede ayudar a definir la estrategia de indexación. Compresión de Datos La compresión de datos ayuda a mejorar el rendimiento de las consultas a la base, sin embargo los ETL pueden verse afectados. Particionamiento Dividir tablas de hechos muy grandes ayuda a mejorar el rendimiento de acceso Discos Optimizar los discos físicos, por ejemplo de Estado Sólido. www.EasyBI.cl
Conceptos Generales Optimización. Diseño Inicial Un buen diseño desde el inicio del proyecto ayudará a disminuir las tareas de administración y corrección de datos. Un buen diseño, según Kimball, debe tener entre 5 a 15 dimensiones. Surrogate Key Utilizar claves numéricas en todas las tablas mejora en forma importante el almacenamiento y rendimiento en búsquedas. En este sentido sustituir las claves provenientes de los sistemas origen proporciona mecanismos de independencia frente a cambios en dichos sistemas. www.EasyBI.cl
Conceptos Generales Definición Datamart Datamart Es un almacén de datos con información referida a un área de estudio específica, algunas veces vinculada solamente a un área de la empresa. Su estructura permite trabajar con millones de registros En teoría, puede ser implementado en cualquier base de datos (incluso en Excel). www.EasyBI.cl
Conceptos Generales Estrategias para la Implementación Inmon Propone definir un Datawarehouse centralizado que considere el 100% de los requerimientos de la organización, para luego desarrollar Datamart departamentales que resuelvan las problemáticas locales de cada área. Kimball Propone definir e implementar los datamart de cada área, para luego, a partir de estos datamarts, construir el Datawarehouse corporativo. www.EasyBI.cl
Conceptos Generales TRIVIA: Mitos y Errores a Prevenir Los Datawarehouse y/o Datamart solo pueden almacenar información agregada FALSO Lo más importante es centrarse en la tecnología. FALSO, también en requerimientos del negocio. Proyectos largos aseguran el éxito de la iniciativa. FALSO, Proyectos interminables se diluyen. La presentación de resultados es tan importante como el rendimiento. VERDADERO La tecnología y los requerimientos no cambian en el tiempo. FALSO, hay que adaptar los datos a nuevos req. Los usuarios deben adaptarse a las herramientas complejas FALSO, no las usarán las personas no especialistas. www.EasyBI.cl
Conceptos Generales Modelos Complejos. ¿Cómo administrar múltiples cubos, con diferentes características y granularidad, que comparten algunas dimensiones? www.EasyBI.cl
Business Intelligence www.EasyBI.cl
Business Intelligence Definiciones Describe a la colección, preparación y distribución de datos para informes, control de gestión, análisis, supervisión y planificación del rendimiento empresarial. Fuente: BI Survey. Conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización o empresa. Fuente: Wikipedia. www.EasyBI.cl
Business Intelligence Administración de Entornos Complejos BICC Business Intelligence Competency Center SSBI Self-Service Business Intelligence Analytic at Work Metodología Thomas Davenport www.EasyBI.cl
Business Intelligence BICC Problema que Resuelve. Existen múltiples iniciativas de BI en una organización sin conexión alguna, lo que en ocasiones genera muchos problemas de coordinación y de “versión única de la verdad”. Características Es una solución permanente, conformada interna y formalmente en una organización, que desarrolla y promueve el uso efectivo de herramientas de inteligencia de negocios, las cuales permiten dar apoyo y despliegue a la estrategia organizacional. Beneficios Explota de mejor forma la inversión existente de BI Coordina y consolida las diversas iniciativas de BI Permite reaccionar rápidamente a cambios del negocio. Reduce los riesgos en la implementación de nuevas iniciativas BI Apoya a los usuarios en el entendimiento completo del negocio a través de diversos análisis.
Business Intelligence BICC
Business Intelligence BICC Data Stewardship Administración de Metadata. Estándar, Calidad y Arquitectura de los datos Support Resolver dudas y problemas de usuarios técnicos y de negocio. BI Delivery Desarrolladores de interfaz de usuario, reporting, pruebas y mantención de lógica de negocio en las aplicaciones. Data Acquisition Desarrolladores de integración y almacenamiento de datos, realizando pruebas y mantención. Advanced Analytics Minería de Datos, modelos estadísticos, optimización, text mining y presupuestación. Training Entrenamiento y capacitación para miembros de proyectos y usuarios de negocios. Vendor Contracts management Administrador de licencias de aplicaciones y actualizaciones.
Business Intelligence BICC Fuente: SAS, Capitalize on Competence, Implement a Business Intelligence Competency Center (BICC)
Business Intelligence Self-Service BI Self Services BI se define como las facilidades dentro de un ambiente BI que permite a usuarios ser más independiente y menos dependiente de un área de TI. Problema: Tiempo de respuesta de áreas de TI son un cuello de botella impide el desarrollo de BI como hoy lo conocemos. La solución: Generar un ambiente en el cual los analistas puedan crear y acceder a un conjunto de reportes, consultas y análisis por ellos mismos, con mínima intervención de TI Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI
Business Intelligence Self-Service BI Estas facilidades deben estar enfocadas en cuatro objetivos Fácil acceso a fuentes de datos para reportes y análisis. Herramientas de BI fáciles de usar y soporte mejorado para análisis de datos. Rápido de implementar. Datamart Fácil de administrar. Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI
SSBI Business Intelligence Self-Service BI Project Manager Analytic Data Gobernance Reporting Analytic
Business Intelligence Analytic at Works
Otros Conceptos de BI www.EasyBI.cl
Las urgencias son parte importante del trabajo diario Business Intelligence Áreas de BI: Administración del Tiempo. Urgencias: Se destina 20% del tiempo. Si no hay urgencias se trabaja en los proyectos Proyectos: 60% del tiempo será destinado a proyectos. Se considera para planificar y comprometer fechas de entrega Mejoras: 20% del tiempo final del día se dedica a mejoras y proyectos propuestos por las áreas. La prioridad sobre el tiempo la tienen las urgencias, luego los proyectos y finalmente las mejoras y proyectos internos del área Las urgencias son parte importante del trabajo diario
BI Maturity levels (IBM) Business Intelligence Modelos de Comparación BI Maturity levels (IBM) Nivel 1 Múltiples Herramientas de reportes y BI Ambiente caótico No hay alineación o consistencia No hay Organización Nivel 2 Algunos equipos trabajan juntos Siguen varios grupos de BI, pero comienzan a trabajar colaborativamente Nivel 3 Estándares elegidos IT y BI trabaja en conjunto Equipos de BI constituidos Se genera consistencia en enfoques y procesos Nivel 4 Conectando Estrategia y Ejecución Organización formal del Área IT, Finanzas y BI trabajar en conjunto Tecnología, personas y estándar de procesos para BI y PM en marcha Fuente: Business Intelligence Strategy, a Practical Guide for Achieving BI Excellence (IBM)
Fuente: Gartner Research Business Intelligence Modelos de Comparación The BI Competency Center – Organizing for Success Comprensión del Negocio Optimizar Relación con StakeHolders Administrar, Mejorar el Negocio Dar Sentido al Negocio Cambiar el Negocio Nuevas fuentes de Ingresos Mejorar el Negocio Retener y Apalancar Alinear el Negocio Eficiencia, consistencia, Rentabilidad Entender el Negocio Entender Meta Objetivo Fuente: Gartner Research
Business Intelligence Modelos de Comparación: SAS, Business Analytics for the CIO
Conclusiones www.EasyBI.cl