Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3 Dr. Francisco J. Mata
Arquitectura de los datos Minería de datos, técnicas de minería de datos Conocimiento Reglas de negocio Bodegas de datos, OLAP Nivel de abstracción Información Datos de resumen Bases de datos, OLTP Datos Datos operacionales Detalle Dr. Francisco J. Mata
Arquitectura de los datos Datos operacionales Forma más básica de datos Asociados con sistemas operacionales Bases de datos operacionales OLTP: “online transaction processing” Dr. Francisco J. Mata
Arquitectura de los datos Datos de resumen Derivados de datos operacionales Forma más común que los usuarios interactúan con los datos Datos en reportes que presentan una visión estática del negocio Condensar Sumarizar Agregar Dr. Francisco J. Mata
Arquitectura de los datos Datos de resumen Entender datos y las dimensiones utilizadas para su resumen que representan áreas de acción en el negocio Región Producto Dr. Francisco J. Mata
Arquitectura de los datos Datos de resumen Asociados con sistemas para toma de decisiones Bodegas de datos OLAP: “On-line Analytical Processing Dr. Francisco J. Mata
Arquitectura de los datos Datos de resumen Bodegas de datos Orientadas a temas Clientes Proveedores Productos Integradas Múltiples fuentes heterogéneas de datos Bases de datos Archivos Registros de transacciones en línea Dr. Francisco J. Mata
Arquitectura de los datos Datos de resumen Bodegas de datos Dependientes del tiempo Proveen información desde una perspectiva histórica Todas las estructuras de datos tienen explícito o implícito un elemento de tiempo No-volátil Se encuentran almacenadas físicamente separadas de los datos operacionales No requiere mecanismos para procesamiento de transacciones, recuperación y control de concurrencia Dr. Francisco J. Mata
OLTP versus OLAP Característica OLTP OLAP Objeto Procesamiento operacional Procesamiento informacional Orientación Transacciones Análisis Función Operaciones diarias Información de largo plazo, apoyo a decisiones Diseño Basado en modelo entidad-relación, orientado a aplicaciones Basado en modelo estrella/copo de nieve, orientado a temas Datos actuales; actualizados a la fecha Históricos; precisión en el tiempo Dr. Francisco J. Mata
OLTP versus OLAP Característica OLTP OLAP Nivel de sumarización Poco, mucho detalle Intermedio a mucho, sumarizados o consolidados Vista Detallada y usualmente plana Sumarizada, multidimensional (cubos) Números de registros accesados Decenas Miles o millones Número de usuarios Miles Cientos Tamaño de la base de datos 100 MB a GB 100 GB a TB Dr. Francisco J. Mata
OLTP versus OLAP Característica OLTP OLAP Prioridad Alto desempeño, alta disponibilidad Gran flexibilidad, autonomía de los usuarios Métrica “Throughput” de transacciones “Throughput” de consultas, tiempo de respuesta Dr. Francisco J. Mata
Ejemplo datos de resumen Grados Bachilleratos Licenciatura Maestría Año 1998 1999 2000 2001 2002 Centro educativo Universidades públicas Universidad de Costa Rica 58 110 99 128 7 2 20 10 9 19 35 Universidad Nacional 66 114 57 107 96 17 12 18 N/O 27 24 16 Instituto Tecnológico de Costa Rica 37 38 76 85 23 21 26 Universidades privadas Universidad Latina 40 78 156 106 210 13 Universidad Interamericana 1 0 29 Universidad Hispanoamericana 32 33 42 15 Dr. Francisco J. Mata
Ejemplo cubo Año Centros de enseñanza Grados 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002 UCR 58 110 99 128 128 Públicos UNA 66 114 57 107 96 ITCR 37 57 38 76 85 ULat 40 78 156 106 210 Maestría Privados UInt 1 0 9 7 29 Licenciatura UHis 9 27 32 33 42 Grados Bachillerato Dr. Francisco J. Mata
Arquitectura de los datos Reglas de negocios Describen por qué existen relaciones entre los datos Son difíciles de capturar Técnicas de minería de datos producen tales reglas Dr. Francisco J. Mata
Bodegas de datos y minería de datos Existencia de una bodega de datos facilita la recolección de información en la minería de datos Sin embargo, la minería de datos no requiere la existencia de una bodega de datos Dr. Francisco J. Mata
OLAP y minería de datos OLAP es una herramienta útil para visualización y pude ser utilizada en conjunto con técnicas de descubrimiento indirecto de conocimiento OLAP no es minería de datos Dr. Francisco J. Mata