Proyecto de implementación de un Data Warehouse para Universidades Nacionales TFG – Del Giudice – Della Mea.

Slides:



Advertisements
Presentaciones similares
Procesamiento y Análisis en Línea OLAP
Advertisements

Cubos de Información Son subconjuntos de datos de un almacén de datos, organizado y sumarizado dentro de una estructura multidimensional. Los datos se.
Sistema Organizacional en línea para Administradores y Gerentes de Proyecto Gerente Contratista ConsultorCliente EnVivo Punto central de Coordinación de.
También conocido como Diseño Lógico Rodrigo Salvatierra Alberú.
Cognos Data Integration
Modelado dimensional Hugo M. Castro.
U I B 12/05/1999 Datawarehouse 1. U I B 12/05/1999 Datawarehouse 2 Conceptos Datawarehouse Datawarehouse: Repositorio completo de datos de la empresa,
Al abrir el Access aparece una ventana para crear una base en blanco, con la ayuda de un asistente o abrir una existente. Al principio optamos por la primera.
CREACION DE ESPACIOS VIRTUALES PARA TRABAJO EN EQUIPO
Sistema integral Académico Administrativo de la Universidad Católica de La Plata Noé Web de Docentes.
Resolución de Problemas Algoritmos y Programación
CONSTRUCCIÓN DE BODEGAS DE DATOS
JURISWEB DPESLP.
Del Giudice & Della Mea U.N.C Proyecto Pentaho. Introducción Del Giudice & Della Mea O3 La Universidad Nacional de Córdoba (UNC) es la más antigua universidad.
Uso actual y futuras prestaciones
Sistema de Informacion Compartida
DESARROLLO DE CUBOS OLAP
Director: Ing. Washington Pérez Codirector: Ing. Andrés de la Torre
Data Mart para la gestión de reportes y apoyo a la toma de decisiones del departamento de RR.HH. de la empresa de agua S.A.” Agosto 2010.
Informe caso de estudio Implementación de un Datawarehouse
Windows XP sp3.
On Line Analytical Processing
Facultad de Ciencia Política y Relaciones Internacionales Dirección de Concursos Proyecto: Informatización de la Gestión de Concursos Sistema CONDOR.
4.3. Privilegios de usuarios
Características de un Data Warehouse
UNIDAD I Conceptos Básicos.
TRADUCTOR DE UN PROGRAMA
Objetivos SIU-Wichi es un sistema de soporte para la toma de decisiones que brinda información sobre la organización a través de una interfaz Web. Es.

Bases de Datos II OLAP Online Analytical Processing
DATA MART Los data warehouses están hechos para proporcionar una fuente de datos única para todas las actividades de apoyo para la toma de decisiones.
Residencia Profesional
Implementación de Datawarehouse
Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar.
DATA WAREHOUSE Equipo 9.
LabTIG – Facultad de Humanidades – Universidad Nacional del Nordeste Universidad Nacional del Nordeste Facultad de Humanidades CARRERA DE ESPECIALIZACION.
BLOQUE 4 EVALUANDO NUESTRO PED Y PROYECTANDO NUESTRAS ACTIVIDADES 2013 Iván Chipoco Casanova Unidad de Control de Gestión Institucional. DGC.
Planeación con Planning Tool y DotProject Grupo de Construcción de Software Facultad de Ingeniería Universidad de los Andes Rubby Casallas, Andrés Yie.
Aguinaga mantilla David Adrián Vaca Montenegro Erick paúl
Unidad VI Documentación
SISTEMA DE AUTOGESTIÓN DE ALUMNOS POR INTERNET
Diseñando la arquitectura de aplicaciones empresariales. Acceso al SQL Server.- Autenticación de usuario:
Búho© Sistema de Información Integrado para la automatización de las actividades del Área de Control de Estudios de Institutos Educativos.
Introducción a Pentaho BI Suite 3.5
Proceso de Gestión de Proyectos
Formación titulada a la medida
DOCENCIA EN LA CLÍNICA MÉDICA: nuevas herramientas para un aprendizaje significativo Curso Perfeccionamiento Escuela de Medicina Universidad Valparaíso.
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
SIU - GUARANÍ Sistema de Gestión Académica.
1 Prof:Paula Quitral INTRODUCCIÓN DATAWAREHOUSE Departamento de Informática Universidad de Rancagua.
INDUCCIÓN AL SISTEMA DE GESTIÓN DE CALIDAD
AulaLatina.com Sistema Integral Académico Virtual S.I.A.Virtual.
Sistema informático de apoyo a la evaluación de la enseñanza IN.CO.
Diseño de un data warehouse
UNIVERSIDAD LATINA III. MANTENIMIENTO Y GESTIÓN DE LA INFORMACIÓN DE UNA BASE DE DATOS. E.I. L.E. Prof. Ramón Castro Liceaga.
Visual Basic FUNCIONES Y PROCEDIMIENTOS
Tema 11 Bases de Datos y el Lenguaje SQL
Nombre: Hebert Rangel Gutierrez Matricula: Materia: Base De datos Cuatrimestre: 3er Profesor: Nasheli López Bautista Carrera: Licenciatura en.
AFM – Web File Manager Versión 5. Novedades técnicas – Forma de Implementación Siguiendo última tecnología de Microsoft: Framework.NET 3.5 Implementación.
FACULTAD DE CIENCIAS COMPUTACIONALES Y TELECOMUNICACIONES ASIGNATURA:
Subsistema de Costos y Procesos del VERSAT-Sarasola
Daniel Labra Fernando Figueroa ¿Qué Hicimos? -Refinar Causa-Efecto -Gestión de la Configuración -Control de versiones -Encuesta ¿Qué estamos haciendo?
DATA WAREHOUSE.
SOLUCIONES EMPRESARIALES
República Bolivariana de Venezuela Universidad Nacional Experimental Politécnica de la Fuerza Armada (UNEFA) Carrera: Ingeniería de Sistemas Cátedra: Análisis.
María Trinidad Serna Encinas
Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.
1 Conferencia 5 OLAP. 2 Contenido Definición OLAP. Reglas de Codd. Gestores que dan soporte OLAP y los diferentes modos de Almacenamiento.
Web Intelligence El objetivo de esta guía, es proporcionar un esbozo del amplio mundo que es aprender a utilizar Web Intelligence. Esta guía no está diseñada.
PRESENTACIÓN DE PRODUCTO Tablero de Comando 1.
Transcripción de la presentación:

Proyecto de implementación de un Data Warehouse para Universidades Nacionales TFG – Del Giudice – Della Mea

Alcance del Proyecto Alcance 02 – Rendimiento Académico Se toman 2 (dos) cubos de alumnos y se reconstruyen utilizando la tecnología Pentaho. Dichos cubos son: 02 – Rendimiento Académico 05 - Alumnos Araucano TFG – Del Giudice – Della Mea

Etapas para el desarrollo de los cubos En esta sección se lleva a cabo una descripción de los procesos que se efectúan: Modelo Dimensional Modelo Físico ETL Reconstrucción TFG – Del Giudice – Della Mea

Cubo 05 – Alumnos Araucano TFG – Del Giudice – Della Mea

Modelo Dimensional Tema de análisis  Matrícula histórica. Nuevos Inscriptos, Reinscriptos y Egresados, según definiciones de SIU-Araucano. (*) Definidas solo para medidas: nuevos inscriptos, reinscriptos y total alumnos (**) Definida solo para la medida nuevos inscriptos (***) Definidas solo para medida reinscriptos En el caso de las dimensiones que no están definidas aparece la leyenda “No se aplica” TFG – Del Giudice – Della Mea

Modelo dimensional Original TFG – Del Giudice – Della Mea

Recomendaciones  Modelado Dimensional No usar dimensiones degeneradas Cuando: La dimensión posee pocos datos que se repiten reiteradamente en la FT. Es la dimensión Tiempo. Es una dimensión compartida. Extraer los datos de la FT y crear una tabla de dimensión propia (durante el proceso de ETL). Uso de tablas en línea Cuando: La tabla no es compartida por varios cubos. La tabla contiene pocos valores. La tabla no sufre cambios regularmente. Mantener los datos en tabla siempre es más performante. TFG – Del Giudice – Della Mea

Recomendaciones  Modelado Dimensional Agregar medidas calculadas directamente en el DW (durante el proceso de ETL), así se ahorra tiempo al no realizase esta operación durante el diseño. No utilizar claves primarias de tipo texto (tanto en las LT como en la FT). FT contenga solo valores numéricos (tanto en las claves como en los valores de las medidas). TFG – Del Giudice – Della Mea

Modelo dimensional Propuesto TFG – Del Giudice – Della Mea

Modelo Físico Mondrian vs. Motor OLAP de arquitectura ROLAP, con caché. Es más rápida al resolver consultas Garantiza mayor integridad en los datos Los datos que alimentan a los cubos residen en una base de datos MySQL, denominada “dw_consolidado” Tiene mejor documentación y mejores herramientas de administración. Presenta mejor escalabilidad en grandes trabajos El Proyecto Pentaho Mondrian OLAP proporciona acceso OLAP de alto rendimiento sobre la base de MySQL. Donde se prioriza: Velocidad Rendimiento Particionado y gestión de BD Porque MySQL? TFG – Del Giudice – Della Mea

Tablas correspondientes al Cubo 05 en Pentaho TFG – Del Giudice – Della Mea

Estructura de la Tabla de Hechos FT_AlumnosArau Campos Tipo de dato anio_academico Numérico cod_unidad cod_carrera cod_titulo cod_genero cod_cohorte cod_colegio mat_rendidas mat_aprobadas tot_rendidas tot_aprobadas cod_horasTrab tipo_ingreso edad cod_procesado cant_NI cant_RI cant_EG cant_TA FT contiene sólo valores numéricos Se agrega la medida calculada cantidad Total de Alumnos en el DW Se utilizan claves subrogadas TFG – Del Giudice – Della Mea

Claves Subrogadas Ventajas El DW no depende de la codificación interna del OLTP. Ocupan menos espacio y brindan mayor performance que las claves naturales, más aún si estas últimas son de tipo texto. Permiten que la construcción y mantenimiento de índices sea una tarea sencilla. Si se modifica el valor de una clave en el OLTP, el DW lo tomará como un nuevo elemento, permitiendo almacenar diferentes versiones del mismo dato. “Es recomendable manejar un sistema de claves en el DW totalmente diferente al de los OLTP, ya que si estos últimos son re-codificados, el almacén quedaría inconsistente.” HEFESTO - Ing. Darío Bernabeu – 21 de Abril de 2009 “La estrategia más acertada, a la hora de elegir las claves para las dimensiones del Data Warehouse, es utilizar un valor entero, que tomará valores desde 1 en adelante para cada registro de la dimensión. El criterio de asignación de claves a los registros debe ser lo más sencillo posible. La clave no debe aportar ningún tipo de información adicional.” A su vez, se recomienda usar un valor entero como clave primaria, ya que mejora el rendimiento de la base de datos (los enteros tienen 32 bits y se manipulan más rápidamente en la mayoría de los algoritmos, comparados a los campos de tipo Varchar). DATA WAREHOUSE PARA LA GESTIÓN DE LISTA DE ESPERA SANITARIA – Itziar Angoitia Espinosa - 2008 TFG – Del Giudice – Della Mea

Durante el proceso de ETL Se implementa Claves subrogadas Manteniéndose tablas que contienen la clave primaria de la OLTP y la clave subrogada correspondiente a cada dimensión del DW. Se utiliza una base de datos intermedia denominada intermedio_consolidado “El almacenamiento intermedio permite, entre otras ventajas: - Manipular los datos sin interrumpir ni paralizar los OLTP, ni tampoco el DW. - Almacenar y gestionar los metadatos que se generarán en los procesos ETL. - Facilitar la integración de las diversas fuentes, internas y externas” A fin de almacenar: Las tablas antes mencionadas Aquellos datos que necesitamos manipular TFG – Del Giudice – Della Mea

ETL Transformación DW_LT_UNIDADESACADEMICAS LOAD Llenar primero la BD intermedia y luego cargar el DW para manipular los datos sin interrumpir ni paralizar los OLTP, ni tampoco el DW. Los datos de aquellos .txt que no sufren transformaciones (excepto por sus claves), se los carga directamente al DW. TFG – Del Giudice – Della Mea

ETL Transformación DW_LT_RANGOS LOAD TFG – Del Giudice – Della Mea 03 designer permite Definir el modelo multidimensional Dimension Rango: definir una categorización de los datos según los valores de una cierta dimensión incluida en el modelo. TFG – Del Giudice – Della Mea

ETL Rango de Edades TFG – Del Giudice – Della Mea 03 designer permite Definir el modelo multidimensional Dimension Rango: definir una categorización de los datos según los valores de una cierta dimensión incluida en el modelo. TFG – Del Giudice – Della Mea

Transformación DW_FT_ALUMNOS_ARAU PASO 2 ETL Transformación DW_FT_ALUMNOS_ARAU_INTERMEDIO PASO 1 Transformación DW_FT_ALUMNOS_ARAU PASO 2 TFG – Del Giudice – Della Mea

ETL Consulta ejecutada en la Transformación DW_FT_ALUMNOS_ARAU PASO 2: SELECT a.anio_academico, n.idNuevo as cod_unidad, b.idNuevo as cod_carrera, g.idNuevo as cod_titulo, p.idNuevo as cod_genero, m.idNuevo as cod_cohorte, c.idNuevo as cod_colegio, i.idNuevo as mat_rendidas, j.idNuevo as mat_aprobadas, k.idNuevo as tot_rendidas, l.idNuevo as tot_aprobadas, d.idNuevo as cod_horasTrab, f.idNuevo as tipo_ingreso, h.idNuevo as edad, o.idNuevo as cod_proceso, a.cant_NI, a.cant_RI, a.cant_EG, (a.cant_NI + a.cant_RI) as cant_TA FROM ft_alumnos_intermedio a inner join ids_carreras b on a.cod_carrera = b.cod_carrera inner join ids_colegios c on a.cod_colegio = c.cod_colegio inner join ids_horastrabajadas d on a.cod_horasTrab = d.cod_catHorasTrab inner join ids_tipoingreso f on a.tipo_ingreso = f.cod_tipoIngreso inner join ids_titulosaraucano g on a.cod_titulo = g.cod_titulo inner join ids_edades h on a.edad = h.edad inner join ids_matrendidas i on a.mat_rendidas = i.mat_rendidas inner join ids_mataprobadas j on a.mat_aprobadas = j.mat_aprobadas inner join ids_totrendidas k on a.tot_rendidas = k.tot_rendidas inner join ids_totaprobadas l on a.tot_aprobadas = l.tot_aprobadas inner join ids_cohorte m on m.cohorte = a.cohorte inner join ids_unidadesacademicas n on a.cod_unidadAcademica = n.cod_unidad inner join ids_procesadosok o on a.procesado_ok = o.procesado_ok inner join ids_generos p on a.cod_sexo = p.cod_sexo; TFG – Del Giudice – Della Mea

Reconstrucción Se creó el esquema “AlumnosAraucano” Se agregó el cubo “05_AlumnosAraucano” Se indicó que será ft_alumnosarau la tabla de hechos que corresponderá al cubo Dimensiones: Año Académico (dimensión tiempo): Unidad Académica TFG – Del Giudice – Della Mea

Reconstrucción Dimensión Carreras TFG – Del Giudice – Della Mea

Reconstrucción Dimensiones con Rangos: Ejemplo  “Rango Edades” - Para el resto de las Dimensiones con rangos se lleva a cabo el mismo procedimiento - TFG – Del Giudice – Della Mea

Reconstrucción - Medidas Se crearon la medida NI, ReI, Egr y TA  Las cuales sumarizan la cantidad de alumnos pertinente. Mondrian soporta este tipo de medidas (que no pueden ser aplicadas a lo largo de todas las dimensiones) a través de Miembros calculados (CM). Medidas Semi – Aditivas Nuevos Inscriptos Medidas Semi aditivas en el cubo: Reinscriptos Egresados Total Alumnos TFG – Del Giudice – Della Mea

Reconstrucción – Miembros Calculados Se creó un CM por cada medida definida, los cuales utilizan un case – when en su fórmula para determinar en qué casos se mostrara la medida. Ejemplos: Nuevos Inscriptos (Lo mismo se realizo para los otros tres CM) case when [Materias Rendidas].CurrentMember.Level IS [Materias Rendidas].[Rango Mat Rend] or [Materias Rendidas].CurrentMember.Level IS [Materias Rendidas].[Materias Rendidas] or [Materias Aprobadas].CurrentMember.Level IS [Materias Aprobadas].[Rango Mat Aprob] or [Materias Aprobadas].CurrentMember.Level IS [Materias Aprobadas].[Materias Aprobadas] or [Total Mat Rendidas].CurrentMember.Level IS [Total Mat Rendidas].[Rango Tot Rendidas] or [Total Mat Rendidas].CurrentMember.Level IS [Total Mat Rendidas].[Total Mat Rendidas] or [Total Mat Aprobadas].CurrentMember.Level IS [Total Mat Aprobadas].[Rango Tot Aprob] or [Total Mat Aprobadas].CurrentMember.Level IS [Total Mat Aprobadas].[Total Mat Aprobadas] then "No se aplica" else [Measures].[NI] end TFG – Del Giudice – Della Mea

Estructura final del cubo  TFG – Del Giudice – Della Mea

Cubo 02 – Rendimiento Académico TFG – Del Giudice – Della Mea

Modelo dimensional - Cubo 02 – Rendimiento Académico Tema de análisis : Rendim. Académico (evaluado desde materias-cátedras). TFG – Del Giudice – Della Mea

Modelo dimensional Original TFG – Del Giudice – Della Mea

Modelo dimensional Propuesto TFG – Del Giudice – Della Mea

Tablas correspondientes al Cubo 02 en Pentaho Modelo Físico Tablas correspondientes al Cubo 02 en Pentaho TFG – Del Giudice – Della Mea

Estructura de la Tabla de Hechos FT_ResultMaterias Campos Tipo de dato anio_academico Numérico cod_unidad cod_periodo cod_carrera cod_materia cod_dpto cod_cohorte curaprobados curdesaprobados curpromovidos curausentes exaprobados exdesaprobados exausentes equiexternas equiparciales Totcursantes (*) Totexamenes (**) Totaprobados (***) FT contiene sólo valores numéricos Se agregan medidas calculadas al DW (*) Suma de cursadas promovidas, aprobadas, reprobadas y ausentes (**) Suma de exámenes aprobados, reprobados y ausentes (***) Suma de cursadas promovidas, exámenes aprobados y equivalencias externas otorgadas Se utilizan claves subrogadas TFG – Del Giudice – Della Mea

Transformación DW_LT_DEPARTAMENTOS LOAD ETL Transformación DW_LT_DEPARTAMENTOS LOAD Modificaciones realizadas: Se leen los datos de la tabla ids_unidadesAcademicas (almacenada en el esquema INTERMEDIO_CONSOLIDADO), a fin de conocer la correspondencia existente con los diversos departamentos. Recordemos que inicialmente se levantaba el archivo de texto LT_UnidadesAcademicas, pero éste no nos otorga el conocimiento de la clave subrogada, por lo cual se efectúa la lectura de la tabla antes mencionada. TFG – Del Giudice – Della Mea

Transformación DW_LT_PERIODOS LOAD ETL Transformación DW_LT_PERIODOS LOAD En el paso “Formula” se conforma el campo Nombre del Periodo, el cual es una cadena de caracteres combinada, integrada por: Año académico + Tipo de periodo + Periodo (Ejemplo: 2008 – TE - Agosto) La dimensión Periodo fue extraída de FT_result_materias y se creó su propia tabla en la base de datos por varios motivos:   En otro caso, debería ser tratada como una dimensión degenerada Utiliza rangos (tipos periodos) El campo que corresponde al nombre del periodo es una cadena de caracteres combinada, es decir, está formada por: El año académico + abreviación del tipo de periodo + descripción del periodo. TFG – Del Giudice – Della Mea

Transformación DW_FT_INGR_EGRE PASO 2 ETL Transformación DW_FT_INGR_EGRE_INTERMEDIO PASO 1 Transformación DW_FT_INGR_EGRE PASO 2 SELECT f.anio_academico, g.idNuevo as cod_unidad, c.idNuevo as cod_carrera, d.idNuevo as cod_dpto, e.idNuevo as cod_cohorte, f.egresados, f.ingresantes FROM ft_ingr_egre_intermedio f inner join ids_carreras c on f.cod_carrera = c.cod_carrera Inner join ids_departamentos d on f.cod_dpto =d.cod_dpto inner join ids_cohorte e on e.cohorte = f.cohorte inner join ids_unidadesacademicas g on f.cod_unidadacad = g.cod_unidad; TFG – Del Giudice – Della Mea

Trabajo LOAD DATAWAREHOUSE ETL Trabajo LOAD DATAWAREHOUSE TFG – Del Giudice – Della Mea

Reconstrucción Se creó el esquema “RendimientoAcademico”. Se agregó el cubo “02_Result_Materias”. Se indicó que será ft_result_materias la tabla de hechos del cubo. Se agregó un segundo cubo “02_Ingre_Egre”. Se indicó que será ft_ingr_egre la tabla de hechos del cubo. Dimensiones compartidas: Se crean cinco dimensiones compartidas: Año Académico Unidad Académica Departamento Carrera – Plan Cohorte TFG – Del Giudice – Della Mea

Reconstrucción Características de Dimensiones compartidas: Unidad Académica Carrera - Plan (Relacionada con Carreras, Departamento y Materia) TFG – Del Giudice – Della Mea

Reconstrucción Características de Dimensiones: Departamento  Dimensión compartida y relacionada con Unidad Académica. - Para las otras dimensiones compartidas se realiza el mismo proceso - TFG – Del Giudice – Della Mea

Reconstrucción Luego de crear las dimensiones compartidas, se define la estructura de cada cubo: TFG – Del Giudice – Della Mea

Reconstrucción Al tener los cubos finalizados, lo que se realizó para poder unirlos y visualizarlos en un solo esquema es crear un Cubo Virtual, el cual contiene todos los elementos de ambos: TFG – Del Giudice – Della Mea

Requerimientos DW En el proyecto actual se utilizaron como muestra dos unidades académicas Ciencias de la Información Escuela de Nutrición Se requiere que cada facultad, al acceder al cubo consolidado, vea solo la información pertinente a ésta Para cumplir los requisitos se utilizan Roles de Mondrian TFG – Del Giudice – Della Mea

Roles de Mondrian Se establecieron dos Roles: cs_de_informacion nutrición TFG – Del Giudice – Della Mea

Roles de Mondrian - Permisos A los usuarios cs_de_informacion y nutrición se les ha ocultado la dimensión “Unidad Académica” del cubo, ya que solo nos interesa que puedan ver la información de su facultad. Para que estos puedan visualizar los datos correspondientes, lo que se hizo fue dar acceso personalizado (custom acces) a la Jerarquía y niveles que contienen las unidades académicas. TFG – Del Giudice – Della Mea

Roles de Mondrian - Permisos Ejemplo Rol “cs_de_informacion” : Según el usuario se asignaran, mediante miembros, sus permisos de acceso. Solo el miembro “Escuela de Ciencias de la Información” será totalmente accesible (acces all), negando el acceso (acces none) al resto de los otros miembros (Escuela de Nutrición y Sin Unidad Académica). cs_de_informacion TFG – Del Giudice – Della Mea

Nueva propuesta de Implementación DW Crecimiento del DW Nueva propuesta de Implementación DW TFG – Del Giudice – Della Mea

Propuesta de implementación ante el crecimiento del DW Que los usuarios accedan a las soluciones desarrolladas mediante la opción “New Analysis View” de Jpivot, y no mediante vistas de análisis predefinidas. Para ello se deberá utilizar una xaction que se ejecute cuando el usuario ingresa a la aplicación (system action). La xaction tendrá como "input" el valor del rol actual de quien se haya logueado, y como “output” el rol de Mondrian. Mondrian recibirá el rol activo y en base a éste mostrará la información pertinente. TFG – Del Giudice – Della Mea

Fin de la presentación ¿…? TFG – Del Giudice – Della Mea

¡Muchas gracias por su atención! Fin de la presentación ¡Muchas gracias por su atención! TFG – Del Giudice – Della Mea