La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

“Diseño de un Data Mart para la Unidad de Programación y Abastecimiento de Hidrocarburos de Petrocomercial, Filial de Petroecuador”. Clientes deslumbrados.

Presentaciones similares


Presentación del tema: "“Diseño de un Data Mart para la Unidad de Programación y Abastecimiento de Hidrocarburos de Petrocomercial, Filial de Petroecuador”. Clientes deslumbrados."— Transcripción de la presentación:

1 “Diseño de un Data Mart para la Unidad de Programación y Abastecimiento de Hidrocarburos de Petrocomercial, Filial de Petroecuador”. Clientes deslumbrados. Mejores rendimientos. Mayor participación en el mercado. Estas son las bases de los negocios en la década de los competitivos noventa. Esperamos que la tecnología de la información nos lleve a eso. ¿Cómo puede una empresa deslumbrar a sus clientes, acrecentar sus dividendos e incrementar sus acciones en el mercado, todo al mismo tiempo? Una de las respuestas es el data warehouse (almacén de datos). El data warehousing (almacenamiento de datos) representa el proceso de reunir información histórica de una organización en un depósito central, y se ha convertido en una tecnología común y fundamental.

2 ? Por qué Data Warehouse ? Información para la toma de decisiones
Datos ? Islas de Información Información para la toma de decisiones Las empresa, en el transcurso del tiempo han acumulado gran cantidad de datos operativos en diferentes sistemas de información. Estos datos representan un gran número de conocimiento que podría no estar utilizado en toda su capacidad. Data Warehouse puede ayudarle a tomar ventaja de la base de conocimientos que usted a creado al pasar del tiempo. Data Warehouse ofrece la base para técnicas eficaces de análisis y toma de decisiones tan importantes en el entorno competitivo de nuestra época, como son Minería de Datos (Data Mining) y el análisis multidimensional de datos, así como las consultas tradicionales y la elaboración de informes.

3 Qué es un Data Warehouse?
“Data Warehouse nos permite la integración de datos corporativos en un único depósito donde los usuarios puedan consultar o analizar los datos para la toma de decisiones”. Data warehouse es un proceso de soporte a la toma de decisiones que involucra a varios servicios y componentes de la tecnología de la información. Data warehouse reúne información operacional desde una o múltiples fuentes, la transforma en objetos con significado, la guarda junto con información de tiempo e historia, para finalmente, permitir un soporte efectivo a la toma de decisiones. Data Warehouse es un proceso, no un lugar. Data Warehouse es una arquitectura, no un producto. Data Warehouse no se puede comprar, hay que construirlo.

4 Data Warehouse SOPORTE DE DECISIÓN Transfor_mación DATA WAREHOUSE
DATOS EXTERNOS DATOS OPERACIONALES TRANSACCIONALES Transfor_mación DATA WAREHOUSE METADATOS SOPORTE DE DECISIÓN DATOS OPERACIONALES BATCH “Un Data Warehouse es un conjunto de datos integrados orientados a una materia, que varían en el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración”. W.H.Inmon.

5 Características Tema Orientado Integrado Variante en el tiempo
No Volátil Tema Orientado para la Toma de Decisiones Organiza y orienta los datos desde la perspectiva del último usuario. Los sistemas operacionales clásicos están organizados alrededor de las aplicaciones de la compañía, las cuales están segmentadas, de este modo solo se provee una vista parcial de las entidades de negocios. Por ejemplo, en Petrocomercial, la información concerniente a las existencias, despachos y comercialización de los productos derivados del petróleo, son a menudo almacenadas en diferentes aplicaciones. En contraste a esto último, un Data Warehouse provee el estado actual de abastecimiento de combustibles, así el usuario final tiene acceso a información analítica e integrada en lugar de información detallada. Integrado. Un Data Warehouse es una herramienta competitiva que da a cada usuario la habilidad de acceder a datos de calidad de toda la empresa. Al poner los datos en un punto central de almacenamiento, se provee una representación integrada de las múltiples fuentes de información que se encuentran en la organización. Esto garantiza la consistencia de las reglas de manejo y convenciones aplicadas a los datos. Así, un Data Warehouse es un reflejo de necesidades corporativas, más que de necesidades individuales, en las que además se incluyen el software y hardware que se utilizará. Variación en el tiempo La Base de Datos es variante en el tiempo por la distinción entre datos operacionales y datos informacionales. Los datos operacionales son válidos únicamente al momento de acceso y captura, el cual es un momento en el tiempo. En segundos los datos no serán válidos en la descripción actual de las operaciones. Los datos informacionales describen la situación actual de las operaciones, utilizando para esto información actual e histórica. Data Warehouse puede ser vista como una Base de Datos de Soporte de Decisiones, que es mantenida separadamente de las Bases Operacionales de la Organización. Debido a este uso en algunas ocasiones se refiere a Data Warehouse como una “Base de Datos Informacional”. Datos No Volátiles En un Data Warehouse, los datos son no volátiles. Los usuarios pueden realizar análisis a largo plazo, ellos además tienen acceso no solamente a la información actual que está siendo actualizada constantemente por los sistemas OLTP (On-Line Transaction Proccessing), sino que también a la información histórica. Los datos operacionales son regularmente accesados y manipulados registro por registro, por lo que la actualización de datos es permitida en el ambiente operacional, en cambio el data Warehouse exhibe un conjunto de características diferentes al ambiente operacional. Los datos del Data Warehouse son cargados y accesados usualmente en masa, pero la actualización de datos no ocurre en el ambiente del Data Warehouse.

6 Arquitectura DATA WAREHOUSE PROCESOS Y FUNCIONES Extracción , limpieza
DATOS DATOS CONSULTAS Y REPORTES MINERIA DE DATOS ANALISIS OPERACIONALES EXTERNOS INTERACTIVOS SEGMENTACION MULTIDIMENSIONAL PREDICCION O ANALISIS OLAP Metadatos DATA WAREHOUSE PROCESOS Y FUNCIONES 1 2 3 S1 10 20 Serie1 Serie2 Extracción , limpieza transformación y carga Arquitectura de referencia Conjunto de datos extraido de bases de datos operacionales Un software que prepara los datos para que los accedan los usuarios Un conjunto de aplicaciones y herramientas que ejecutan un conjunto de consultas y análisis complejos. Tipos de Datos de un Data Warehouse Datos de Tiempo Real. Estos datos son llamados datos operacionales porque son usados solamente por aplicaciones operacionales. Contiene todo lo individual, registro de datos detallados, donde cada actualización se realiza previa una entrada. Los datos en tiempo real pueden existir en múltiples localizaciones en forma redundante. Además puede ser inconsistente la información en su representación, y en su significado o ambas. Datos Reconciliados. Los datos reconciliados contienen registros detallados del nivel de tiempo real. Estos datos han sido depurados, ajustados, o mejorados, con la finalidad de que puedan ser usados por las aplicaciones informacionales. Las inconsistencias que se detectaron en tiempo real han sido corregidas, al resolver problemas con los tipos de datos, registros incompletos y así sucesivamente. Puede ser también que los datos en tiempo real no estén en un almacén de datos cuya tecnología sea apropiada para procesamiento informacional. Datos Derivados. Raramente los usuarios finales desean reportes de registro por registro, más bien ellos necesitan resúmenes de grandes volúmenes de datos. Para satisfacer este requerimiento, se necesita proveer una base de datos separada con los registros detallados ya resumidos. Esto reduce en forma significativa los requerimientos de recursos e incrementa tiempos de respuesta de aplicación. Datos derivados, entonces, son resumidos, promediados o agregados; desde múltiples fuentes de datos de tiempo real o reconciliados, utilizando la capacidad de procesador de manera mejorada. Datos Cambiados. El almacén de datos cambiados contiene un registro de todos los cambios seleccionados a los datos de tiempo real. En todos los cambios están incluidos, algunos niveles de análisis de punto en el tiempo que han sido logrados. Al guardar la historia de los datos cambiados, se presentan salidas adicionales para la administración de datos. Los datos necesitarán ser archivados de tal manera que permitan ser recuperados fácilmente cuando se deseen.

7 Metadatos DATA WAREHOUSE Datos acerca de los datos.
Herramienta que almacena datos u otro punto de apoyo para los sistemas de información, guardando la pista de las relaciones entre el Data Warehouse y las Bases de Datos Operacionales, incluyendo además los pasos requeridos para el almacenamiento de los datos. Se clasifican en: Metadatos de Transformación, y Metadatos de Aplicación. Metadatos DATA WAREHOUSE Metadatos. El término metadatos es usado para la información descriptiva sobre otros elementos de datos o tipos de datos, tales como archivos, reportes, flujos de procesos y así sucesivamente. Los Metadatos llegan a ser muy importantes para los usuarios finales, ya que ellos intentan acceder a los datos y desarrollar su propia aplicación informacional. Ellos necesitan entender qué datos están disponibles para accederlos y saber como representarlos. Los Metadatos son típicamente encontrados en los diccionarios de datos, catálogos de bases de datos, programas, librerías de copias y solamente son usadas por programadores profesionales. Metadatos de transformación.- Contiene una descripción de la base de datos operacional y una descripción del Data Warehouse. Metadatos de Aplicación.- Ayudan a los usuarios a encontrar información en el Data Warehouse sin tener que conocer la información de la Base de Datos. Cuando se actualizó la información del DW De donde provienen los datos Usos de los Metadatos Los Metadatos toman información del ambiente operacional y se usa de diferentes formas: Es un directorio que ayuda a los analistas de DSS (Sistemas de Soporte de Decisión) a localizar los volúmenes del Data Warehouse. Es una guía a la cartografía de datos, es decir como se transforma del ambiente operacional al Data Warehouse. Es una guía para los algoritmos entre el uso sumarizado de los datos y el detalle presente de los mismos.

8 Contenido de los Metadatos
Tablas de Estructura del Data Warehouse Tabla de Atributos del Data Warehouse Datos de origen del Data Warehouse (El sistema de registros) El mapeo desde los sistemas de registros hasta el Data Warehouse. La especificación de los Modelos de Datos. La extracción y el registro Las rutinas de acceso a los datos Las equivalencias de tipos de datos entre Base de Datos Fuente y Destino.

9 Análisis Multidimensional
Cliente Geografía Producto Tiempo DIMENSIONES Cliente Geografía Producto Tiempo INTERRELACIONES Día Año Fiscal Año Mes JERARQUIAS Trim Rebanar/Picar Navegación Pivote Profundización y resumen SERVICIOS Cálculos Resúmenes y adiciones En el análisis multidimencional, los datos se presentan mediante dimensiones como producto, territorio y cliente. Por lo regular las dimensiones se relacionan en jerarquias, por ejemplo, ciudad, provincia, región, país y continente, o provincia, territorio y región. Una dimensión representa una abstracción de cierto tipo de grupo de datos. El tiempo es también una dimensión estándar con su propia jerarquía como días, semanas, meses, trimestres o años, que son todas las partes de la dimensión de tiempo. El usuario determina cuáles dimensiones son importantes. Un usuario empresarial puede acceder el stock de productos por terminal para los últimos cuatro Trimestres, para un conjunto dado de productos. Los resultados se pueden pivotear o girar para cambiar los ejes y la perspectiva. Además, los usuarios empresariales pueden navegar por las dimensiones profundizando u obteniendo resúmenes a lo largo de los elementos de una dimensión, o penetrar a través de las dimensiones para ver otras perspectivas. El procesamiento analítico se usa para “entender lo que está sucediendo en la empresa” y promete análisis del tipo “¿qué pasa si.....?” e “¿y ahora qué?.

10 Análisis Multidimensional OLAP
“OLAP es una tecnología de procesamiento analítica que crea nueva información empresarial a partir de los datos existentes, por medio de un rico conjunto de transformaciones empresariales y cálculos numéricos”. En un Data Warehouse, se depositan los datos para consulta, análisis y divulgación, a diferencia del procesamiento de transacciones en línea (OLTP por las siglas de On-Line Transaction Processing), en donde los datos se reúnen y almacenan para operación y control.

11 Tipos y Modelos de OLAP Tipos Modelos OLAP Relacional (ROLAP)
OLAP Multidimensional (MOLAP) OLAP Híbrida (HOLAP) Modelos Modelo Cubo Esquema Estrella Esquema Copo de Nieve Esquema Mixto OLAP relacional (ROLAP) En el corazón de la tecnología OLAP relacional está el modelo dimensional. Esta técnica organiza la información en dos clases de estructuras de datos: media o dato numérico (por ejemplo, márgenes de ventas, ventas brutas), los cuales son almacenados en tablas reales; y dimensiones (por ejemplo, cuentas y categoría de productos), las cuales son almacenadas en tablas y están unidas a la tabla real. OLAP multidimensional (MOLAP) Las herramientas OLAP multidimensional permiten tomar decisiones más prácticas, y han tenido éxito particularmente en mercados de grupos de clientes, en donde el análisis del mercado compartido es negocio crítico. Algunas herramientas de consultas, están integradas con una base de datos multidimensional (MDB) que supera eficientemente múltiples dimensiones de arreglos utilizando poca tecnología matricial. Las herramientas multidimensionales ofrecen al usuario una perspectiva de sus datos, los cuales facilitan análisis comparativos. Existen tres tipos básicos de herramientas OLAP multidimensionales: Las hojas electrónicas, tal como EXCEL, la cual permite pequeños conjuntos de datos que serán vistos a través del formato familiar de usuarios de negocios. MDBS cliente, el cual mantiene la consolidación de datos precalculados en la memoria del computador. MDBS basada en servidor, tales como ESSBASE, el cual optimiza gigabytes de datos utilizando algunos de los trucos de optimización de ejecución y almacenamiento. MDBS Sistema de base de datos multidimensionales. OLAP Híbrida (HOLAP) Una OLAP híbrida es una mezcla de MOLAP y arquitecturas relacionales las que soportan consultas contra resúmenes y realiza transacciones de datos en una manera integrada. La arquitectura HOLAP es típicamente más compleja para implementar y administrar que las arquitecturas ROLAP y MOLAP.

12 Tipos y Modelos de OLAP Esquema Estrella
Atributos de Tiempo Clave: Producto Clave: Región Clave: Tiempo Clave: Terminal Atributos de Terminal Atributos de Región Atributos de Producto Volumen Final Volumen Despachado Tabla de Volúmenes La Figura exhibe las columnas privadas de la tabla de hechos y claves externas a las tablas de dimensión. Las tablas de dimensión contienen atributos no de clave que describen los valores de la dimensión. Las consultas en las tablas de hechos simplemente conectan listas de apuntadores a las tablas de dimensión. Cuando las consultas en la tabla de hechos se unen con consultas en la tabla de dimensión, se recupera información diversa u cuantiosa. Las tablas de dimensión permiten profundizar y hacer adiciones en la búsqueda por medio de uniones. Un esquema estrella lógico sencillo consta de una tabla de hechos y varias tablas de dimensión. Los esquemas estrella complejos, tienen cientos de tablas de hechos y de dimensión. Una tabla de hechos contiene las mediciones básicas de los negocios y consta de millones de hileras. Las tablas de dimensión contienen atributos de negocios que se emplean como criterio de búsqueda SQL y son relativamente pequeñas.

13 Minería de Datos (Data Mining)
Esta técnica consiste en extraer información de grandes bases de datos en función de estos mismos. Se trata de un proceso automatizado de presentación de patrones, normas o funciones a un usuario informado para su revisión y estudio. Procesos de Minería de Datos Selección de Datos Transformación de Datos “Data Mining” Interpretación de resultados Minería de Datos llamada también Data Mining, permite encontrar minas de oro potenciales de información valiosa, en la gran cantidad de datos que una empresa acumula. Encuentra respuestas a preguntas aunque usted no haya preguntado. En este caso el ser humano desempeña un papel fundamental, ya que sólo él, el analista, puede decidir si este patrón, norma o función tiene importancia, pertinencia y utilidad para la empresa. La Minería de Datos es una herramienta útil, un nuevo enfoque que combina descubrimiento y análisis. No es una rama recientemente descubierta de las matemáticas que, incorporada a un software y conectada a una amplia y problemática base de datos, revele de forma tan inexplicable como inevitable los secretos contenidos en los millones de entradas almacenadas en ella. Es un ámbito que cada vez resultará más necesario para la competitividad de las empresas y es una aplicación de la Inteligencia Artificial.

14 Esquema Data Warehousing
DB2 Minería de Datos Procesamiento Analítico en Línea OLAP Consultas y Reportes Acceso WEB Data Warehouse (Data Mart) Files Necesidades de Desarrollo Definir Acceso Manejar Almacenar Transformar Distribuir Automatizar SYBASE SQL Server INFORMIX ORACLE VSAM IMS del Negocio Datos Fuentes externos y operacionales La Figura 2.1 provee una vista total de un ambiente Data Warehousing, en la que se muestran los procesos que crean, manejan y mantienen el Data Warehouse, incluyendo el acceso a los datos fuentes, transformación, y carga, los mismos que están referidos como necesidades de desarrollo. Las maneras de acceso, análisis, y presentación de la información recuperada de un Data Warehouse, tales como consultas, reportes, minería de datos, análisis multidimensional y acceso al WWW, están referidos como las necesidades del negocio. Las organizaciones generan y recopilan grandes cantidades de información que se utilizan en sus operaciones cotidianas. El desafío consiste en aprovechar el valor de dicha información, usar los patrones de ésta y las tendencias en su uso para obtener nuevos conocimientos. Estas herramientas alimentan y gestionan complejos Data Warehouses y Data Marts específicos. También permiten consultas generalizadas, análisis multidimensional y extracción de datos. Y son utilizadas para reunir y gestionar información detallada, adicionada y resumida de las bases de datos, que la empresa utiliza para el análisis y toma de decisiones. Los Data Warehouses difieren de los sistemas transaccionales por su contenido, características técnicas y finalidad. En lugar de concentrarse en la ejecución de operaciones empresariales, los Data Warehouses facilitan a los analistas información sobre operaciones que pueden estudiar y utilizar para remodelar la empresa. Así estas empresas utilizan los Data Warehouses para realizar y gestionar los procesos continuos de redefinición técnica de la empresa, los mismos permiten mantener o aumentar la eficiencia y la competitividad.

15 Herramientas Herramientas de Modelamiento de datos
Herramientas de Construcción de un Data Warehouse Herramientas de análisis multidimensional u OLAP, Consultas y reportes Minería de Datos 2.2. HERRAMIENTAS DE MODELAMIENTO DE DATOS. Estas herramientas nos permiten distribuir una extraordinaria productividad en el diseño, generación y mantenimiento de aplicaciones de bases de datos de alta calidad, desde los modelos lógicos de sus requerimientos de información y reglas del negocio, hacia un modelo físico optimizado para las características físicas de su base destino.También existen herramientas que nos permiten liberar el poder del Data Warehouse proveyendo un directorio comprensivo de información activa, el cual maneja a los metadatos necesitados para describir su ambiente de producción del Warehousing. Con herramientas de desarrollo de bases de datos y sistemas de manejo de modelos, se puede diseñar un Data Warehouse, encontrando procesos de negocios, con la escalabilidad suficiente para encontrar las necesidades de la empresa. Las metas para construir un Data Warehouse están relacionadas con ganar ventajas competitivas para mantener disponibles los datos críticos a los usuarios de negocios quienes los necesita. 2.3. HERRAMIENTAS DE CONSTRUCCIÓN DE UN DATA WAREHOUSE. Como un proveedor de servicios de información para su organización, los usuarios observan como mantener disponibles la información correcta para ellos al tiempo correcto. Estas herramientas permiten extraer, limpiar, transformar y consolidar datos desde múltiples fuentes heterogéneas en orden para construir y mantener Data Warehouses y Data Marts. La clave primaria es definir las necesidades del negocio para su Data Warehouse, además de que es importante tener un software que guíe el proceso de especificación de relaciones entre los datos fuentes y los datos en el Data Warehouse. Idealmente debe ser el mismo software que ayuda a acelerar la transformación y permite cargar los datos al Data Warehouse. Esto incluye limpieza, reestructuración, correlación estandarización, sumarización y derivación de datos para conjuntar sus necesidades de análisis y reportes Usando herramientas avanzadas de movimiento y transformación, se puede tomar ventajas de funciones sofisticadas en ambientes heterogéneos y soporta una gran variedad de bases de datos fuentes y destinos. La extracción de datos consiste en obtener información relevante y previamente ignorada de amplias bases de datos y su finalidad es utilizarla para tomar decisiones importantes para la empresa. Este proceso se ha convertido en una herramienta indispensable de su información estratégica, además es el ingrediente necesario para mejorar la presencia de la empresa en un mercado globalizado y permite diferenciar sus productos así como de sus servicios. Complementa las técnicas de investigación y toma de decisiones tradicionales, como el análisis, la consulta y el informe estadístico. 2.4 HERRAMIENTAS DE ANÁLISIS MULTIDIMENSIONAL u OLAP, CONSULTAS Y REPORTES. Las herramientas de reportes y consultas, en forma rápida y fácil de usar, permiten explorar varios niveles de datos a lo largo de toda la empresa, recuperan la información específica que se necesita y los presenta en un formato significativo. Las mejores herramientas soportan una variedad de ambientes de redes, permitiendo entregar resultados de análisis sobre redes cliente/servidor, o en el Internet. Son también flexibles, lo suficiente para acomodar cada tipo de preguntas y necesidades de informes, desde una suscripción simple a informes periódicos a la formulación de consultas ad-hoc usando SQL y otro lenguaje de consulta. Las herramientas OLAP ofrecen un poderoso motor de análisis multidimensional y sus asociadas herramientas visuales ayudan a tomar estrategias de tal modo que la organización mire sus datos corporativos desde nuevas perspectivas. OLAP debería ser un proceso altamente interactivo, por medio del cual los analistas de información puedan desempeñar los análisis reiterativos en la sucesión inmediata para obtener las respuestas que necesitan, rápidamente. La utilidad de las soluciones OLAP depende del gran alcance sobre la eficiencia de sus métodos de carga de datos y de cálculos y también sobre la cantidad de transformación de datos que debe experimentar. Idealmente, el Data Warehouse que se construye debe ser capaz de servir a OLAP, consultas estándares y necesidades de reportes.

16 Sistemas Operacionales de Petrocomercial
IBM S/390 Base de datos DB2 Sistema de Movimiento de Productos (MOPRO) Archivos VSAM Sistema de Comercialización (Ventas) IBM AS/400 Base de Datos DB2/400 Sistemas Financieros Sistemas Administrativos Sistema de Inventarios y Compras Sistema de Mantenimiento Sistema de Contratos

17 Selección de Herramientas
Construcción de Data Warehouse Visual Warehouse (IBM) Oracle Express (Oracle Corporation) Herramientas OLAP DB2 OLAP Server (IBM) Power Play (Cognos) Business Objects (BO) Base de Datos DB2 UDB (IBM) Oracle 8 Consultas y Reportes Lotus Approach (IBM) Discoverer (Oracle Corporation) Impromptu (Cognos) Business Query (Business Objects) Minería de Datos Intelligent Miner (IBM) 4 thought (Cognos) Business Miner (Business Objects) Las herramientas de análisis, diseño y construcción de un Data Warehouse son la parte más importante en la obtención de esta característica, ya que en ellas se permite determinar los problemas de negocios, determinar las soluciones que se ajustan a las necesidades del negocio, así como también se ejecutan tareas de acceso a la información operacional, cuyos orígenes específicamente para Petrocomercial son DB2 y archivos VSAM del IBM S/390, así como DB2/400 del AS/400. Visual Warehouse cuyo proveedor es IBM, es la herramienta que permite realizar la extracción de información en forma transparente y directa de todas las plataformas que Petrocomercial posee, requerimiento que Oracle no lo tiene directamente, razón que permite al software de IBM ser el seleccionado para cumplir las necesidades de información para la toma de decisiones por parte de Petrocomercial. El resto de herramientas que se muestran en el cuadro tal es el caso de OLAP, minería de datos, consultas y reportes trabajan en forma relacionada con Visual Warehouse, a excepción de las herramientas de Oracle. Se recomienda las herramientas propuestas por la empresa Cognos, como son Power Play, Impromptu, para realizar estas actividades, tal como se muestra en la Figura 2.2. que presenta el esquema propuesto para Petrocomercial.

18 Esquema propuesto para Petrocomercial
DB2 Consultas y Reportes Data Warehouse (Data Mart) Archivos Planos VSAM Datos Fuentes externos y operacionales Acceso Transformar Distribuir Almacenar Manejar Automatizar VISUAL WAREHOUSE Impromptu Power Play Procesamiento Analítico en Línea OLAP y acceso a Web

19 Ambiente de Data Warehouse
IBM AS/400 PCO2 IBM S/390 Token Ring IBM AS/400 PCO1 Comunicación APPC PCORED3 Software para crear y manejar Data Warehouse Visual Warehouse Power Play Impromptu Software para comunicaciones Communications Server Base de Datos DB2 UDB El sistema S/390 es el sucesor de los sistemas ES/9370 y ES/4381 en las plataformas de IBM, para sus equipos de rango medio, e incluye facilidades para implementar ambientes de computación centralizada y distribuida. La memoria principal de este equipo puede llegar a los 256 y 512 MB, posibilitando un crecimiento vertical de estos equipos. Además puede alcanzar un promedio de 256 MB de memoria expandida en el modelo 170 y 496 MB en el modelo 191. Esta facilidad permite mantener la mayor cantidad de datos en memoria, lo cual reduce el número de accesos a disco e incrementa los tiempos de respuesta de las aplicaciones. El IBM AS/400 es una familia de productos diseñados para ofrecer soluciones en procesamiento de datos comerciales, oficina, y comunicaciones, mientras se proveen interfaces simples y consistentes para programadores y usuarios finales de negocios de todo tamaño. El sistema consiste en una amplia gama de procesadores que utilizan el mismo sistema operativo en todos sus modelos. Esto permite un crecimiento fácil y continuo, para alcanzar los requerimientos y necesidades en todos los ambientes. Su sistema operativo OS/400 implementa las arquitecturas estratégicas de IBM asegurando la consistencia con otras familias de productos IBM. El AS/400 provee un vasto espectro de opciones de conectividad para permitir una comunicación de datos efectiva entre AS/400 y otros sistemas IBM, computadores personales, con sistemas abiertos y con sistemas NO IBM. Integrar y manejar los diversos recursos de información de un negocio, es lo más importante que muestran los sistemas de información de ahora. IBM MVS/ESA provee capacidades abiertas, distribuidas, necesarias para incrementar la sinergia entre las estaciones de trabajo y mainframes, así como simplifica la administración de los datos. Esta diseñado para correr sobre procesadores ESA/390, incluyendo ES/9000, la plataforma MVS/ESA ofrece la capacidad y flexibilidad que las organizaciones necesitan para: Soportar nuevas oportunidades de aplicaciones y requerimientos a través de una variedad de ambientes de hardware y software. Permitir mayor acceso global a los datos. Crecer en amplitud y longitud con una mínima interrupción para los usuarios y aplicaciones. Manejar incremental y dinámicamente, grandes y sofisticados sistemas, así como costearse efectiva y automáticamente. Petrocomercial mantiene dentro del ambiente de su red WAN, un protocolo de comunicación APPC, el cual permite la conexión de los equipos IBM S/390, IBM AS/400 con el servidor de Data Warehouse, el mismo que forma parte de la red LAN. El protocolo APPC sirve para comunicar estaciones de trabajo con un mainframe. APPC asegura que los programas tengan acceso a los recursos de red cuando se necesite y que los recursos de red estén disponibles.

20 Ambiente de Data Warehouse
Ambiente de Comunicaciones Ambiente de Base de Datos Creación de Data Warehouse Análisis OLAP y Consultas y Reportes

21 Ambiente de Comunicaciones
Configuración de un nodo de red. Configuración de dispositivos. Configuración de una conexión. Configuración de Unidades Lógicas Locales (Local LU 6.2). Configuración de modos. Configuración de Unidades Lógicas Asociadas (Partner LU 6.2). Configuración de interface común de programación (CPI-C). Un nodo local SNA (System Network Architect) contiene los parámetros necesarios para identificar su estación de trabajo en la red SNA. Un Host que está ejecutando administración de red necesita el identificador de la red (1) y el nombre del punto de control (CP Name) (4), también conocido como el nombre de nodo local, así que cuando la estación de trabajo envía alertas al host, el host reconoce la aplicación corriendo en la estación de trabajo. Para la definición básica del nodo, hay opciones que definen al punto de control del nodo, el identificador del nodo local y el tipo de nodo. En el punto de control aparece el nombre de la red ingresado en Figura 3.5, debiendo ingresar el alias del punto de control el cual puede ser el mismo que identifica a la red. En el identificador de nodo local se ingresa el identificador de bloque y de unidad física que aparecen en la Tabla 3.4 en la posición 13 y 14. La definición de dispositivos establece interfaces sobre el API DLC (Data Link Control) entre la tarjeta adaptadora en su servidor de Data Warehouse y otro sistema, que puede ser un mainframe, a través de un encadenamiento. Dentro de esta configuración se selecciona el DLC tipo LAN, en la que incluye comunicaciones ethernet y token ring. Una conexión define un encadenamiento de una estación de trabajo a uno o más nodos SNA. Un modo describe la clase de servicio y las características de transmisión para las sesiones de comunicaciones entre unidades lógicas (Lus Logic Units). Considerando a las unidades lógicas, a los nombres de los equipos que intervienen en la comunicación, se puede establecer definiciones de modos, describiendo cada uno, un conjunto diferente de características de sesión. Después de crear un modo de definición, se puede crear un nombre único de modo para especificar un conjunto de características de sesión. La definición local LU 6.2 permite configurar unidades lógicas independientes y dependientes para los nodos que usan comunicación APPC a otro punto de nodo (independiente) o a un host (dependiente). El LU 6.2 es una unidad lógica independiente que no necesita un orden jerárquico para poder conversar en un ambiente de comunicaciones. El protocolo LU 6.2 es un protocolo que permite realizar una comunicación APPC y definido en el ambiente SNA. Se usa la configuración de CPI-C para definir una comunicación asociada. Esta definición es usada por una interface común de programación para programas de comunicación (CPI-C). Una definición asociada de unidad lógica (LU), es una lista que se encuentra en el directorio local y que contiene el nombre y el alias de una unidad lógica con la cual se comunica.

22 Ambiente de Base de Datos
Configuración de Base de Datos (Base de Datos fuentes, de control y de Data Warehouse) Protocolo de comunicaciones(APPC) Sistema Operativo(MVS/ESA, OS/400) Parámetros de comunicación APPC (CPI-C) Base de Datos destino Pruebas de Conexión a Base de Datos (Test) Ejecución de aplicación (Bind) La primera opción de la Figura 3.27 nos permite seleccionar el protocolo de comunicación que se usará para conectar a la base de datos, y la segunda opción el sistema operativo destino, del cual se realizará la extracción. Para la configuración de las bases de datos con arquitectura DRDA se seleccionó como protocolo de comunicación a APPC, además permite TCP/IP, IPX/SPX, APPC, Named Pipe, NetBIOS, o local y como sistema operativo se realizó la selección de acuerdo al origen de la información, es decir que para el equipo IBM S/390 se escogió a MVS/ESA o OS/390, mientras que para los equipos AS/400 se escogió a OS/400. La conexión simbólica del destino identifica la información necesaria de la red SNA para conectar a un subsistema de DB2. El valor que se debe ingresar en esta opción será el nombre de la conexión simbólica del destino, el cual fue previamente configurado en el ambiente de comunicaciones utilizando Communications Server. Cada base de datos en un servidor es catalogada usando un nombre único, con el cual será identificada. Este proceso creará automáticamente la base de datos fuente, en el ambiente de DB2. En la pantalla de configuración del DB2 existe una opción que permite realizar una prueba a la conexión configurada (test), pero este trabajo debe realizarse una vez que la base haya sido correctamente actualizada. Si se desea realizar una prueba de conexión en dicho menú se pulsa la opción Test. Durante el proceso de generación (bind), los planes de acceso a la base de datos son almacenados por cada sentencia SQL que sea ejecutada. Estos planes de acceso son reemplazados por desarrolladores de aplicaciones y están contenidos en el archivo bind, los cuales son creados en precompilación. Binding es simplemente un proceso de procesamiento de estos archivos bind por un servicio DRDA.

23 Desarrollo de Aplicación Metodología
Planeación Requerimientos Análisis Diseño Construcción Puesta en Marcha (Pruebas, Implementación) 3.4.1 Planeación. Selección de la estrategia de implementación., Selección de la metodología de desarrollo. Selección del ámbito de implementación. Selección del enfoque arquitectónico. Desarrollo de un programa y del presupuesto del proyecto. Desarrollo de escenarios de uso empresarial.Recopilación de metadatos. 3.4.2 Requerimientos. Definir los requerimientos del propietario. Definir los requerimientos del arquitecto. Definir los requerimientos del desarrollador. Definir los requerimientos de los usuarios finales. 3.4.3 Análisis.1)Requerimiento del enfoque empresarial que delinean las fronteras de la información que debe comprender el Data Warehouse. El enfoque empresarial determinará también la audiencia y sus requerimientos de información. 2)Especificaciones de requerimientos de fuentes de datos que delinean las fronteras de información disponible en las fuentes de datos actuales. 3)Especificaciones de requerimientos de usuario final y acceso, las cuales definen cómo se utilizará la información del Data warehouse. Tipos de herramientas y técnicas de exhibición que se usan. 3.4.4 Diseño 1)Diseño detallado de la arquitectura de datos. 2)Diseño detallado de la arquitectura de aplicación. Diseño de la arquitectura de datos comprenden: 1)Desarrollo de modelos físicos de datos para las bases de datos de almacenamiento del Data Warehouse y mercado de datos. 2)Correspondencia de los modelos físicos de datos de las fuentes de datos con los modelos físicos del Data warehouse. Diseño de la arquitectura de la aplicación:1) Procesos que son internos a las fuentes de datos y relacionan con depuraciones o extracciones parciales de información y procesos que conectan las fuentes de datos con el Data Warehouse. 2)Procesos que son internos al Data Warehouse y se usan para fines de manejo interno. 3)Procesos que conectan al Data Warehouse con los mercados de datos. 4)Procesos que son internos a los mercados de datos y se emplean para fines de manejo interno. 5)Procesos que conectan al Data Warehouse con herramientas de usuario final. 6)Procesos que son internos al Data Warehouse y a los mercados de datos y para iniciar herramientas de análisis. 7)Procesos que sustentan tareas de manejo, administración y prácticas internas para el Data Warehouse como sistema. 3.4.5 Construcción. 1)Programas que creen y modifiquen las bases de datos para el Data Warehouse y los mercados de datos.2)Programas que extraigan datos de fuentes relacionales y no relacionales. 3)Programas que realicen transformaciones de datos, tales como integración, resumen y adición. 4)Programas que realicen actualizaciones de base de datos relacionales. 5)Programas que efectúen búsquedas en bases de datos muy grandes. Puesta en marcha.Esta fase tiene que ver con los retos de instalación, puesta en servicio y uso de la solución de Data Warehouse. 1)Proporcionar la instalación inicial, incluyendo facilidades para las conexiones básicas de datos con las fuentes y para la actualización y sincronización de datos. 2)Planeación y entrega de una implementación por etapas. 3)Proporcionar capacitación y orientación a todo tipo de usuarios. 4)Planeación e implementación de la actualización de plataformas y el mantenimiento necesario por el Data Warehouse cuando se requiere. 5)Proporcionar la administración de usuarios y sistemas. 6)Proporcionar la capacidad de generar archivos permanentes y respaldos. 7)Proporcionar la capacidad de recuperación. 8)Asegurar la integración dentro de la infraestructura existente. 9)Proporcionar controles de acceso y seguridad. 10)Asegurar la completa disponibilidad y los procesos para manejar caídas de los sistemas y sus componentes de infraestructura.

24 Planteamiento del Problema
El proyecto piloto en Petrocomercial inicia con la construcción de un Data Warehouse para la Unidad de Programación y Abastecimiento de Hidrocarburos, el cual deberá satisfacer consultas periódicas concernientes a volúmenes finales (existencias), volúmenes despachados (demanda) y días de stock de productos derivados del Petróleo, distribuidos por terminal de despacho y región. El Data Warehouse deberá ser capaz de satisfacer por el momento, consultas concernientes a volúmenes finales, volúmenes despachados y días de Stock con una granularidad variable y por las siguientes dimensiones:Región (Norte, Sur), Terminal (Beaterio, Ambato, etc.) y Producto (Diesel, Gasolina Extra etc.). Los formatos de consultas específicos son: Existencia de combustibles y días de stock en terminales. Existencia de combustibles en refinerías. Existencia de combustibles en cabeceras. Existencia de combustibles y días de stock por regiones y a nivel nacional. Despachos de combustibles por terminales. Una necesidad urgente de los funcionarios que toman decisiones es el conocimiento de los días de stock o dicho de otra manera, cuantos días puede abastecer a su área de influencia, un terminal sin ser reabastecido. Por esta razón, el presente trabajo se centrara en la obtención de este dato tan valioso para el área usuaria, de una manera que ellos mismos puedan generar sus propios reportes y hacer el análisis de la información correspondiente sin depender directamente del área de sistemas. Otros requerimientos son tener: Un acceso rápido y oportuno a los datos. Una buena manipulación. Una excelente presentación.

25 Esquema Estrella de Aplicación
Atributos de tiempo Clave: Producto Clave: Región Clave: Tiempo Clave: Terminal Atributos de Producto Atributos de Región Atributos de Terminal Volumen Final Volumen Despachado Hechos Tabla de Dimensión Tiempo Tabla de Dimensión Producto Tablas de Hechos de Volúmenes Tabla de Dimensión Terminal Tabla de Dimensión Región La Figura exhibe las columnas privadas de la tabla de hechos y claves externas a las tablas de dimensión. Las tablas de dimensión contienen atributos no de clave que describen los valores de la dimensión. Las consultas en las tablas de hechos simplemente conectan listas de apuntadores a las tablas de dimensión. Cuando las consultas en la tabla de hechos se unen con consultas en la tabla de dimensión, se recupera información diversa u cuantiosa. Las tablas de dimensión permiten profundizar y hacer adiciones en la búsqueda por medio de uniones. Un esquema estrella lógico sencillo consta de una tabla de hechos y varias tablas de dimensión. Los esquemas estrella complejos, tienen cientos de tablas de hechos y de dimensión. Una tabla de hechos contiene las mediciones básicas de los negocios y consta de millones de hileras. Las tablas de dimensión contienen atributos de negocios que se emplean como criterio de búsqueda SQL y son relativamente pequeñas.

26 Procesos de Aplicación
Data Warehouse MOPRO Sistema de MOPRO Gerencia General Unidad de Programación y Abastecimiento Subgerencia de Transporte y Almacenamiento Petroindustrial Existencia y demanda de productos. Despachos a empresas eléctricas. Existencia, demanda diaria, y días de stock de productos. Stock de Refinerías

27 Construcción del Data Warehouse (Visual Warehouse)
Acceso a datos de ambientes operacionales, y de fuentes externas. Transformación, Integración y Distribución de datos, que permiten convertirlos en datos útiles para el negocio. Filtrado de datos usando sentencias SQL estándares. Almacenar datos. Encontrar y Comprender, a través de un catálogo de información. Mostrar, Analizar y Descubrir usando una herramienta de soporte a la toma de decisiones. Automatizar y Administrar del Data Warehouse, para maximizar la disponibilidad con un mínimo de recursos. Acceso a Datos Visual Warehouse permite soportar fuentes de datos que provienen de DB2, IMS o VSAM. También soporta archivos planos de VM, Oracle, Sybase, Informix, MS SQL Server, archivos planos de OS/2 y AIX, y grandes objetos binarios (BLOBs Binary Large Objects). Estas fuentes pueden ser internas a su organización (tales como existencias de productos derivados del petróleo por terminal) o fuentes externas (como de stock de productos de refinerías). También soporta acceso a fuentes externas de datos vía Internet, así como usando protocolos estándares de comunicaciones. Transformación, Integración y Distribución de Datos Independientemente de la fuente de datos que alimentan al Data Warehouse, Visual Warehouse utiliza SQL estándar para proveer una transformación abierta y flexible de datos. Esto uniformiza todas las diferencias de estructura de datos y los trata a estos como si todos fueran relacionales, con total capacidad de acceso SQL. Los beneficios claves son implementación rápida y reducción de mantenimiento. Visual Warehouse soporta manejos y mejoras complejas de datos, incluyendo: Agregaciones, Derivaciones, Porciones (Subsets),Cambios,Valores de Tiempo (Time Value),Sumarios,Versiones/Ediciones; con administración automática de un número específico. Estas capacidades permiten a las personas que toman decisiones, accesar a diferentes tipos de datos que pueden requerir para tomar las mejores decisiones de negocios. Para una transformación adicional de datos y/o para limpieza de datos, esta herramienta soporta programas desarrollados o provistos por el usuario para cumplir esta función específica. Los requerimientos de transformación de datos específicos para un usuario o grupo de usuarios generan vistas de negocios. Soporta actualización total de los datos del Warehouse, en intervalos de tiempo especificados por el usuario. También permite la creación de vistas de negocios temporales, las cuales son automáticamente eliminadas después de su uso, con el fin de maximizar la eficiencia del almacenamiento y reducir el mantenimiento. Almacenar Datos en el Data Warehouse. La solución Visual Warehouse soporta el DB2 Common Server (DB2 Universal Database), el cual se ejecuta en Windows NT, OS/2, AIX, HP-UX, Sun Solaris, y AS/400. Estos productos tienen un código común y son totalmente compatibles con DB2 para MVS tanto en datos como en portabilidad de aplicaciones. Provee tecnología de optimización, la cual actualmente puede reescribir una consulta SQL, con el fin de maximizar su eficiencia y rendimiento. Catálogo de Información.Un catálogo de información ayuda a los usuarios de negocios a encontrar y comprender los datos, para después lanzar aplicaciones que se utilizan y así explotar estos datos. La función de localización es similar al catálogo de tarjetas de una biblioteca que ayuda a las personas a encontrar libros. Su principal beneficio es una reducción dramática del tiempo de búsqueda utilizado para encontrar información..La información almacenada en el catálogo de información es llamada metadatos o “datos acerca de los datos”. Visual Warehouse es una solución orientada a los metadatos. El componente de catálogo de información, llamado DataGuide, ofrece una interface gráfica y capacidades extensivas de revisión, búsqueda y profundización (“drill down”). Los metadatos de las vistas de negocio (o business view) relativos a agregaciones, historias, derivaciones, fuentes de datos y descripciones pueden ser vistas por el usuario final a través de DataGuide. Mostrar, Analizar y Descubrir.Visual Warehouse soporta una gran variedad de herramientas de usuario final para soporte a la toma de decisiones. Cualquier herramienta de usuario final que soporte ODBC trabajará con Visual Warehouse, esto incluye Windows, DOS, OS/2, Macintosh y clientes UNIX. La herramienta incluida en la solución de Visual Warehouse es la de Lotus Approach, en adición, las herramientas de soporte a la toma de decisiones de Business Objects como de Cognos, se consideran como una alternativa valiosa en la solución total de esta propuesta. Automatización y Administración. Una vez que el ambiente de Data Warehouse ha sido establecido, la transformación de los datos y su almacenamiento en el Data Warehouse ocurre en forma automática. Esto puede ser en un momento predefinido, o de acuerdo a la demanda en cualquier momento. Si una transformación programada encuentra un problema (por ejemplo, una red o la base de datos no está disponible), Visual Warehouse automáticamente reintentará la transformación. Soporta también funciones de monitoreo y de administración. Se conservan registros de movimientos (logs) y estadísticas respecto a la obtención y captura de datos para asistir tanto en la determinación de problemas como en el afinamiento de rendimiento. Se provee también mecanismos de seguridad, en adición a la del sistema operativo y a la de la base de datos.

28 Herramienta OLAP Herramienta para análisis multidimensional.
Empaqueta datos en estructuras multidimensionales llamadas Power Cubes Además es una herramienta OLAP dinámica sobre el WEB.

29 Herramienta de Consultas y Reportes
Respuesta empresarial para consultas y reportes además del WEB. Presenta información de la forma que administradores miran su negocio, no la forma como la base de datos esta estructurada. Brinda facilidad y rapidez a los usuarios para crear rápida y fácilmente alguna consulta y reporte

30 Conclusiones Las empresas generan y recopilan grandes cantidades de información, el desafío consiste en aprovechar el valor de dicha información y usar los patrones y las tendencias en su uso, para obtener nuevos conocimientos. Actualmente organizaciones de distintos tamaños y diversos sectores están descubriendo que pueden obtener ventajas para sus empresas utilizando un Data Warehouse. Un Data Warehouse ofrece la base para técnicas eficaces de análisis y toma de decisiones, tan importantes en el entorno competitivo de nuestra época.

31 Conclusiones La información en un sistema operacional se encuentra detallada registro por registro, mientras que la información en un Data Warehouse esta resumida, transformada, depurada y lista para la toma de decisiones. Con la construcción de un Data Warehouse los ejecutivos descubren que requieren información más precisa y rápida que antes.

32 Recomendaciones Petrocomercial debe continuar con el Proyecto de Data Warehouse. Renovación de la infraestructura de hardware. Proyecto de Minería de Datos. Difusión del Proyecto de Data Warehouse al resto de Filiales y a Petroecuador.

33 Muchas Gracias por su Atención


Descargar ppt "“Diseño de un Data Mart para la Unidad de Programación y Abastecimiento de Hidrocarburos de Petrocomercial, Filial de Petroecuador”. Clientes deslumbrados."

Presentaciones similares


Anuncios Google