Bases de datos Estadísticas

Slides:



Advertisements
Presentaciones similares
SISTEMAS DE INFORMACIÓN EN LAS ORGANIZACIONES
Advertisements

Bases De Datos Para El Soporte En La Toma De Decisiones
ORACLE OLAP Integrantes: *Aizaga, Martiniano *Gallegos, Marina
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
Conceptos generales metodología levantamiento de procesos
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Que es un plc.
ADMINISTRACIÓN DE TECNOLOGIAS DE INFORMACIÓN Y COMUNICACIÓN
Informe caso de estudio Implementación de un Datawarehouse
Jesús Angel Ovando División de Estudios de Posgrado Instituto Tecnológico de Orizaba.
On Line Analytical Processing
1.1.2 Sistemas de información para la gestión y para la ayuda en la toma de decisiones. Los SI contribuyen activamente a la consecución de los objetivos.
DATA WAREHOUSE Joseba Gil Noelia Suaña. ÍNDICE 1. Introducción. 2. ¿Qué es Data Warehouse? 3. Arquitectura. 4. Ventajas/Inconvenientes.
Características de un Data Warehouse
INTELIGENCIA DE NEGOCIOS
UNIDAD I Conceptos Básicos.
Se viven nuevos escenarios
“Especificación de Requerimientos”
Bases de Datos II OLAP Online Analytical Processing
DATA MART Los data warehouses están hechos para proporcionar una fuente de datos única para todas las actividades de apoyo para la toma de decisiones.
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Implementación de Datawarehouse
Sistemas de Información IS95872
Bases de Datos Relacionales.  Responsable Cátedra: Silvina Migani  JTP: Liliana Romera  Ayudante:
Introducción A Las Bases De Datos
DATA WAREHOUSE Equipo 9.
EVOLUCION DE SISTEMAS DE SOPORTE DE DECISIÓN. La evolución  1960: creación de aplicaciones individuales- Fortran, COBOL – Tarjetas perforadas.  Cintas.
LA IMPORTANCIA DE LAS PyMEs
DATA WAREHOUSE PREPARADO POR : María Alejandra Franco Lina María Arias.
Por favor dar doble Click al siguiente Video
Desarrollo de aplicaciones para ambientes distribuidos
Página 1 20/03/2005 Materia: Tecnología de la Información Curso: Profesora Ariana Rosenthal Tecnología de la Información Profesora Ariana Rosenthal Administración.
Introducción a la investigación de mercados Naresh malhotra
SISTEMAS DE INFORMACION GEOGRAFICA. LOS SIG DEFINICION DEFINICION Un SIG se define como un conjunto de métodos, herramientas y datos que están diseñados.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE
“Introducción a las Ciencias de la Informática”
Business Intelligence. ¿Por qué Business Intelligence?  a capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido en una.
FUNDAMENTOS DE MARKETING
BUSINESS INTELIGENCE. ¿PORQUE BUSINESS INTELLIGECE  La capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido en una.
SEGMENTACION DE MERCADOS
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Diseño de Sistemas.
Business Intelligence. ¿Por qué Business Intelligence? La capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido en una.
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
ARQUICTECTURA DE SERVIDORES
Business Intelligence. ¿Por qué Business Intelligence? La capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido en una.
Son los atributos de un sistema que son visibles para un programador, es decir aquellos atributos que impactan directamente en la ejecución lógica de un.
Análisis y Diseño de Aplicaciones
 La capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido en una de las claves para que una empresa llegue al éxito.
Tecnologías Cliente / Servidor Capitulo II Richard Jiménez V. clienteserver.wordpress.com.
Introducción al Data Warehouse
Ingeniería en Informática F UNDAMENTOS DE C OMPUTACIÓN B ACHILLERATO EN I NGENIERÍA I NFORMÁTICA L IC. C ARLOS H. G UTIÉRREZ L EÓN.
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
SISTEMAS DE INFORMACION ORGANIZACIONAL
BUSINESS INTELIGENCE. ¿P OR QUÉ B USINESS I NTELLIGENCE ?  La capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido.
DATA WAREHOUSE.
SOLUCIONES EMPRESARIALES
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
VI. EVALUACIÓN DE LOS RECURSOS
Planificación de Sistemas de Información
Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.
BUSINESS INTELIGENCE. La capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido en una de las claves para que una empresa.
SISTEMAS DE INFORMACIÓN GERENCIAL (S.I.G.) UNIVERSIDAD FERMIN TORO UNIVERSIDAD FERMIN TORO MAESTRÍA DE GERENCIA EMPRESARIAL SITEMAS DE INFORMACION GERENCIAL.
TECNOLOGIAS DE LA INFORMACION EN LAS ORGANIZACIONES
BASES DE DATOS CONCEPTOS BASICOS Elizabeth Maite Zarate Machaca “El tratamiento eficiente de la información al servicio del usuario”
Es el proceso mediante el cual quienes toman decisiones en una organización obtienen, procesan y analizan información pertinente, interna y externa,
VERIFICACIÓN Y VALIDACIÓN DE SISTEMAS 3.10 Fase de manejo de requerimientos 4.1 Modelado de pruebas en UML Ponente: ing. Alejandro tapia vazquez.
SISTEMAS DE INFORMACION GEOGRAFICA (SIG) Néstor Acosta Rodríguez Código: 7137.
Transcripción de la presentación:

Bases de datos Estadísticas Es aquella que permite consultas que proporcionen información general (Por ej. sumas, promedios, etc), pero no consultas que proporcionen información individual. Ej: Cual es el salario promedio de los programadores ? (sería permitido) Cual es el salario del programador X ? (No sería permitido) UNLP - Facultad de Informática IBD

Nuevas Aplicaciones en BD Hasta ahora Modelos de datos con: Uniformidad de datos (estructura y tamaño) Orientación de Registros (long. Fija) Elementos de datos de tamaño pequeño Campos atómicos (1 FN) Nuevas características que debemos reflejar: CAD, CASE, BD multimediales, Hipertextos,… Se Necesita: Tipos de datos complejos Encapsulamiento de datos y TAD Nuevos métodos de Indexación y consulta Los elementos de datos de pequeño tamaño tiene que ver con la no utilización en mayor medida de los elementos multimediales: imágenes, sonido, video. UNLP - Facultad de Informática IBD

Nuevas Aplicaciones Aplicaciones nuevas Sistemas de ayuda a las decisiones Data Marts Data Warehouse Data Mining Bases de datos espaciales (GIS) Bases de datos multimedia UNLP - Facultad de Informática IBD

Nuevas Aplicaciones Aplicaciones nuevas Bases de datos portátiles: BD de la nueva generación de sistemas informáticos portátiles, como las computadoras portátiles, conectadas a las estaciones base mediante redes de comunicaciones digitales de radio. La capacidad de almacenamiento es limitada y necesitan operar mientras esten desconectadas de la red. Recuperación de la información: en paralelo con el crecimiento de Sistemas de BD, los SI han crecido también. Este aspecto tiene que ver básicamente con la recuperación de información textual (tipo ISIS ->utiliza BD textuales) Recuperación de la información distribuida (utilizando internet) UNLP - Facultad de Informática IBD

GIS (Sistemas de Información Geográfica) GIS: se emplean para recoger, modelar, almacenar y analizar información que describe las propiedades físicas del mundo geográfico. Abarca dos tipos de datos Datos espaciales (mapas, imágenes digitales, “fronteras”, carreteras, etc.) Datos no espaciales (censos, datos económicos, etc.) UNLP - Facultad de Informática IBD

GIS (Sistemas de Información Geográfica) Tres categorías de GIS: Aplicaciones cartográficas Ej: riego, análisis del rendimiento de cosechas, planificación y gestión de instalaciones, estudios del paisaje, análisis de estructura de tráfico. Aplicaciones de modelado digital de terrenos EJ: evaluación de ingeniería civil y militar, análisis de suelo, control de inundaciones, etc. Aplicaciones de objetos geográficos. Sistemas de navegación , análisis del mercado geográfico, análisis económico de productos y servicios para el consumidor. UNLP - Facultad de Informática IBD

Bases de Datos Multimedia Almacenan datos de imágenes, sonido y video La BD debe permitir objetos grandes, dado que los videos pueden ocupar Gb En ciertas aplicaciones, se requiere recuperación basada en la semejanza Ej: en una BD que almacene huellas dactilares se proporcione la imagen de una huella digital para consulta y se deban recuperar las huellas parecidas. (no utiliza los índices tradicionales) La recuperación de algunos tipos de datos (ej: sonido y video  datos de medios continuos) debe ser a velocidad constante UNLP - Facultad de Informática IBD

Sist.de ayuda a las decisiones Data warehouse: (almacén, repositorio de datos) Una BD que contiene los datos históricos producidos por los sistemas informáticos de las empresas Son datos administrados que están situados fuera y después de los sistemas operacionales. UNLP - Facultad de Informática IBD

Warehousing DW: un tema de negocios Se remite al adecuado manejo de la información histórica generada por una organización, a fin que esta pueda otorgarle a sus ejecutivos las herramientas adecuadas para el proceso de toma de decisiones DW: un tema de negocios Cuando las necesidades del mercado y los progresos tecnológicos convergen, se dan los cambios más importantes en las prácticas de negocio. UNLP - Facultad de Informática IBD

Warehousing Antecedentes Casos que se presentan Evolución de las clases de aplicaciones en las organizaciones Evolución de la tecnología de software y hardware Cambios en la naturaleza de los negocios (globalización) Casos que se presentan Tenemos montañas de datos pero no tenemos acceso a ellos Todos saben que algunos datos no son confiables Solo mostrar lo que es importante. Nada enloquece más a los gerentes que dos personas presentando el mismo resultado de negocios pero con número distintos. Respecto del segundo punto se puede comentar las diferentes velocidades y capacidades que hacen que se puedan tener sistemas con mayor cantidad de datos (DR más grandes) y sumado a eso mayor velocidad en el procesamiento, lo que hace que el volumen de datos no asuste. UNLP - Facultad de Informática IBD

Warehousing Objetivos Brindar acceso a los datos (eficiente, fácil, consistente, confiable) Brindar soporte a la toma de decisiones, por ejemplo permitiendo realizar predicciones de operaciones futuras de un modo racional Encontrar relaciones entre los datos producidos por diferentes áreas, determinando patrones que permitan predecir futuros sucesos Identificar nuevas oportunidades de negocio Monitorear las operaciones actuales de negocio y compararlas con las operaciones efectuadas previamente UNLP - Facultad de Informática IBD

Warehousing Aumento de la productividad Posibilidad de separar y combinar los datos por medio de toda posible medida en el negocio. Por ejemplo para análisis del problema en términos de dimensiones. Reducción de los costos de gestión de información. Si el DW no logra transformar los datos en información, para hacerla accesible a los usuarios en un tiempo lo suficientemente rápido como para marcar una diferencia, no sirve UNLP - Facultad de Informática IBD

Warehousing Mundo operacional. Transacciónal Mundo analítico DW En cuanto a objetivos Mantenienen la empresa en operación. ABMC. Diseño de BD y procesos. Brindan lo necesario para el planeamiento y toma de decisiones. Solo modelo de datos En cuanto a requisitos Necesidad de performance Necesidad de flexibilidad y alcance amplio En cuanto a datos almacenados Son para propósito operacional Datos volátiles, se modifican Contienen datos de períodos acotados de tiempo por cuestiones de performance Los datos están encriptados por restricciones del lenguaje o BD (normalizaciones) Son para propósito analítico Datos no volátiles Pueden mantenerse por tiempo indefinido. NO implica más costo Los datos se hallan expresados en términos simples de negocio UNLP - Facultad de Informática IBD

Warehousing Mundo operac. transaccional Mundo analítico. DW En cuanto a los datos que almacenan Los datos giran alrededor de aplicaciones y procesos No siempre están integrados (aunque deberían) Los datos deberían estar normalizados Generalmente no hay necesidad de hacer referencia al tiempo en las estructuras claves Los datos giran alrededor de los sujetos de la empresa Están fuertemente integrados para que el análisis tenga sentido Los datos pueden no estar normalizados, es conveniente Toda estructura clave contiene un elemento de tiempo. Puede tener datos externos (mercado, tendencia) En cuanto a operaciones/ transacciones Las transacciones están predefinidas. Tienen uso habitual Operaciones: ABM Queries tradicionales SQL Transacciones difíciles de predecir, nunca se sabe que se pedirá Operaciones: carga inicial y acceso a datos (no modificaciones) Análisis multimedial para consultas UNLP - Facultad de Informática IBD

Warehousing Algunas definiciones Es un ambiente estructurado y extensible diseñado para el análisis de datos no volátiles, transformados lógica y físicamente desde varias aplicaciones fuentes para alinearse con la estructura de negocio, actualizado y mantenido por un período de tiempo largo, expresado en términos de negocio simples y resumido para un análisis rápido. Es una colección de datos orientada a sujetos, integrada, variante en el tiempo, no volátil para soportar el proceso de toma de decisiones. Es un proceso y no un producto. Es una técnica de ensamblar y gestionar adecuadamente los datos procedentes de distintas fuentes con el objeto de tener una visión única de los mismos para toda la empresa. UNLP - Facultad de Informática IBD

Warehousing Componentes BD de datos fuentes (producción) BD con datos resumidos (DW) Interfases de acceso (consultas, reportes, análisis multidimensional, Data Mining) Elementos que participan en la construcción de un DW Recursos Humanos Metodología de trabajo Herramientas de Hardware y software Infraestructura de la organización en general UNLP - Facultad de Informática IBD

Warehousing Etapas de diseño de un DW Análisis Diseño del modelo de datos Selección y extracción de datos Limpieza y Transformación Creación de los Metadatos Carga Actualización UNLP - Facultad de Informática IBD

Warehousing Análisis Diseño del modelo de datos Necesidades (claras, sin ambiguedades) de la organización que justifican la creación Áreas involucradas y el personal interniviente Evaluación de herramientas y arquitectura tecnológica Diseño del modelo de datos Cada area puede manipular la información de manera diferente y con equipamiento diferente Se deben compatibilizar los modelos de cada area Generación de la estructura que sirva como modelo de datos UNLP - Facultad de Informática IBD

Warehousing Selección y extracción de datos Limpieza y transformación Información transaccional (indica operatividad)  no se incluye Actualización de datos vs. extracción Performance cae si se compite con transacciones en línea Creación de vistas (espacio adicional vs. mejor tiempo de acceso) Limpieza y transformación Calidad de datos de fuentes diferentes  se realiza un muestreo de verificación Técnicas de limpieza (errores inherentes en los sistemas se “limpian” al transformar, errores de validación de dominios, tipeos incorrectos difíciles de detectar y corregir) UNLP - Facultad de Informática IBD

Warehousing Creación de metadatos Data scrubbing: proceso de filtrado, decodificación y traducción de datos fuentes para crear datos validados Homogeneizar tipos de datos Valores por defecto inteligentes Períodos de tiempo completos. Creación de metadatos Proveen información sobre los datos a almacenar en el DW Incluyen dominios, reglas de validación, de derivación. UNLP - Facultad de Informática IBD

Warehousing Carga Actualización Preprocesamiento adicional (chequeos de restricciones de integridad, clasificaciones, etc) Se agregan Checkpoints (ante una falla, se comienza desde el último checkpoint) Debido a la cant. de info a tranferir se debería poder paralelizar la carga. Actualización Establecer la periodicidad Cumplimiento de etapas definidas con los nuevos datos a agregar al DW UNLP - Facultad de Informática IBD

Warehousing Data Marts Satisfacen necesidades específicas de un área. Pueden ser un subconjunto de un DW. Pueden cohexistir varios DM dentro de una empresa, cada área de la misma puede tener uno. UNLP - Facultad de Informática IBD

Warehousing Data Marts Data Warehouse Enfocado a una sola área Contiene información de toda la organización Menor Costo Mayor costo Pueden existir más de un DM Existe sólo uno en toda la organización Fácil de entender y acceder Más complejo Mejor tiempo de acceso y respuesta Menor performance A mayor nro. de DM, administración más costosa Administración más eficiente Peligro de crear “islas” difíciles de integrar Integrado por naturaleza Peligro de duplicación de datos en varios DM No existe duplicación de datos UNLP - Facultad de Informática IBD

Data Mining (Minería de Datos) Existe una gran acumulación de datos. La tendencia es seguir acumulando datos y en forma creciente: Desarrollo masivo de Sistemas de altos Volúmenes de Transacciones. Concepto de Información Corporativa: “Activo Corporativo”. Imposibilidad de procesamiento manual de los datos. Grandes Fuentes de datos: BD Científicas, DW, Internet UNLP - Facultad de Informática IBD

Data Mining (Minería de Datos) La tecnología actual facilita la recolección y acumulación de datos. El análisis tiende a ser lento y costoso. Existe la sospecha que puede haber “vetas” de información útil, oculta en las masas de datos, sin analizar o poco analizados UNLP - Facultad de Informática IBD

Data Mining (minería de datos) Extracción no trivial de información implícita previamente desconocida y potencialmente útil de la BD Es la a exploración y análisis por medios automáticos o semiautomáticos, de grandes cantidades de datos con el fin de descubrir reglas y patrones significativos Los datos ocultan desviaciones, tendencias, anomalías, que se descubren con: Reglas de inducción Redes neuronales, etc. UNLP - Facultad de Informática IBD

Data Mining (minería de datos) Porqué Data Mining ahora ? Los datos están y más se están produciendo. Los datos se están almacenando. Existe la potencia computacional. Hay una fuerte presión competitiva. Existen productos de software de DM disponibles comercialmente. KDD (Knowledge Discovery in Databases)  otro nombre para DM UNLP - Facultad de Informática IBD

Data Mining (minería de datos) Importancia de Data Mining Aplicaciones exitosas en diversas áreas: Marketing Planeamiento financiero Detección y Prevención de Fraudes Científicas: Astronomía, Biología Molecular, etc. UNLP - Facultad de Informática IBD

Data Mining (minería de datos) Objetivos de MdD Predicción Puede mostrar el modo en el que actuarán en el futuro ciertos atributos dentro de los datos. Identificación Los patrones de datos pueden utilizarse para identificar la existencia de un artículo, evento o actividad Clasificación Puede dividir los datos de modo que diferentes clases o categorías puedan ser identificadas basándose en combinaciones de parámetros. Optimización la utilización de recursos limitados como el tiempo, espacio, dinero o materiales y maximizar las variables de salida UNLP - Facultad de Informática IBD

Data Mining (minería de datos) El proceso de KDD Comprender el dominio Preparar las BDs Descrubir patrones (Data Mining) Postprocesar los patrones descubiertos Disponer los resultados para su uso UNLP - Facultad de Informática IBD

Data Mining (minería de datos) Tipos de conocimiento descubierto durante MdD: Reglas de asociación Correlación entre la presencia de un conjunto de elementos con otro rango de valores para otro conjunto de de variables. EJ: si compra zapatos, puede comprarse cartera Jerarquías de clasificación Partir de un conjunto de eventos existentes para crear una jerarquía de clases. Ej: una población puede dividirse en cinco niveles de mérito. Patrones secuenciales Persigue una secuencia de acciones o eventos. Ej: patrones de ocurrencia de eventos vinculados, donde uno determina al otro. Patrones en serie de tiempo Detectar similitudes en las posiciones de serie de tiempo. Categorización y segmentación Un conjunto de eventos puede ser segmentado en grupos de elementos similares. Ej: serie de datos sobre enfermedades puede dividirse en grupos basados en similitud de efectos secundarios. UNLP - Facultad de Informática IBD

Warehousing Ventajas Ayuda a soportar el proceso de toma de decisiones Identificación de nuevas oportunidades en el mercado Estructuras coorporativas flexibles: distintos departamentos en una organización comparten la misma información Generación de informes críticos sin costo de tiempo Formato de datos consistente Servir de plataforma efectiva de mezclado de datos desde varias aplicaciones corrientes Posibilidad de encontrar respuestas más rápidas y más eficientes a las necesidades del momento Reducción de costos globales para la organización UNLP - Facultad de Informática IBD

Warehousing Conclusiones La necesidad de sistemas de información que permitan generar consultas, reportes y análisis para la toma de decisiones es cada día más apremiante para las empresas que quieren competir exitosamente en el mercado. La implantación de un DW surge como la solución a las necesidades antes mencionadas No siempre en las organizaciones existe una conciencia real de la potencialidad que tienen encubierta en los datos transaccionales generados cotidianamente. Se debe tener en cuenta que un DW no es un producto que se compra, debe ser planificado cuidadosamente de acuerdo a cada organización y construido a tal efecto UNLP - Facultad de Informática IBD

Warehousing Las organizaciones de tecnlogía informática pueden o no tener todas las cualidades técnicas necesarias, pero no implementarán un proyecto de DW exitoso sin que logren que la unidad de negocios se involucre. Cuando se diseña un DW hay que tener en claro que se está conviertiendo la información generada en forma cotidiana en conocimiento para la organización. Pensar en un DW como una simple liberación de los datos corporativos sería un error. El valor real de un DW recién se descubre cuando lo utiliza alguien que puede encontrar detalles importantes en los datos y marcar las diferencias. UNLP - Facultad de Informática IBD