La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Bases de datos Estadísticas

Presentaciones similares


Presentación del tema: "Bases de datos Estadísticas"— Transcripción de la presentación:

1 Bases de datos Estadísticas
Es aquella que permite consultas que proporcionen información general (Por ej. sumas, promedios, etc), pero no consultas que proporcionen información individual. Ej: Cual es el salario promedio de los programadores ? (sería permitido) Cual es el salario del programador X ? (No sería permitido) UNLP - Facultad de Informática IBD

2 Nuevas Aplicaciones en BD
Hasta ahora Modelos de datos con: Uniformidad de datos (estructura y tamaño) Orientación de Registros (long. Fija) Elementos de datos de tamaño pequeño Campos atómicos (1 FN) Nuevas características que debemos reflejar: CAD, CASE, BD multimediales, Hipertextos,… Se Necesita: Tipos de datos complejos Encapsulamiento de datos y TAD Nuevos métodos de Indexación y consulta Los elementos de datos de pequeño tamaño tiene que ver con la no utilización en mayor medida de los elementos multimediales: imágenes, sonido, video. UNLP - Facultad de Informática IBD

3 Nuevas Aplicaciones Aplicaciones nuevas
Sistemas de ayuda a las decisiones Data Marts Data Warehouse Data Mining Bases de datos espaciales (GIS) Bases de datos multimedia UNLP - Facultad de Informática IBD

4 Nuevas Aplicaciones Aplicaciones nuevas
Bases de datos portátiles: BD de la nueva generación de sistemas informáticos portátiles, como las computadoras portátiles, conectadas a las estaciones base mediante redes de comunicaciones digitales de radio. La capacidad de almacenamiento es limitada y necesitan operar mientras esten desconectadas de la red. Recuperación de la información: en paralelo con el crecimiento de Sistemas de BD, los SI han crecido también. Este aspecto tiene que ver básicamente con la recuperación de información textual (tipo ISIS ->utiliza BD textuales) Recuperación de la información distribuida (utilizando internet) UNLP - Facultad de Informática IBD

5 GIS (Sistemas de Información Geográfica)
GIS: se emplean para recoger, modelar, almacenar y analizar información que describe las propiedades físicas del mundo geográfico. Abarca dos tipos de datos Datos espaciales (mapas, imágenes digitales, “fronteras”, carreteras, etc.) Datos no espaciales (censos, datos económicos, etc.) UNLP - Facultad de Informática IBD

6 GIS (Sistemas de Información Geográfica)
Tres categorías de GIS: Aplicaciones cartográficas Ej: riego, análisis del rendimiento de cosechas, planificación y gestión de instalaciones, estudios del paisaje, análisis de estructura de tráfico. Aplicaciones de modelado digital de terrenos EJ: evaluación de ingeniería civil y militar, análisis de suelo, control de inundaciones, etc. Aplicaciones de objetos geográficos. Sistemas de navegación , análisis del mercado geográfico, análisis económico de productos y servicios para el consumidor. UNLP - Facultad de Informática IBD

7 Bases de Datos Multimedia
Almacenan datos de imágenes, sonido y video La BD debe permitir objetos grandes, dado que los videos pueden ocupar Gb En ciertas aplicaciones, se requiere recuperación basada en la semejanza Ej: en una BD que almacene huellas dactilares se proporcione la imagen de una huella digital para consulta y se deban recuperar las huellas parecidas. (no utiliza los índices tradicionales) La recuperación de algunos tipos de datos (ej: sonido y video  datos de medios continuos) debe ser a velocidad constante UNLP - Facultad de Informática IBD

8 Sist.de ayuda a las decisiones
Data warehouse: (almacén, repositorio de datos) Una BD que contiene los datos históricos producidos por los sistemas informáticos de las empresas Son datos administrados que están situados fuera y después de los sistemas operacionales. UNLP - Facultad de Informática IBD

9 Warehousing DW: un tema de negocios
Se remite al adecuado manejo de la información histórica generada por una organización, a fin que esta pueda otorgarle a sus ejecutivos las herramientas adecuadas para el proceso de toma de decisiones DW: un tema de negocios Cuando las necesidades del mercado y los progresos tecnológicos convergen, se dan los cambios más importantes en las prácticas de negocio. UNLP - Facultad de Informática IBD

10 Warehousing Antecedentes Casos que se presentan
Evolución de las clases de aplicaciones en las organizaciones Evolución de la tecnología de software y hardware Cambios en la naturaleza de los negocios (globalización) Casos que se presentan Tenemos montañas de datos pero no tenemos acceso a ellos Todos saben que algunos datos no son confiables Solo mostrar lo que es importante. Nada enloquece más a los gerentes que dos personas presentando el mismo resultado de negocios pero con número distintos. Respecto del segundo punto se puede comentar las diferentes velocidades y capacidades que hacen que se puedan tener sistemas con mayor cantidad de datos (DR más grandes) y sumado a eso mayor velocidad en el procesamiento, lo que hace que el volumen de datos no asuste. UNLP - Facultad de Informática IBD

11 Warehousing Objetivos
Brindar acceso a los datos (eficiente, fácil, consistente, confiable) Brindar soporte a la toma de decisiones, por ejemplo permitiendo realizar predicciones de operaciones futuras de un modo racional Encontrar relaciones entre los datos producidos por diferentes áreas, determinando patrones que permitan predecir futuros sucesos Identificar nuevas oportunidades de negocio Monitorear las operaciones actuales de negocio y compararlas con las operaciones efectuadas previamente UNLP - Facultad de Informática IBD

12 Warehousing Aumento de la productividad Posibilidad de separar y combinar los datos por medio de toda posible medida en el negocio. Por ejemplo para análisis del problema en términos de dimensiones. Reducción de los costos de gestión de información. Si el DW no logra transformar los datos en información, para hacerla accesible a los usuarios en un tiempo lo suficientemente rápido como para marcar una diferencia, no sirve UNLP - Facultad de Informática IBD

13 Warehousing Mundo operacional. Transacciónal Mundo analítico DW
En cuanto a objetivos Mantenienen la empresa en operación. ABMC. Diseño de BD y procesos. Brindan lo necesario para el planeamiento y toma de decisiones. Solo modelo de datos En cuanto a requisitos Necesidad de performance Necesidad de flexibilidad y alcance amplio En cuanto a datos almacenados Son para propósito operacional Datos volátiles, se modifican Contienen datos de períodos acotados de tiempo por cuestiones de performance Los datos están encriptados por restricciones del lenguaje o BD (normalizaciones) Son para propósito analítico Datos no volátiles Pueden mantenerse por tiempo indefinido. NO implica más costo Los datos se hallan expresados en términos simples de negocio UNLP - Facultad de Informática IBD

14 Warehousing Mundo operac. transaccional Mundo analítico. DW
En cuanto a los datos que almacenan Los datos giran alrededor de aplicaciones y procesos No siempre están integrados (aunque deberían) Los datos deberían estar normalizados Generalmente no hay necesidad de hacer referencia al tiempo en las estructuras claves Los datos giran alrededor de los sujetos de la empresa Están fuertemente integrados para que el análisis tenga sentido Los datos pueden no estar normalizados, es conveniente Toda estructura clave contiene un elemento de tiempo. Puede tener datos externos (mercado, tendencia) En cuanto a operaciones/ transacciones Las transacciones están predefinidas. Tienen uso habitual Operaciones: ABM Queries tradicionales SQL Transacciones difíciles de predecir, nunca se sabe que se pedirá Operaciones: carga inicial y acceso a datos (no modificaciones) Análisis multimedial para consultas UNLP - Facultad de Informática IBD

15 Warehousing Algunas definiciones
Es un ambiente estructurado y extensible diseñado para el análisis de datos no volátiles, transformados lógica y físicamente desde varias aplicaciones fuentes para alinearse con la estructura de negocio, actualizado y mantenido por un período de tiempo largo, expresado en términos de negocio simples y resumido para un análisis rápido. Es una colección de datos orientada a sujetos, integrada, variante en el tiempo, no volátil para soportar el proceso de toma de decisiones. Es un proceso y no un producto. Es una técnica de ensamblar y gestionar adecuadamente los datos procedentes de distintas fuentes con el objeto de tener una visión única de los mismos para toda la empresa. UNLP - Facultad de Informática IBD

16 Warehousing Componentes
BD de datos fuentes (producción) BD con datos resumidos (DW) Interfases de acceso (consultas, reportes, análisis multidimensional, Data Mining) Elementos que participan en la construcción de un DW Recursos Humanos Metodología de trabajo Herramientas de Hardware y software Infraestructura de la organización en general UNLP - Facultad de Informática IBD

17 Warehousing Etapas de diseño de un DW Análisis
Diseño del modelo de datos Selección y extracción de datos Limpieza y Transformación Creación de los Metadatos Carga Actualización UNLP - Facultad de Informática IBD

18 Warehousing Análisis Diseño del modelo de datos
Necesidades (claras, sin ambiguedades) de la organización que justifican la creación Áreas involucradas y el personal interniviente Evaluación de herramientas y arquitectura tecnológica Diseño del modelo de datos Cada area puede manipular la información de manera diferente y con equipamiento diferente Se deben compatibilizar los modelos de cada area Generación de la estructura que sirva como modelo de datos UNLP - Facultad de Informática IBD

19 Warehousing Selección y extracción de datos Limpieza y transformación
Información transaccional (indica operatividad)  no se incluye Actualización de datos vs. extracción Performance cae si se compite con transacciones en línea Creación de vistas (espacio adicional vs. mejor tiempo de acceso) Limpieza y transformación Calidad de datos de fuentes diferentes  se realiza un muestreo de verificación Técnicas de limpieza (errores inherentes en los sistemas se “limpian” al transformar, errores de validación de dominios, tipeos incorrectos difíciles de detectar y corregir) UNLP - Facultad de Informática IBD

20 Warehousing Creación de metadatos
Data scrubbing: proceso de filtrado, decodificación y traducción de datos fuentes para crear datos validados Homogeneizar tipos de datos Valores por defecto inteligentes Períodos de tiempo completos. Creación de metadatos Proveen información sobre los datos a almacenar en el DW Incluyen dominios, reglas de validación, de derivación. UNLP - Facultad de Informática IBD

21 Warehousing Carga Actualización
Preprocesamiento adicional (chequeos de restricciones de integridad, clasificaciones, etc) Se agregan Checkpoints (ante una falla, se comienza desde el último checkpoint) Debido a la cant. de info a tranferir se debería poder paralelizar la carga. Actualización Establecer la periodicidad Cumplimiento de etapas definidas con los nuevos datos a agregar al DW UNLP - Facultad de Informática IBD

22 Warehousing Data Marts
Satisfacen necesidades específicas de un área. Pueden ser un subconjunto de un DW. Pueden cohexistir varios DM dentro de una empresa, cada área de la misma puede tener uno. UNLP - Facultad de Informática IBD

23 Warehousing Data Marts Data Warehouse Enfocado a una sola área
Contiene información de toda la organización Menor Costo Mayor costo Pueden existir más de un DM Existe sólo uno en toda la organización Fácil de entender y acceder Más complejo Mejor tiempo de acceso y respuesta Menor performance A mayor nro. de DM, administración más costosa Administración más eficiente Peligro de crear “islas” difíciles de integrar Integrado por naturaleza Peligro de duplicación de datos en varios DM No existe duplicación de datos UNLP - Facultad de Informática IBD

24 Data Mining (Minería de Datos)
Existe una gran acumulación de datos. La tendencia es seguir acumulando datos y en forma creciente: Desarrollo masivo de Sistemas de altos Volúmenes de Transacciones. Concepto de Información Corporativa: “Activo Corporativo”. Imposibilidad de procesamiento manual de los datos. Grandes Fuentes de datos: BD Científicas, DW, Internet UNLP - Facultad de Informática IBD

25 Data Mining (Minería de Datos)
La tecnología actual facilita la recolección y acumulación de datos. El análisis tiende a ser lento y costoso. Existe la sospecha que puede haber “vetas” de información útil, oculta en las masas de datos, sin analizar o poco analizados UNLP - Facultad de Informática IBD

26 Data Mining (minería de datos)
Extracción no trivial de información implícita previamente desconocida y potencialmente útil de la BD Es la a exploración y análisis por medios automáticos o semiautomáticos, de grandes cantidades de datos con el fin de descubrir reglas y patrones significativos Los datos ocultan desviaciones, tendencias, anomalías, que se descubren con: Reglas de inducción Redes neuronales, etc. UNLP - Facultad de Informática IBD

27 Data Mining (minería de datos)
Porqué Data Mining ahora ? Los datos están y más se están produciendo. Los datos se están almacenando. Existe la potencia computacional. Hay una fuerte presión competitiva. Existen productos de software de DM disponibles comercialmente. KDD (Knowledge Discovery in Databases)  otro nombre para DM UNLP - Facultad de Informática IBD

28 Data Mining (minería de datos)
Importancia de Data Mining Aplicaciones exitosas en diversas áreas: Marketing Planeamiento financiero Detección y Prevención de Fraudes Científicas: Astronomía, Biología Molecular, etc. UNLP - Facultad de Informática IBD

29 Data Mining (minería de datos)
Objetivos de MdD Predicción Puede mostrar el modo en el que actuarán en el futuro ciertos atributos dentro de los datos. Identificación Los patrones de datos pueden utilizarse para identificar la existencia de un artículo, evento o actividad Clasificación Puede dividir los datos de modo que diferentes clases o categorías puedan ser identificadas basándose en combinaciones de parámetros. Optimización la utilización de recursos limitados como el tiempo, espacio, dinero o materiales y maximizar las variables de salida UNLP - Facultad de Informática IBD

30 Data Mining (minería de datos)
El proceso de KDD Comprender el dominio Preparar las BDs Descrubir patrones (Data Mining) Postprocesar los patrones descubiertos Disponer los resultados para su uso UNLP - Facultad de Informática IBD

31 Data Mining (minería de datos)
Tipos de conocimiento descubierto durante MdD: Reglas de asociación Correlación entre la presencia de un conjunto de elementos con otro rango de valores para otro conjunto de de variables. EJ: si compra zapatos, puede comprarse cartera Jerarquías de clasificación Partir de un conjunto de eventos existentes para crear una jerarquía de clases. Ej: una población puede dividirse en cinco niveles de mérito. Patrones secuenciales Persigue una secuencia de acciones o eventos. Ej: patrones de ocurrencia de eventos vinculados, donde uno determina al otro. Patrones en serie de tiempo Detectar similitudes en las posiciones de serie de tiempo. Categorización y segmentación Un conjunto de eventos puede ser segmentado en grupos de elementos similares. Ej: serie de datos sobre enfermedades puede dividirse en grupos basados en similitud de efectos secundarios. UNLP - Facultad de Informática IBD

32 Warehousing Ventajas Ayuda a soportar el proceso de toma de decisiones
Identificación de nuevas oportunidades en el mercado Estructuras coorporativas flexibles: distintos departamentos en una organización comparten la misma información Generación de informes críticos sin costo de tiempo Formato de datos consistente Servir de plataforma efectiva de mezclado de datos desde varias aplicaciones corrientes Posibilidad de encontrar respuestas más rápidas y más eficientes a las necesidades del momento Reducción de costos globales para la organización UNLP - Facultad de Informática IBD

33 Warehousing Conclusiones
La necesidad de sistemas de información que permitan generar consultas, reportes y análisis para la toma de decisiones es cada día más apremiante para las empresas que quieren competir exitosamente en el mercado. La implantación de un DW surge como la solución a las necesidades antes mencionadas No siempre en las organizaciones existe una conciencia real de la potencialidad que tienen encubierta en los datos transaccionales generados cotidianamente. Se debe tener en cuenta que un DW no es un producto que se compra, debe ser planificado cuidadosamente de acuerdo a cada organización y construido a tal efecto UNLP - Facultad de Informática IBD

34 Warehousing Las organizaciones de tecnlogía informática pueden o no tener todas las cualidades técnicas necesarias, pero no implementarán un proyecto de DW exitoso sin que logren que la unidad de negocios se involucre. Cuando se diseña un DW hay que tener en claro que se está conviertiendo la información generada en forma cotidiana en conocimiento para la organización. Pensar en un DW como una simple liberación de los datos corporativos sería un error. El valor real de un DW recién se descubre cuando lo utiliza alguien que puede encontrar detalles importantes en los datos y marcar las diferencias. UNLP - Facultad de Informática IBD


Descargar ppt "Bases de datos Estadísticas"

Presentaciones similares


Anuncios Google