La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

UNLP - Facultad de Informática IBD1 Bases de datos Estadísticas Bases de datos estadísticas –Es aquella que permite consultas que proporcionen información.

Presentaciones similares


Presentación del tema: "UNLP - Facultad de Informática IBD1 Bases de datos Estadísticas Bases de datos estadísticas –Es aquella que permite consultas que proporcionen información."— Transcripción de la presentación:

1 UNLP - Facultad de Informática IBD1 Bases de datos Estadísticas Bases de datos estadísticas –Es aquella que permite consultas que proporcionen información general (Por ej. sumas, promedios, etc), pero no consultas que proporcionen información individual. –Ej: Cual es el salario promedio de los programadores ? (sería permitido) –Cual es el salario del programador X ? (No sería permitido)

2 UNLP - Facultad de Informática IBD2 Nuevas Aplicaciones en BD Hasta ahora Modelos de datos con: –Uniformidad de datos (estructura y tamaño) –Orientación de Registros (long. Fija) –Elementos de datos de tamaño pequeño –Campos atómicos (1 FN) Nuevas características que debemos reflejar: CAD, CASE, BD multimediales, Hipertextos,… Se Necesita: –Tipos de datos complejos –Encapsulamiento de datos y TAD –Nuevos métodos de Indexación y consulta

3 UNLP - Facultad de Informática IBD3 Nuevas Aplicaciones Aplicaciones nuevas –Sistemas de ayuda a las decisiones Data Marts Data Warehouse Data Mining –Bases de datos espaciales (GIS) –Bases de datos multimedia

4 UNLP - Facultad de Informática IBD4 Nuevas Aplicaciones Aplicaciones nuevas –Bases de datos portátiles: BD de la nueva generación de sistemas informáticos portátiles, como las computadoras portátiles, conectadas a las estaciones base mediante redes de comunicaciones digitales de radio. La capacidad de almacenamiento es limitada y necesitan operar mientras esten desconectadas de la red. –Recuperación de la información: en paralelo con el crecimiento de Sistemas de BD, los SI han crecido también. Este aspecto tiene que ver básicamente con la recuperación de información textual (tipo ISIS ->utiliza BD textuales) –Recuperación de la información distribuida (utilizando internet)

5 UNLP - Facultad de Informática IBD5 GIS (Sistemas de Información Geográfica) GIS: se emplean para recoger, modelar, almacenar y analizar información que describe las propiedades físicas del mundo geográfico. Abarca dos tipos de datos –Datos espaciales (mapas, imágenes digitales, fronteras, carreteras, etc.) –Datos no espaciales (censos, datos económicos, etc.)

6 UNLP - Facultad de Informática IBD6 GIS (Sistemas de Información Geográfica) Tres categorías de GIS: –Aplicaciones cartográficas Ej: riego, análisis del rendimiento de cosechas, planificación y gestión de instalaciones, estudios del paisaje, análisis de estructura de tráfico. –Aplicaciones de modelado digital de terrenos EJ: evaluación de ingeniería civil y militar, análisis de suelo, control de inundaciones, etc. –Aplicaciones de objetos geográficos. Sistemas de navegación, análisis del mercado geográfico, análisis económico de productos y servicios para el consumidor.

7 UNLP - Facultad de Informática IBD7 Bases de Datos Multimedia Almacenan datos de imágenes, sonido y video La BD debe permitir objetos grandes, dado que los videos pueden ocupar Gb En ciertas aplicaciones, se requiere recuperación basada en la semejanza –Ej: en una BD que almacene huellas dactilares se proporcione la imagen de una huella digital para consulta y se deban recuperar las huellas parecidas. (no utiliza los índices tradicionales) La recuperación de algunos tipos de datos (ej: sonido y video datos de medios continuos) debe ser a velocidad constante

8 UNLP - Facultad de Informática IBD8 Sist.de ayuda a las decisiones Data warehouse: (almacén, repositorio de datos) –Una BD que contiene los datos históricos producidos por los sistemas informáticos de las empresas –Son datos administrados que están situados fuera y después de los sistemas operacionales.

9 UNLP - Facultad de Informática IBD9 Warehousing –Se remite al adecuado manejo de la información histórica generada por una organización, a fin que esta pueda otorgarle a sus ejecutivos las herramientas adecuadas para el proceso de toma de decisiones DW: un tema de negocios –Cuando las necesidades del mercado y los progresos tecnológicos convergen, se dan los cambios más importantes en las prácticas de negocio.

10 UNLP - Facultad de Informática IBD10 Warehousing –Antecedentes Evolución de las clases de aplicaciones en las organizaciones Evolución de la tecnología de software y hardware Cambios en la naturaleza de los negocios (globalización) –Casos que se presentan Tenemos montañas de datos pero no tenemos acceso a ellos Todos saben que algunos datos no son confiables Solo mostrar lo que es importante. Nada enloquece más a los gerentes que dos personas presentando el mismo resultado de negocios pero con número distintos.

11 UNLP - Facultad de Informática IBD11 Warehousing –Objetivos Brindar acceso a los datos (eficiente, fácil, consistente, confiable) Brindar soporte a la toma de decisiones, por ejemplo permitiendo realizar predicciones de operaciones futuras de un modo racional Encontrar relaciones entre los datos producidos por diferentes áreas, determinando patrones que permitan predecir futuros sucesos Identificar nuevas oportunidades de negocio Monitorear las operaciones actuales de negocio y compararlas con las operaciones efectuadas previamente

12 UNLP - Facultad de Informática IBD12 Warehousing Aumento de la productividad Posibilidad de separar y combinar los datos por medio de toda posible medida en el negocio. Por ejemplo para análisis del problema en términos de dimensiones. Reducción de los costos de gestión de información. Si el DW no logra transformar los datos en información, para hacerla accesible a los usuarios en un tiempo lo suficientemente rápido como para marcar una diferencia, no sirve

13 UNLP - Facultad de Informática IBD13 Warehousing Mundo operacional. Transacciónal Mundo analítico DW En cuanto a objetivos Mantenienen la empresa en operación. ABMC. Diseño de BD y procesos. Brindan lo necesario para el planeamiento y toma de decisiones. Solo modelo de datos En cuanto a requisitos Necesidad de performanceNecesidad de flexibilidad y alcance amplio En cuanto a datos almacenados Son para propósito operacional Datos volátiles, se modifican Contienen datos de períodos acotados de tiempo por cuestiones de performance Los datos están encriptados por restricciones del lenguaje o BD (normalizaciones) Son para propósito analítico Datos no volátiles Pueden mantenerse por tiempo indefinido. NO implica más costo Los datos se hallan expresados en términos simples de negocio

14 UNLP - Facultad de Informática IBD14 Warehousing Mundo operac. transaccionalMundo analítico. DW En cuanto a los datos que almacenan Los datos giran alrededor de aplicaciones y procesos No siempre están integrados (aunque deberían) Los datos deberían estar normalizados Generalmente no hay necesidad de hacer referencia al tiempo en las estructuras claves Los datos giran alrededor de los sujetos de la empresa Están fuertemente integrados para que el análisis tenga sentido Los datos pueden no estar normalizados, es conveniente Toda estructura clave contiene un elemento de tiempo. Puede tener datos externos (mercado, tendencia) En cuanto a operaciones/ transacciones Las transacciones están predefinidas. Tienen uso habitual Operaciones: ABM Queries tradicionales SQL Transacciones difíciles de predecir, nunca se sabe que se pedirá Operaciones: carga inicial y acceso a datos (no modificaciones) Análisis multimedial para consultas

15 UNLP - Facultad de Informática IBD15 Warehousing Algunas definiciones –Es un ambiente estructurado y extensible diseñado para el análisis de datos no volátiles, transformados lógica y físicamente desde varias aplicaciones fuentes para alinearse con la estructura de negocio, actualizado y mantenido por un período de tiempo largo, expresado en términos de negocio simples y resumido para un análisis rápido. –Es una colección de datos orientada a sujetos, integrada, variante en el tiempo, no volátil para soportar el proceso de toma de decisiones. –Es un proceso y no un producto. Es una técnica de ensamblar y gestionar adecuadamente los datos procedentes de distintas fuentes con el objeto de tener una visión única de los mismos para toda la empresa.

16 UNLP - Facultad de Informática IBD16 Warehousing Componentes –BD de datos fuentes (producción) –BD con datos resumidos (DW) –Interfases de acceso (consultas, reportes, análisis multidimensional, Data Mining) Elementos que participan en la construcción de un DW –Recursos Humanos –Metodología de trabajo –Herramientas de Hardware y software –Infraestructura de la organización en general

17 UNLP - Facultad de Informática IBD17 Warehousing Etapas de diseño de un DW –Análisis –Diseño del modelo de datos –Selección y extracción de datos –Limpieza y Transformación –Creación de los Metadatos –Carga –Actualización

18 UNLP - Facultad de Informática IBD18 Warehousing –Análisis Necesidades (claras, sin ambiguedades) de la organización que justifican la creación Áreas involucradas y el personal interniviente Evaluación de herramientas y arquitectura tecnológica –Diseño del modelo de datos Cada area puede manipular la información de manera diferente y con equipamiento diferente Se deben compatibilizar los modelos de cada area Generación de la estructura que sirva como modelo de datos

19 UNLP - Facultad de Informática IBD19 Warehousing –Selección y extracción de datos Información transaccional (indica operatividad) no se incluye Actualización de datos vs. extracción Performance cae si se compite con transacciones en línea Creación de vistas (espacio adicional vs. mejor tiempo de acceso) –Limpieza y transformación Calidad de datos de fuentes diferentes se realiza un muestreo de verificación Técnicas de limpieza (errores inherentes en los sistemas se limpian al transformar, errores de validación de dominios, tipeos incorrectos difíciles de detectar y corregir)

20 UNLP - Facultad de Informática IBD20 Warehousing Data scrubbing: proceso de filtrado, decodificación y traducción de datos fuentes para crear datos validados Homogeneizar tipos de datos Valores por defecto inteligentes Períodos de tiempo completos. –Creación de metadatos Proveen información sobre los datos a almacenar en el DW Incluyen dominios, reglas de validación, de derivación.

21 UNLP - Facultad de Informática IBD21 Warehousing –Carga Preprocesamiento adicional (chequeos de restricciones de integridad, clasificaciones, etc) Se agregan Checkpoints (ante una falla, se comienza desde el último checkpoint) Debido a la cant. de info a tranferir se debería poder paralelizar la carga. –Actualización Establecer la periodicidad Cumplimiento de etapas definidas con los nuevos datos a agregar al DW

22 UNLP - Facultad de Informática IBD22 Warehousing Data Marts –Satisfacen necesidades específicas de un área. Pueden ser un subconjunto de un DW. –Pueden cohexistir varios DM dentro de una empresa, cada área de la misma puede tener uno.

23 UNLP - Facultad de Informática IBD23 Warehousing Data Marts Data Warehouse Enfocado a una sola áreaContiene información de toda la organización Menor CostoMayor costo Pueden existir más de un DMExiste sólo uno en toda la organización Fácil de entender y accederMás complejo Mejor tiempo de acceso y respuestaMenor performance A mayor nro. de DM, administración más costosa Administración más eficiente Peligro de crear islas difíciles de integrar Integrado por naturaleza Peligro de duplicación de datos en varios DM No existe duplicación de datos

24 UNLP - Facultad de Informática IBD24 Existe una gran acumulación de datos. La tendencia es seguir acumulando datos y en forma creciente: –Desarrollo masivo de Sistemas de altos Volúmenes de Transacciones. –Concepto de Información Corporativa: Activo Corporativo. Imposibilidad de procesamiento manual de los datos. Grandes Fuentes de datos: BD Científicas, DW, Internet Data Mining (Minería de Datos)

25 UNLP - Facultad de Informática IBD25 La tecnología actual facilita la recolección y acumulación de datos. El análisis tiende a ser lento y costoso. Existe la sospecha que puede haber vetas de información útil, oculta en las masas de datos, sin analizar o poco analizados Data Mining (Minería de Datos)

26 UNLP - Facultad de Informática IBD26 Data Mining (minería de datos) Data Mining –Extracción no trivial de información implícita previamente desconocida y potencialmente útil de la BD –Es la a exploración y análisis por medios automáticos o semiautomáticos, de grandes cantidades de datos con el fin de descubrir reglas y patrones significativos –Los datos ocultan desviaciones, tendencias, anomalías, que se descubren con: Reglas de inducción Redes neuronales, etc.

27 UNLP - Facultad de Informática IBD27 Data Mining (minería de datos) Porqué Data Mining ahora? –Los datos están y más se están produciendo. –Los datos se están almacenando. –Existe la potencia computacional. –Hay una fuerte presión competitiva. –Existen productos de software de DM disponibles comercialmente. KDD (Knowledge Discovery in Databases) otro nombre para DM

28 UNLP - Facultad de Informática IBD28 Data Mining (minería de datos) Importancia de Data Mining –Aplicaciones exitosas en diversas áreas: Marketing Planeamiento financiero Detección y Prevención de Fraudes Científicas: Astronomía, Biología Molecular, etc.

29 UNLP - Facultad de Informática IBD29 Data Mining (minería de datos) Objetivos de MdD –Predicción Puede mostrar el modo en el que actuarán en el futuro ciertos atributos dentro de los datos. –Identificación Los patrones de datos pueden utilizarse para identificar la existencia de un artículo, evento o actividad –Clasificación Puede dividir los datos de modo que diferentes clases o categorías puedan ser identificadas basándose en combinaciones de parámetros. –Optimización la utilización de recursos limitados como el tiempo, espacio, dinero o materiales y maximizar las variables de salida

30 UNLP - Facultad de Informática IBD30 Data Mining (minería de datos) El proceso de KDD 1.Comprender el dominio 2.Preparar las BDs 3.Descrubir patrones (Data Mining) 4.Postprocesar los patrones descubiertos 5.Disponer los resultados para su uso

31 UNLP - Facultad de Informática IBD31 Data Mining (minería de datos) Tipos de conocimiento descubierto durante MdD: –Reglas de asociación Correlación entre la presencia de un conjunto de elementos con otro rango de valores para otro conjunto de de variables. EJ: si compra zapatos, puede comprarse cartera –Jerarquías de clasificación Partir de un conjunto de eventos existentes para crear una jerarquía de clases. Ej: una población puede dividirse en cinco niveles de mérito. –Patrones secuenciales Persigue una secuencia de acciones o eventos. Ej: patrones de ocurrencia de eventos vinculados, donde uno determina al otro. –Patrones en serie de tiempo Detectar similitudes en las posiciones de serie de tiempo. –Categorización y segmentación Un conjunto de eventos puede ser segmentado en grupos de elementos similares. Ej: serie de datos sobre enfermedades puede dividirse en grupos basados en similitud de efectos secundarios.

32 UNLP - Facultad de Informática IBD32 Warehousing Ventajas –Ayuda a soportar el proceso de toma de decisiones –Identificación de nuevas oportunidades en el mercado –Estructuras coorporativas flexibles: distintos departamentos en una organización comparten la misma información –Generación de informes críticos sin costo de tiempo –Formato de datos consistente –Servir de plataforma efectiva de mezclado de datos desde varias aplicaciones corrientes –Posibilidad de encontrar respuestas más rápidas y más eficientes a las necesidades del momento –Reducción de costos globales para la organización

33 UNLP - Facultad de Informática IBD33 Warehousing Conclusiones –La necesidad de sistemas de información que permitan generar consultas, reportes y análisis para la toma de decisiones es cada día más apremiante para las empresas que quieren competir exitosamente en el mercado. –La implantación de un DW surge como la solución a las necesidades antes mencionadas –No siempre en las organizaciones existe una conciencia real de la potencialidad que tienen encubierta en los datos transaccionales generados cotidianamente. –Se debe tener en cuenta que un DW no es un producto que se compra, debe ser planificado cuidadosamente de acuerdo a cada organización y construido a tal efecto

34 UNLP - Facultad de Informática IBD34 Warehousing –Las organizaciones de tecnlogía informática pueden o no tener todas las cualidades técnicas necesarias, pero no implementarán un proyecto de DW exitoso sin que logren que la unidad de negocios se involucre. –Cuando se diseña un DW hay que tener en claro que se está conviertiendo la información generada en forma cotidiana en conocimiento para la organización. –Pensar en un DW como una simple liberación de los datos corporativos sería un error. El valor real de un DW recién se descubre cuando lo utiliza alguien que puede encontrar detalles importantes en los datos y marcar las diferencias.


Descargar ppt "UNLP - Facultad de Informática IBD1 Bases de datos Estadísticas Bases de datos estadísticas –Es aquella que permite consultas que proporcionen información."

Presentaciones similares


Anuncios Google