La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: Fono: 207 122 Minería.

Presentaciones similares


Presentación del tema: "Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: Fono: 207 122 Minería."— Transcripción de la presentación:

1 Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: http://www.dcc.uchile.cl/~clgutier e-mail: cjoelg@ona.fi.umag.cl Fono: 207 122 Minería de Datos y OLAP

2 Taller de Base de Datos Minería de Datos Análisis de grandes volúmenes de datos para encontrar relaciones no triviales, y para resumirlos de manera que sean entendibles y útiles. Hand, Mannila y Smyth Extracción de patrones y modelos interesantes, potencialmente útiles y datos en base de datos de gran tamaño. Hand

3 Conocimiento: Modelo vs. Patrón Hand, Mannila y Smyth Modelo: Habla de todo el conjunto de datos Patrón: Habla de una región particular de datos. Taller de Base de Datos

4 El proceso de Minería de Datos Proceso Iterativo Entendimiento del Problema Entendimiento de los datos –Qué información y estructura de ella tenemos –Qué partes y subconjuntos son relevantes –Calidad de los datos Preparación de los datos –Extracción (ej. Datawarehousing, Web crawling) –Transformación y Limpieza. Taller de Base de Datos

5 El proceso de Minería de Datos Modelación –Explotación (visualización de datos). –Definición de modelos y patrones a encontrar. –Diseño, desarrollo y ejecución de algoritmos Evaluación de resultados Implementación del modelo/uso de los resultados Taller de Base de Datos

6 Decisiones Claves etapas de Modelación/Evaluación 1.- Tipos de patrón/modelo (ej. Reglas de asociación, árbol de decisión) 2.- Algoritmo a Usar –Como almacenar los datos: estructuras de datos. –Estrategia de búsqueda del patrón/construcción del modelo. –Manejo de Memoria: Memoria RAM limitada por buffering 3.- Función de Evaluación (score function): calidad del patrón/modelo encontrado. Taller de Base de Datos

7 Funciones de Evaluación Error de Predicción Taller de Base de Datos

8 Tareas en Minería de Datos Hand, Mannila y Smyth:( Aparecen en la etapa de modelación de CRISP) Análisis Exploratorio: Explorar los datos sin tener necesariamente una idea clara de lo que se está buscando. - Problema: cómo visualizar una nube de puntos en un espacio de miles de dimensiones? *k puntos pueden ser representados en un espacio de n= k-1 dimensiones. -Exploración a distintos niveles de granularidad de los datos. Ejemplo: Ventas por dia y ciudad vs. Ventas por mes y región (OLAP) Taller de Base de Datos

9 Tareas en Minería de Datos Modelamiento Descriptivo: Su objetivo es construir modelos que ayuden a entender los datos. -Ejemplo: *Búsqueda de agrupaciones: particionar los datos (puntos) en grupos. *Estimación de distribución de probabilidades. *Búsqueda de correlaciones entre variables (etc.) Taller de Base de Datos

10 Búsqueda de Agrupaciones Funciones de Evaluación C 1,...,C k grupos, m i es el centroide de C i Qué limitación tiene esta función? Taller de Base de Datos

11 Tareas en Minería de Datos Modelación Predictiva: Su ojetivo es construir un modelo que permita predecir el valor de una variable. - Ejemplo: clasificación: dado un conjunto de objetos (tuplas), donde cada objeto pertenece a una clase, construir un modelo que permita predecir la clase de un objeto que no está en la base de datos. Taller de Base de Datos

12 Clasificación Función de Evaluación C(y) es uno si el árbol predice correctamente la clase del objeto y Qué limitación tiene esta función? Taller de Base de Datos

13 Tareas en Minería de Datos Descubrimiento de patrones y Asociaciones -Ejemplo: Descubrimiento de comportamiento anomal para detectar fraude. - Búsqueda de reglas de asociación: Personas que compran productos A tienden a comprar productos B. Anécdota: Pañales y Cerveza. Taller de Base de Datos

14 Minería de Datos y Otras Aplicaciones Estadistica Inteligencia Artificial: Machine Learning Base de datos Taller de Base de Datos

15 Minería de Datos vs. Estadistica En qué se diferencian? En mineria de datos tenemos: 1.- Mayor volúmen de los datos (diferencia fundamental) Estudios para hacer más eficiente la inducción de clasificadores estadisticos (J. Cattlet, 1991) consideran un máximo de 32.000 objetos. 2.- Mayor complejidad de los datos (miles de atributos o dimensiones). 3.- Patrones/Modelos son estadísticamente livianos: fáciles de entender aunque no tan precisos. 4.- Enfasis está en buscar modelos más que en verificar un modelo fijo. Taller de Base de Datos

16 Matemáticas para Ciencias de la Computación MCC3182 Anécdota Historicamente el término Minería de datos se usó en estadisticas para denotar el uso de datos para derivar conclusiones erradas. Bonferroni: Muchas conjeturas triviales solo por simple razonamiento estadístico. Ejemplo: Dr. David Rhine (ej. de Ullman) Parasicólogo de Duke que en 1950 testeo a estudiantes para encontrar percepción extra sensorial. Descubrió que el 0.1% de ellos podían adivinar 10 cartas de 10. Declaró a estos estudiante como poseedores de PES. Cuando realizó el experimento con ellos nuevamente, descubrió que perdían su capacidad. Conclusión: al comunicar una persona que es PES, ésta generalmente la pierde.

17 Matemáticas para Ciencias de la Computación MCC3182 Volumen de los Datos Escenario Común: Dos años de transacciones en una cadena de 50 supermercados. Cada supermercado tiene un promedio de 10.000 ventas diarias, donde cada venta consiste de unos 20 itemes en promedio. Supongamos que almacenamos estos datos como tuplas de la siguiente manera: Tamaño del archivo: Número de transacciones: 50x365x10000= 365 millones Número de bytes por transacción=4 bytes x 20 Total 30660 millones, aprox. 30 GB.

18 Matemáticas para Ciencias de la Computación MCC3182 Otros Ejemplos Wallmart maneja aprox. 20 millones de transacciones diarias. - Su base de datos de transacciones de ventas pesa 11 terabyte. AT&T tiene más de 100 millones de clientes y almacena más de 300 millones de llamados diarios. El sistema SKYCAT desarrollado por Fayyad et. Al (1996) contiene más de 3 terabyte de datos.

19 Matemáticas para Ciencias de la Computación MCC3182 Complejidad de los Datos ¿Cuántas canastas de productos que se venden con frecuencia se pueden tener en un total de n productos? 2 n n puede ser muy grande, para Wallmart n=10000 Si contamos la frecuencia de cada subconjunto de ítemes, necesitamos 2 n contadores.

20 Matemáticas para Ciencias de la Computación MCC3182 Aplicaciones SKICAT (Sky Image and Analysis Tool) desarrollado por JPL/Caltech. Sistema que predice si un objeto es una estrella o una galaxia. Reglas de asociación para generar oportunidades de ventas cruzadas. Arboles de Decisión, los cuales son utilizados en los bancos para determinar el otorgamiento de crédito a un nuevo cliente. Predicción de precios en ambientes financieros. Sistemas de recomendación (Ej. Amazon, Movie Lenz) Detección de Fraude. Optimización de campañas de marketing (database marketing) MSNBC: vía agrupación de páginas se observó un cluster con un 20% de noticias muy similares: se creó la sección living, la más visitada en la actualidad.


Descargar ppt "Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: Fono: 207 122 Minería."

Presentaciones similares


Anuncios Google