La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Introducción a la minería de datos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías.

Presentaciones similares


Presentación del tema: "Introducción a la minería de datos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías."— Transcripción de la presentación:

1 Introducción a la minería de datos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

2 Definición Gartner Group (www.gartner.com): es el proceso de descubrir nuevas y significantes correlaciones, patrones y tendencias en grandes cantidades de datos almacenados en repositorios usando tecnologías de reconocimiento de patrones así como técnicas estadísticas y matemáticas MIT Technology Review (enero 2001) la selecciona como una de las 10 tecnologías emergentes que cambiarán al mundo, ejemplo: Boston Celtis (basketball) en Septiembre-Diciembre de 2003 busca experto en DM Witten & Frank (2000): es la extracción de información implícita, previamente desconocida y potencialmente útil desde los datos Fayyad (1997): es la aplicación de algoritmos para extraer patrones de los datos, siendo esto una parte del descubrimiento de conocimiento

3 Definición Información Conocimiento Sabiduría Datos Entendimiento Conexión Entender las relaciones Entender los patrones Entender los principios Datos: símbolos Información: datos que son procesados para que sean útiles; proveen respuestas a preguntas del tipo quién, qué, dónde y cuándo Conocimiento: aplicación de datos e información a preguntas del tipo cómo o por qué Sabiduría: la comprensión de los principios

4 Justificación John Naisbitt: estamos ahogándonos en información pero hambrientos de conocimiento Explosión en recolección de datos: ventas en supermercados Las bodegas de datos como almacenamiento global y confiable El incremento en el acceso a los datos desde la web El incremento en la competencia en una economía global El desarrollo de herramientas comerciales y académicas de minería de datos: Clementine, Insightful Miner, WEKA, CART, PolyAnalyst, SAS El gran crecimiento en la capacidad de computo y almacenamiento

5 Justificación Confluyen varias disciplinas

6 Proceso de desarrollo CRISP-DM (Cross – Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model, Assess): más orientado a las características técnicas del desarrollo del proyecto, propietario Comprensión del negocio Análisis de los datos Preparación de los datos ModelamientoEvaluación Despliegue Datos

7 Falacias de la minería de datos 1. Existen herramientas de minería de datos que podemos soltar sobre nuestros datos y nos resolverán nuestras problemas 2. El proceso de minería de datos es autónomo requiriendo muy poca intervención humana 3. La inversión en procesos de minería de datos se paga por si misma y rápidamente

8 Falacias de la minería de datos 4. Las herramientas o paquetes de minería de datos son intuitivos y fáciles de usar 5. La minería de datos identifica las causas de nuestros problemas de negocios o de investigación 6. Con minería de datos se limpiaran y ordenaran automáticamente nuestras bases de datos

9 Tareas de la minería de datos Descripción Clasificación Estimación Predicción Agrupación por similitud (Clustering) Asociación

10 Tareas de la minería de datos Descripción Sugerir posibles explicaciones para ciertos patrones y tendencias Los modelos de minería de datos deben ser lo más transparentes posibles. Árboles de decisión vs. Redes Neuronales Técnicas estadísticas (media, moda, mediana, desviación estándar, mínimo, máximo, rango, correlaciones) y gráficas, algoritmos genéticos

11 Demo 1 con Weka En Weka Explicación general del entorno partiendo del archivo clasificacion-drug.arff Se visualizan los datos en la cuadricula Se visualizan los datos en el formato arff Se explorar la pestaña de pre-procesamiento: atributos, medidas y gráficas

12 Tareas de la minería de datos Clasificación Establecer a que valor categórico pertenece un registro Clasifica los ingresos (altos, medios, bajos) basado en la edad, genero, ocupación Determinar si una operación especifica con tarjeta de crédito es fraudulenta Ubicar a un estudiante en un track especifico de cursos de acuerdo con sus habilidades Determinar si otorgar una hipoteca es una buen o mala decisión (riesgo) Determinar si una enfermedad particular esta presente Identificar si un determinado estado financiero indica una amenaza de terrorismo Determinar el tipo de medicina más adecuada para un paciente Redes neuronales, árboles de decisión (C4.5, C5.0, CART), k-vecino más cercano Tomado de [1] para uso educativo

13 Demo 2 con Weka En Weka Uso de la pestaña de clasificación con el ejemplo de clasificacion-drug.arff Uso del árbol de decisión J48 Visualización del árbol y explicación de los resultados Matriz de confusión Instancias correctamente clasificadas Optimización basada en costos, ejemplo de túnel metacarpiano y el costo de falsos positivos y falsos negativos Importancia de los expertos: nuevo atributo a5/a6

14 Tareas de la minería de datos Estimación Similar a Clasificación, pero la variable objetivo es numérica Estimar la presión de la sangre de un paciente basado en la edad, genero, índice de masa corporal y los niveles de sodio en la sangre Estimar la cantidad de dinero que una familia de cuatro personas seleccionada al azar gastara en las compras de regreso al colegio Estimar el promedio de un estudiante de postgrado basado en su promedio en los resultados universitarios de pregrado Técnicas estadísticas (ejemplo, regresión lineal simple, correlación, regresión múltiple), redes neuronales Tomado de [1] para uso educativo

15 Tareas de la minería de datos Predicción Similar a clasificación y estimación, excepto que los resultados se ubican en el futuro Predecir el incremento en el número de muertes en accidentes de tráfico si el próximo año se aumenta el limite de velocidad Predecir el ganador de la segunda temporada de fútbol en el campeonato nacional basado en los resultados estadísticos de los equipos Predecir el precio del inventario en tres (3) meses Técnicas estadísticas, redes neuronales, árboles de decisión (C4.5, C5.0, CART), k-vecino más cercano, algoritmos genéticos Tomado de [1] para uso educativo

16 Tareas de la minería de datos Agrupación por similitud (Clustering) Generar clases que agrupen instancias/objetos de características similares y se diferencien de los que están en otras clases No hay variable objetivo Es a menudo un proceso preliminar en el proceso de minería de datos En auditoria, segmentar el comportamiento financiero entre benignas y sospechosas Reducir el número de atributos a tratar en un DataSet Agrupar los resultados de búsquedas en Internet Agrupación Jerárquica, K- means, Red Kohonen, Fuzzy C-means Tomado de [1] para uso educativo

17 Demo 3 con Weka En Weka Uso de la pestaña de clustering con el archivo clustering-sencillo.arff La columna clase es sólo para introducir el ejemplo, pero en un problema de clustering normalmente los datos no están pre- clasificados Uso de la pestaña de Visualización para ver la distribución de las clases en cada uno de los atributos Visualmente se definen cuales características son apropiadas (varianza-desviación en cada eje) Uso de la pestaña de Selección de atributos para corroborar las dimensiones o características seleccionadas Remover la clase en la pestaña de pre-procesamiento Ejecución de SimpleKmeans con 3 clusters Mostrar como hacer validación cuando se conoce la clase

18 Tareas de la minería de datos Asociación Encontrar los atributos que van juntos Conocido como análisis de afinidad o análisis de la canasta de mercado Si Entonces Cuales ítems se compran juntos y cuales no Establecer cuales situaciones degradan la red de telecomunicaciones Determinar la proporción de casos en donde una nueva droga genera efectos secundarios peligrosos Reglas de asociación con algoritmos A priori, GRI, FP Grow

19 Demo 4 con Weka En Weka Uso de la pestaña de Asociación con el archivo Basket.arff Se usa información de la tarjeta Se deja información sólo de los productos comprados en cada transacción Se usa el algoritmo apriori Explicación del soporte Explicación de la confianza

20 Aplicaciones Mejorar la eficiencia del marketing Identificar prospectos Escoger el canal de comunicación para alcanzar los prospectos Crear mensajes apropiados para grupos de prospectos Ejemplo: un mensaje en la página de deportes del periódico, otro distinto en la página de política Ejemplo: un mensaje destacando el precio para usuarios sensibles al precio y otro destacando la conveniencia del producto (compras y/o pedidos nocturnos, dominicales y festivos)

21 Aplicaciones Retener clientes rentables Evitar clientes de alto riesgo (hipotecas, créditos) Prevenir fraudes Recuperar clientes Mejorar la satisfacción de los clientes Disminuir costos Incrementar ventas Mejorar la rentabilidad de sus clientes

22 Aplicaciones venta cruzada (cross-selling) e incremento de venta (up-selling o venta sugestiva/mejorada) Retener talento humano Definir líneas de capacitación y retención de talento humano Gestión de la cadena de suministro

23 Industrias donde aplica: Banca Seguros Telecomunicaciones Venta al por menor (e-commerce) Venta al por mayor Turismo Educación Salud … Aplicaciones Gente Deptos. Administrativos Auditoria Deptos. Operativos Productos Otros Proveedores Clientes

24 Aplicaciones En industrias manufactureras (vehículos), encontrar cuales situaciones generan la mayor cantidad de reclamos/garantías En educación, encontrar relaciones entre tipos de estudios y origen de los estudiantes en una universidad Predecir condiciones financieras especificas que llevan una empresa a la banca rota Organizar una campaña de turismo interno para el departamento

25 Aplicaciones Clasificación de datos estelares Diagnostico medico Túnel carpiano Medicinas en tratamientos Text Mining Web Mining Contenido Estructura - Navegación Uso Bio-Informática

26 Aplicaciones en GTI Búsqueda en Internet BIM (2008): Ontologías, Resultado de los motores de búsqueda (Google, Yahoo, MSN), Perfil del usuario, Minería de textos DSS para viveros automatizados (2008) Bodegas de datos y OLAP Clasificación (C4.5, C5.0, CART) CASE integrada basada en CRISP-DM (2009)

27 Aplicaciones en GTI DSS para el repositorio de acceso público de objetos de aprendizaje (SPAR, 2009) Bodegas, OLAP y Minería Web (de contenidos) Sistema de recomendación de patrones pedagógicos basado en ontologías y minería de datos (2009) Singular Value Decomposition, Frobenius, k-nn Reconocimiento Balístico (2010) Procesamiento y Análisis de Imágenes, Algoritmos Genéticos, los k vecinos más cercanos (k-nn) y validación cruzada

28 Aplicaciones en GTI Búsqueda en Internet Clustering en general (Harmony Search, k-means) (2009) Web Document Clustering Global-Best Harmony Search y Fp-growth (2010) Algoritmos meméticos con técnicas de niching (2010) En proceso (2010 – 2011) Web Document Clustering basado en reglas de asociación y frases de documentos Clustering usando Global-Best Harmony Search y modelos LEM

29 Referencias 1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc ISBN Larose, Daniel T. Data Mining Methods and Models. Daniel T. Larose. ISBN: E-Book. 385 pages. February 2006, Wiley-IEEE Press. 3. Data Mining with SQL Server ZhaoHui Tang, Jamie Maclennan. Wiley Publishing, Indiana, Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.


Descargar ppt "Introducción a la minería de datos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías."

Presentaciones similares


Anuncios Google