Introducción a la minería de datos

Slides:



Advertisements
Presentaciones similares
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Advertisements

Alumno: Henry Segundo Agapito Almeyda
TIBERIUS Predictive Modelling Software
Introducción a la minería de datos
DATA MINING MINERIA DE DATOS Gersom Costas.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
GUIA-RESUMEN PARA LA ELABORACIÓN DEL PLAN DE NEGOCIO
MERCADOS ELECTRÓNICOS
LA RENTABILIDAD DE LOS MICROSEGUROS
PLANIFICACIÓN Y CONTROL DE LA PRODUCCIÓN
Ing. Carolina Castañeda
PLAN DE NEGOCIOS Proyección de la empresa al futuro.
BASES DE DATOS MULTIDIMENSIONALES
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
K-NN: K vecinos más cercanos
ADMINISTRACIÓN DE TECNOLOGIAS DE INFORMACIÓN Y COMUNICACIÓN
Ventaja estratégica y Tecnologías de Información
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
Enfoque estadístico para estimación y predicción
On Line Analytical Processing
INTERFAZ DE ACCES DISEÑO DE BASE DE DATOS
Nacional Financiera, tu brazo derecho.. Objetivo Cronología Flujo de la Información Estadísticas Front-End Factores críticos de éxito Ventajas y Beneficios.
RIESGOS FINANCIEROS FACULTAD DE CIENCIAS CARRERA: ING. EN CIENCIAS ECONÓMICAS Y FINANCIERAS PERIODO: Ing. Marcela Guachamín.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
COMERCIO ELECTRONICO NATALIA TABARES GARCIA MARCELA VALENCIA PATIÑO INFORMATICA Y HERRAMIENTAS CORPORACIÓN UNIVERSITARIA REMINGTON MEDELLÍN
Maestría en Tecnologías de la Información
INTELIGENCIA DE NEGOCIOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Minería de Datos con Clementine
DIAGNOSTICO ORGANIZACIONAL
República de Colombia Ministerio de Hacienda y Crédito Público LA TECNOLOGÍA COMO HERRAMIENTA PARA LA DETECCIÓN DE LAVADO DE ACTIVOS Bogotá, D.C. Unidad.
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Weka.
FACULTAD DE CIENCIAS CONTABLES Y FINANCIERAS
Business Intelligence y Data Mining
DATA WAREHOUSE Equipo 9.
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Curso Nuevas Tecnologías y Educación Profesor: Hugo Martínez Alvarado
Data Mining aplicado a promociones en tarjetas de crédito/débito Diego Rafael Gómez Izquierdo Universidad de Palermo
La Información en las Organizaciones. Datos Externos Datos Internos Datos Personales Data Mining Data Warehouse Data Marts Meta Data OLAP Queries DSS.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Miguel angel amaya G41 Convergencia tecnologica
Prof. Isabel Puntas Castañeda E. P. T. 5to de Secundaria
Tópicos selectos de sistemas de información
“Introducción a las Ciencias de la Informática”
1 Prof:Paula Quitral INTRODUCCIÓN MINERIA DE DATOS Departamento de Informática Universidad de Rancagua.
Análisis sectorial: objetivos, limitaciones
SEGMENTACION DE MERCADOS
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Juan Pablo Arango Tatiana Zapata L 11C IE LA SALLE DE CAMPOAMOR.
LOS SISTEMAS DE INFORMACIÓN INVESTIGACIÓN DE MERCADOS
UNIDAD 3 VENTAS Y LA ADMINISTRACIÓN DE RELACIÓN CON CLIENTES (CRM)
KDD y Técnicas de Minería de Datos en Weka
MODULO FINANZAS CORPORATIVAS
Estadística para la gestión educativa Conceptos básicos Mtra. Ing. Rosa María Lamadrid Velazco T.
Gestión logística y comercial, GS
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
Introducción al marketing Guillermo Wyngaard Emiliano Martínez Guillermo Carrizo.
1 Descubrimiento de Patrones de Desempeño Académico en la Competencia de Lectura Crítica Contrato
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.

Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.
Presupuesto de Ventas.
MERCADEO. BIENVENIDOS Y BIENVENIDAS!! CREA-ME, Corporación Incubadora de Empresa, operador del proyecto Nuestra Tienda se complace en darles la bienvenida.
Taller: El Uso de Analytics en la Vida de un Actuario (Un Océano de Oportunidades) 15 de Julio de 2010 Pablo FondevilaGustavo Grinblat Coordinador Socio.
Copyright © 2010 SAS Institute Inc. All rights reserved. ¿Cómo optimizar la efectividad de las acciones de marketing mediante una plataforma integrada.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Introducción a la minería de datos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

Definición Gartner Group (www.gartner.com): es el proceso de descubrir nuevas y significantes correlaciones, patrones y tendencias en grandes cantidades de datos almacenados en repositorios usando tecnologías de reconocimiento de patrones así como técnicas estadísticas y matemáticas MIT Technology Review (enero 2001) la selecciona como una de las 10 tecnologías emergentes que cambiarán al mundo, ejemplo: Boston Celtis (basketball) en Septiembre-Diciembre de 2003 busca experto en DM Witten & Frank (2000): es la extracción de información implícita, previamente desconocida y potencialmente útil desde los datos Fayyad (1997): es la aplicación de algoritmos para extraer patrones de los datos, siendo esto una parte del descubrimiento de conocimiento Dos supermercados de los Estados Unidos: 7 Eleven, y Wal-Mart. Hace algunos años uno de estos supermercados se hizo la pregunta sobre qué productos se vendían con mayor frecuencia en compañía de los pañales. Pues bien, ellos "minearon" la base de datos y vaya sorpresa, encontraron que en asociación con los pañales se vendían muy frecuentemente las cervezas. Además, se dieron cuenta que ambos productos se vendían principalmente los viernes en la tarde y eran comprados por hombres con edades entre los 25 y 35 años de edad. Después de cierto tiempo descubrieron la razón de este hallazgo. El caso es que los paquetes de pañales son voluminosos, y las esposas, que en muchos casos hace el mercado de la casa, deja los pañales para que el esposo los compre. El esposo y padre, compraba los pañales especialmente los viernes, en compañía de las cervezas para el fin de semana. Como consecuencia de esto, que hizo el supermercado? Puso en la góndola la cerveza al lado de los pañales. El resultado fue que los padres que normalmente llegaban a comprar los pañales y la cerveza, compraron más cervezas, y los que antes no compraban cerveza, empezaron a comprarla por la proximidad de ésta con los pañales. Finalmente las ventas de cerveza se dispararon.

Definición Datos: símbolos Información: datos que son procesados para que sean útiles; proveen respuestas a preguntas del tipo “quién”, “qué”, “dónde” y “cuándo” Conocimiento: aplicación de datos e información a preguntas del tipo “cómo” o “por qué” Sabiduría: la comprensión de los principios Conexión Sabiduría Entender los principios Conocimiento Entender los patrones Información Dos supermercados de los Estados Unidos: 7 Eleven, y Wal-Mart. Hace algunos años uno de estos supermercados se hizo la pregunta sobre qué productos se vendían con mayor frecuencia en compañía de los pañales. Pues bien, ellos "minearon" la base de datos y vaya sorpresa, encontraron que en asociación con los pañales se vendían muy frecuentemente las cervezas. Además, se dieron cuenta que ambos productos se vendían principalmente los viernes en la tarde y eran comprados por hombres con edades entre los 25 y 35 años de edad. Después de cierto tiempo descubrieron la razón de este hallazgo. El caso es que los paquetes de pañales son voluminosos, y las esposas, que en muchos casos hace el mercado de la casa, deja los pañales para que el esposo los compre. El esposo y padre, compraba los pañales especialmente los viernes, en compañía de las cervezas para el fin de semana. Como consecuencia de esto, que hizo el supermercado? Puso en la góndola la cerveza al lado de los pañales. El resultado fue que los padres que normalmente llegaban a comprar los pañales y la cerveza, compraron más cervezas, y los que antes no compraban cerveza, empezaron a comprarla por la proximidad de ésta con los pañales. Finalmente las ventas de cerveza se dispararon. Entender las relaciones Datos Entendimiento http://www.systems-thinking.org/dikw/dikw.htm

Justificación John Naisbitt: “estamos ahogándonos en información pero hambrientos de conocimiento” Explosión en recolección de datos: ventas en supermercados Las bodegas de datos como almacenamiento global y confiable El incremento en el acceso a los datos desde la web El incremento en la competencia en una economía global El desarrollo de herramientas comerciales y académicas de minería de datos: Clementine, Insightful Miner, WEKA, CART, PolyAnalyst, SAS El gran crecimiento en la capacidad de computo y almacenamiento

Justificación Confluyen varias disciplinas

Proceso de desarrollo CRISP-DM (Cross – Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model, Assess): más orientado a las características técnicas del desarrollo del proyecto, propietario Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos

Falacias de la minería de datos Existen herramientas de minería de datos que podemos soltar sobre nuestros datos y nos resolverán nuestras problemas El proceso de minería de datos es autónomo requiriendo muy poca intervención humana La inversión en procesos de minería de datos se paga por si misma y rápidamente

Falacias de la minería de datos Las herramientas o paquetes de minería de datos son intuitivos y fáciles de usar La minería de datos identifica las causas de nuestros problemas de negocios o de investigación Con minería de datos se limpiaran y ordenaran automáticamente nuestras bases de datos

Tareas de la minería de datos Descripción Clasificación Estimación Predicción Agrupación por similitud (Clustering) Asociación

Tareas de la minería de datos Descripción Sugerir posibles explicaciones para ciertos patrones y tendencias Los modelos de minería de datos deben ser lo más transparentes posibles. Árboles de decisión vs. Redes Neuronales Técnicas estadísticas (media, moda, mediana, desviación estándar, mínimo , máximo, rango, correlaciones) y gráficas, algoritmos genéticos

Demo 1 con Weka En Weka Explicación general del entorno partiendo del archivo clasificacion-drug.arff Se visualizan los datos en la cuadricula Se visualizan los datos en el formato arff Se explorar la pestaña de pre-procesamiento: atributos, medidas y gráficas

Tareas de la minería de datos Clasificación Establecer a que valor categórico pertenece un registro Clasifica los ingresos (altos, medios, bajos) basado en la edad, genero, ocupación Determinar si una operación especifica con tarjeta de crédito es fraudulenta Ubicar a un estudiante en un “track” especifico de cursos de acuerdo con sus habilidades Determinar si otorgar una hipoteca es una buen o mala decisión (riesgo) Determinar si una enfermedad particular esta presente Identificar si un determinado estado financiero indica una amenaza de terrorismo Determinar el tipo de medicina más adecuada para un paciente Redes neuronales, árboles de decisión (C4.5, C5.0, CART), k-vecino más cercano Tomado de [1] para uso educativo

Demo 2 con Weka En Weka Uso de la pestaña de clasificación con el ejemplo de clasificacion-drug.arff Uso del árbol de decisión J48 Visualización del árbol y explicación de los resultados Matriz de confusión Instancias correctamente clasificadas Optimización basada en costos, ejemplo de túnel metacarpiano y el costo de falsos positivos y falsos negativos Importancia de los expertos: nuevo atributo a5/a6

Tareas de la minería de datos Estimación Similar a Clasificación, pero la variable objetivo es numérica Estimar la presión de la sangre de un paciente basado en la edad, genero, índice de masa corporal y los niveles de sodio en la sangre Estimar la cantidad de dinero que una familia de cuatro personas seleccionada al azar gastara en las compras “de regreso al colegio” Estimar el promedio de un estudiante de postgrado basado en su promedio en los resultados universitarios de pregrado Técnicas estadísticas (ejemplo, regresión lineal simple, correlación, regresión múltiple), redes neuronales Tomado de [1] para uso educativo

Tareas de la minería de datos Predicción Similar a clasificación y estimación, excepto que los resultados se ubican en el futuro Predecir el incremento en el número de muertes en accidentes de tráfico si el próximo año se aumenta el limite de velocidad Predecir el ganador de la segunda temporada de fútbol en el campeonato nacional basado en los resultados estadísticos de los equipos Predecir el precio del inventario en tres (3) meses Técnicas estadísticas, redes neuronales, árboles de decisión (C4.5, C5.0, CART), k-vecino más cercano, algoritmos genéticos Tomado de [1] para uso educativo

Tareas de la minería de datos Agrupación por similitud (Clustering) Generar clases que agrupen instancias/objetos de características similares y se diferencien de los que están en otras clases No hay variable objetivo Es a menudo un proceso preliminar en el proceso de minería de datos En auditoria, segmentar el comportamiento financiero entre benignas y sospechosas Reducir el número de atributos a tratar en un DataSet Agrupar los resultados de búsquedas en Internet Agrupación Jerárquica, K-means, Red Kohonen, Fuzzy C-means Tomado de [1] para uso educativo

Demo 3 con Weka En Weka Uso de la pestaña de clustering con el archivo clustering-sencillo.arff La columna clase es sólo para introducir el ejemplo, pero en un problema de clustering normalmente los datos no están pre-clasificados Uso de la pestaña de Visualización para ver la distribución de las clases en cada uno de los atributos Visualmente se definen cuales características son apropiadas (varianza-desviación en cada eje) Uso de la pestaña de Selección de atributos para corroborar las dimensiones o características seleccionadas Remover la clase en la pestaña de pre-procesamiento Ejecución de SimpleKmeans con 3 clusters Mostrar como hacer validación cuando se conoce la clase

Tareas de la minería de datos Asociación Encontrar los atributos que van juntos Conocido como análisis de afinidad o análisis de la canasta de mercado Si <antecedente> Entonces <consecuente> Cuales ítems se compran juntos y cuales no Establecer cuales situaciones degradan la red de telecomunicaciones Determinar la proporción de casos en donde una nueva droga genera efectos secundarios peligrosos Reglas de asociación con algoritmos A priori, GRI, FP Grow

Demo 4 con Weka En Weka Uso de la pestaña de Asociación con el archivo Basket.arff Se usa información de la tarjeta Se deja información sólo de los productos comprados en cada transacción Se usa el algoritmo apriori Explicación del soporte Explicación de la confianza

Aplicaciones Mejorar la eficiencia del marketing Identificar prospectos Escoger el canal de comunicación para alcanzar los prospectos Crear mensajes apropiados para grupos de prospectos Ejemplo: un mensaje en la página de deportes del periódico, otro distinto en la página de política Ejemplo: un mensaje destacando el precio para usuarios sensibles al precio y otro destacando la conveniencia del producto (compras y/o pedidos nocturnos, dominicales y festivos) Mejorar la eficiencia del marketing A un presupuesto especifico encontrar el mayor número de respuestas positivas Identificar prospectos, atraparlos y retenerlos Futuros clientes que no defrauden la compañía, que paguen sus cuentas, que sean leales y si se les trata bien que recomienden la compañía Escoger el canal de comunicación para alcanzar los prospectos Marketing directo, prensa, televisión, sitio web, radio, mail, plegables y otros. Mucho de esto depende del perfil de los prospectos y del área geográfica Crear mensajes apropiados par grupos de prospectos Sin importar que sea el mismo producto o servicio es mejor planear mensajes específicos para grupos de prospectos Ejemplo: un mensaje en la página de deportes del periódico, otro distinto en la página de política Ejemplo: un mensaje destacando el precio para usuarios sensibles al precio y otro destacando la conveniencia del producto (compras y/o pedidos nocturnos, dominicales y festivos) Basado en el Perfil del prospecto Medir la distancia entre el perfil del prospecto y el de un cliente Nearest Neighbor - Memory based reasoning and Collaborative Filtering Automatic Cluster Detection Tomando como fuente Datos socio-demográficos generales: el censo Campañas previas de captura de datos: promociones o eventos en centros comerciales Datos de un Perfil: ingresos, tipo de vivienda, numero de hijos, tipo de carro, celulares, fijos, distancia al trabajo, entre otros. Matriz de costos (penalidades) para afinar el modelo

Aplicaciones Retener clientes rentables Evitar clientes de alto riesgo (hipotecas, créditos) Prevenir fraudes Recuperar clientes Mejorar la satisfacción de los clientes Disminuir costos Incrementar ventas Mejorar la rentabilidad de sus clientes

Aplicaciones venta cruzada (cross-selling) e incremento de venta (up-selling o venta sugestiva/mejorada) Retener talento humano Definir líneas de capacitación y retención de talento humano Gestión de la cadena de suministro

Aplicaciones Industrias donde aplica: Banca Seguros Telecomunicaciones Venta al por menor (e-commerce) Venta al por mayor Turismo Educación Salud … Proveedores Gente Deptos. Administrativos Auditoria Deptos. Operativos Productos Otros Clientes

Aplicaciones En industrias manufactureras (vehículos), encontrar cuales situaciones generan la mayor cantidad de reclamos/garantías En educación, encontrar relaciones entre tipos de estudios y origen de los estudiantes en una universidad Predecir condiciones financieras especificas que llevan una empresa a la banca rota Organizar una campaña de turismo interno para el departamento

Aplicaciones Clasificación de datos estelares Diagnostico medico Túnel carpiano Medicinas en tratamientos Text Mining Web Mining Contenido Estructura - Navegación Uso Bio-Informática

Aplicaciones en GTI Búsqueda en Internet BIM (2008): Ontologías, Resultado de los motores de búsqueda (Google, Yahoo, MSN), Perfil del usuario, Minería de textos DSS para viveros automatizados (2008) Bodegas de datos y OLAP Clasificación (C4.5, C5.0, CART) CASE integrada basada en CRISP-DM (2009)

Aplicaciones en GTI DSS para el repositorio de acceso público de objetos de aprendizaje (SPAR, 2009) Bodegas, OLAP y Minería Web (de contenidos) Sistema de recomendación de patrones pedagógicos basado en ontologías y minería de datos (2009) Singular Value Decomposition, Frobenius, k-nn Reconocimiento Balístico (2010) Procesamiento y Análisis de Imágenes, Algoritmos Genéticos, los k vecinos más cercanos (k-nn) y validación cruzada

Aplicaciones en GTI Búsqueda en Internet En proceso (2010 – 2011) Clustering en general (Harmony Search, k-means) (2009) Web Document Clustering Global-Best Harmony Search y Fp-growth (2010) Algoritmos meméticos con técnicas de niching (2010) En proceso (2010 – 2011) Web Document Clustering basado en reglas de asociación y frases de documentos Clustering usando Global-Best Harmony Search y modelos LEM

Referencias Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2 Larose, Daniel T. Data Mining Methods and Models. Daniel T. Larose. ISBN: 0-471-75647-4. E-Book. 385 pages. February 2006, Wiley-IEEE Press. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie Maclennan. Wiley Publishing, Indiana, 2005. Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: 0471228524. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.