Minería de Datos con Clementine

Minería de Datos con Clementine
SPSS Inc. Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008 Copyright 2006 SPSS Inc.

Minería de Datos (o Data Mining)
SPSS Inc. Minería de Datos (o Data Mining) Es descubrir información que se encuentra oculta adentro de las bases de datos de manera inteligente pero automatizada. Data Mining, en su proceso de análisis y exploración de datos utiliza tecnicas estadísticas y modelos matematicos para encontrar patrones, relaciones y tendencias con USO PREDICTIVO © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

NO! CREENCIAS FALSAS SOBRE LO QUE ES DATA MINING
SPSS Inc. CREENCIAS FALSAS SOBRE LO QUE ES DATA MINING Proceso de fuerza bruta sobre los datos crudos. Aplicación “ciega” de algoritmos para análisis/modelaje. Encontrar relaciones en donde no existen. Magia. NO! © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

EVOLUCIÓN DEL ANÁLISIS DE DATOS
SPSS Inc. EVOLUCIÓN DEL ANÁLISIS DE DATOS Otra manera de pensar el proceso de data mining es verlo como el resultado una evolución del análisis. Muchas compañías y organizaciones comenzaron su proceso de Bussines Intelligence focalizándose en la comprensión y medición de resultados de decisiones pasadas (40 y 50 pocos negocio con datos almacenados en cintas (60 no se almacena en cita si no en disco) A partir de los datos almacenados hubo una primera etapa de extracción de información que implicaba consultas y generación de informes sencillos. A medida que las bases de datos crecieron y se hicieron más complejas surgió la necesidad de obtener la información y poder bucear dentro de ella en tiempo real. Esto condujo a la aparición en la escena del Bussines Intelligence de los cubos OLAP que permiten este tipo de acciones. La consolidación en el mercado de maneras prácticas de Data Mining puso en las manos de empresas y organizaciones mayores capacidades descriptivas y predictivas para resolver problemas. Diferencia entre herramientas de querry y data mining: Juego de la BATALLA NAVAL Hay un barco en la fila B, columna 5??? Pregunta de una herramienta de OLAP Cuales son las posiciones mas probables que mi oponente posiciones sus barcos??? Patrones en el juego. RETROSPECTIVO. Finalmente se ha generado una necesidad de incorporar métodos de distribución en tiempo real de los resultados obtenidos para una rápida implementación de los mismos. © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Tres clases de algoritmos de Data Mining:
“Diferencias” en los grupos o clusters Agrupar casos que presentan características similares. Que eventos ocurren juntos? Dada una serie de acciones o eventos; cual acción es la que probablemente ocurra después? Data Mining Predecir “Relaciones” Asociar “Patrones” Predecir quién es más probable en demostrar un comportamiento específico en el futuro © 2006 SPSS Inc.

¿Que es lo que hace la Minería de Datos?
SPSS Inc. ¿Que es lo que hace la Minería de Datos? Data mining utiliza los datos existentes para : Predecir La pertenencia a una categoría Un Valor numérico Agrupar Descubrir grupos de clientes homogéneos basados en sus características Asociar Encontrar eventos que ocurren simultáneamente o en una secuencia Identificar Identificar casos que no siguen un comportamiento esperado © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

En donde encaja el Modelado de Clementine?
Datos existentes PREDICCION OPERACIONES Crear Modelos Datos Históricos Datos Presentes Procesos Casos Reporte Casos Scoring Actividad de campo Retroalimentación Examinar la data en su entera dimensión Aprender interacciones de tendencias en las relaciones Descubrir cambios en el comportamiento © 2006 SPSS Inc.

Modelado Los modelos son conocimiento reusable
Predicción y Clasificación Clustering y Segmentación Asociación Reducción de datos Los modelos son conocimiento reusable © 2006 SPSS Inc.

Aplicaciones Data mining Servicios Financieros Salud y Seguros Telecom
SPSS Inc. Aplicaciones Servicios Financieros Sector Público Data mining Impuestos, Satisfacción de usuarios, Finanzas públicas Telecom Utilización de Recursos, Detección de Fraudes, Control de Calidad Adquisición y Retención Ventas cruzadas Detección de Fraude CRM Salud y Seguros Ventas al Detalle Entretenimiento Ventas Cruzadas, Correo Directo, Lealtad Lealtad, Correo Directo Basket Analysis Lealtad, Churn © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Encontrar segmentos con Cluster Analysis
SPSS Inc. OPORTUNIDADES DE DATA MINING EN SEGMENTACIÓN Encontrar segmentos con Cluster Analysis Con Data Mining usted puede crear perfiles para encontrar sus clientes mas rentables y poder predecir cuales se podrían ir con su competencia. Con esta información usted podrá desarrollar planes efectivos de lealtad de su cliente. © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Detectar efectivamente fraudes en el uso de servicios.
SPSS Inc. OPORTUNIDADES DE DATA MINING EN DETECCIÓN DE FRAUDE Detectar efectivamente fraudes en el uso de servicios. La clave de detectar comportamientos fraudulentos se puede encontrar en sus datos. Por medio de clusters o perfiles de los diferentes tipos de comportamiento usted podrá descubrir posibles patrones o huellas de fraude. O como se muestra en la gráfica se podría modelar el comportamiento de la normal y enfocarse en los valores atípicos para detectar los posible fraudes © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Realizar ventas cruzadas de manera más efectiva.
SPSS Inc. OPORTUNIDADES DE DATA MINING EN VENTA CRUZADA Realizar ventas cruzadas de manera más efectiva. Data Mining puede ayudar a encontrar cual es el mejor paquete de productos que le puede ofrecer a sus clientes existentes para que su relación sea mas rentable. Por ejemplo se pueden encontrar afinidades entre los productos que se consumen para realizar promociones y ofertas focalizadas. Colocar en estantes cercanos los productos que presentan alto grado de afinidad. © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Atraer los clientes mas rentables.
SPSS Inc. OPORTUNIDADES DE DATA MINING EN CORREO DIRECTO Atraer los clientes mas rentables. La historias han demostrado como Data Mining a hecho la diferencia en su negocio. Por ejemplo usted podrán enfocar su correo directo a los clientes mas rentables de una forma mas efectiva reduciendo los costos de envio y materiales de promoción. En este ejemplo usted podrá enviar menos correos directos obteniendo casi el mismo nivel de respuesta que enviando una cantidad de correos masiva al azar. © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

SPSS Clementine Clementine es la más avanzada herramienta de Data Mining del mercado. Combina modernas técnicas de modelamiento con poderosas herramientas de acceso, manipulación y exploración de datos en una interfaz simple e intuitiva. © 2006 SPSS Inc.

Características de Clementine
SPSS Inc. Características de Clementine Fácil entendimiento de los datos Visualización Interactiva Poderosa Preparación de los datos Accesa y combina datos de múltiples fuentes Especifica valores perdidos Deriva nuevas variables Produce información resumida Incrementa la productividad con su enfoque visual de la manipulación de datos © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Características de Clementine
SPSS Inc. Características de Clementine Técnicas de Modelado Técnicas Supervisadas C&RT, Redes Neuronales, C5.0,Quest, CHAID, Regresión Lineal y Regresión Logística Técnicas No Supervisadas K-medias, Kohonen, Bi-etápico Apriori, GRI, Sequence, Carma, Detección de Anomalías Técnicas de Evaluación Tablas Estadísticas, Gráficos de Ganancia y ROI Técnicas de Publicación de modelos Punteo o Scoring de Bases de Datos Scoring en tiempo real © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Capacidad Extendida de Clementine
SPSS Inc. Capacidad Extendida de Clementine Cubre todos los aspectos de las interacciones de clientes Minería de Textos (Text Mining) Web Mining Predictive Enterprise Services (PES) Administrador de Modelost Administrador de Procesos Traslada los resultados a la acción Interactúa con aplicaciones Predictivas Publica los modelos con Solution Publisher © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Muestreo y validación de modelos
Tradicional en minería de datos : 2 muestras de datos. (Grande para entrenamiento y Pequeña de evaluación provenientes de la misma fuente) Con Clementine se puede contar con tres muestras: entrenamiento, prueba y evaluación. (Tiene un nodo que automáticamente crea las particiones que se necesitan para el análisis). © 2006 SPSS Inc.

Reglas de Asociación A PRIORI y CARMA :
Clementine permite analizar grandes bases de datos transaccionales o registros de programas de puntos y obtener reglas significativas que describan hábitos específicos de consumo. Los métodos de reglas de asociación permiten descubrir que valores de dos o más variables (que pueden ser predictores y objetivo en distintas reglas) generalmente ocurren conjuntamente (o no ocurren conjuntamente). © 2006 SPSS Inc.

Reglas de Inducción Los algoritmos de reglas de inducción y de asociación son las herramientas de análisis más frecuentes en el modelado de: Hábitos de compra Análisis de secuencias de compra Patrones de consumo Análisis de Ventas cruzadas o cross-selling Clementine cuenta con los modelos GRI (Generalizad Rule Induction) que permiten generar reglas que sintetizan patrones en los datos utilizando una medida del interés de la regla para jerarquizar las reglas. © 2006 SPSS Inc.

Detección de Secuencias
Estas técnicas permiten detectar reglas de asociación en donde el tiempo es importante dado que las variables están cronológicamente ordenadas. Análisis muy útil en el área de Ventas al Detalle o Retail para detectar patrones de consumo Y en el área de e-commerce en la detección de compra conjunta y patrones de navegación. © 2006 SPSS Inc.

Árboles de decisión Un algoritmo de árbol de decisión divide sucesivamente un conjunto de registros obteniendo grupos en donde la distribución de la variable objetivo es más homogénea que al considerar todos los registros. Las divisiones se realizan seleccionando el predictor que mejor agrupa a los registros desde el punto de vista de homogeneizar la variable objetivo. Los algoritmos disponibles son: C5.0 C&RT CHAID QUEST CHAID Exhaustivo Util para Segmentar Consumidores y se dispone de muchas variables que se quieren priorizar. © 2006 SPSS Inc.

Redes neuronales Clementine cuenta con los métodos de redes neuronales de mayor uso (Kohonen, Prune, Radial Basis, etc.). Las redes neuronales son, junto a los árboles de decisión, las más importantes herramientas de data mining disponibles actualmente debido a su capacidad para encontrar relaciones ocultas entre las variables y su flexibilidad para enfrentar distintos tipos de problemas de negocios. © 2006 SPSS Inc.

Redes neuronales Una red neuronal es básicamente un modelo simplificado de la forma en que el cerebro humano procesa información. La red aprende examinando los registros individuales, haciendo una predicción para cada registro de acuerdo a su semejanza con patrones vistos anteriormente, evaluando la predicción con el valor real de la variable objetivo en el registro y corrigiendo los patrones de acuerdo al acierto o fracaso en la predicción. Este proceso continúa repetidamente hasta que, básicamente, la red no puede mejorar más su eficiencia predictiva, generándose en ese momento el modelo. © 2006 SPSS Inc.

Redes neuronales Las redes neuronales son una herramienta ideal para enfrentar problemas complejos como ¿por qué un empleado abandona su trabajo ? ¿ Qué nivel de logro puede alcanzar una campaña que inicia? Fenómenos que son afectados por muchas variables cuya interrelación no es necesariamente lineal. Clementine dispone de redes neuronales de Kohonen para desarrollar modelos de segmentación no dirigida conocidos como mapas auto-organizados. Este tipo de relaciones son las más frecuentes cuando se analizan datos de clientes con el propósito de detectar segmentos según hábitos de compra, consumos, nivel de cross-selling, etc. © 2006 SPSS Inc.

Visualización gráfica
Muchas fases del proceso de minería utilizan gráficos y diagramas para explorar los datos. La visualización gráfica de Clementine se puede clasificar en 4 tipos : Gráficos para comprender mejor los tipos de datos y las distribuciones Gráficos para manipular registros y campos previo a las operaciones de modelado Gráficos para comprobar la distribución y las relaciones entre campos recién derivados. Gráficos de apoyo al modelado © 2006 SPSS Inc.

Gráfico de puntos Muestran la relación entre los campos numéricos.
© 2006 SPSS Inc.

Gráficos de Distribución
Muestran la ocurrencia de valores simbólicos (no numéricos), como un género o un tipo de hipoteca, en un conjunto de datos. El uso habitual del nodo de distribución consiste en mostrar los desequilibrios de los datos que pueden rectificarse mediante el nodo Equilibrar antes de crear un modelo. © 2006 SPSS Inc.

Histograma Muestran la ocurrencia de valores de los campos numéricos. Se suelen utilizar para explorar los datos antes de las manipulaciones y la generación de modelos. Los nodos de histogramas se utilizan para detectar desequilibrios en los datos. © 2006 SPSS Inc.

Gráficos de Colección Muestran la distribución de los valores de un campo numérico relativo a los valores de otro, en lugar de la ocurrencia de los valores de un solo campo. Las colecciones son útiles para ilustrar una variable o un campo cuyos valores cambian con el tiempo. © 2006 SPSS Inc.

Gráficos de Mallas direccionales
Muestran la fuerza de las relaciones entre variables categóricas. Son conexiones de una sola dirección. © 2006 SPSS Inc.

Gráfico de Evaluación Es una forma sencilla de evaluar y comparar modelos predictivos para elegir el mejor modelo para su aplicación. Muestran el comportamiento de los modelos pronosticando determinados resultados. © 2006 SPSS Inc.

Gráfica de Links Muestra nodos y las conexiones entre nodos. Por ejemplo, puede examinar las rutas que los usuarios toman a través de un sitio Web, mediante el rastreo de cuántas veces los usuarios van de una página a la siguiente. © 2006 SPSS Inc.

CAT’s (Templates) Son modelos ya probados para Incrementar la retención de clientes , atraer utilidades de los clientes y crear ventas cruzadas eficientes y estrategias de venta. Disponibles : CRM (Bancos y Retail) CreditScoring (Riesgo financiero en Bancos) Reducción Churn (Telecomunicaciones) © 2006 SPSS Inc.

Minería de textos Un 80% o más en promedio de la información de las empresas no está estructurada o está en formatos de textos, comparado con el 20% o menos que está estructurada en tablas y bases de datos usadas en minería de datos tradicional. Información de notas de los operadores de call centers, formas llenadas en la página web, correos electrónicos de clientes y algunas otras fuentes valiosas de información en texto de la empresa, a menudo no son utilizadas. Text Mining para Clementine permite extraer conceptos claves, impresiones y relaciones de una base de datos no estructurada, los convierte en un formato estructurado para un modelo predictivo con Clementine. De esta forma se basan las decisiones críticas en el 100% de la información disponible de los datos, no sólo en el 20%. © 2006 SPSS Inc.

Servicios Financieros Retail/Bienes de consumo Industria Farmacéutica
SPSS Inc. Algunos clientes Lealtad Servicios Financieros Tecnología Telecomunicaciones Retail/Bienes de consumo Entretenimiento Industria Farmacéutica © 2006 SPSS Inc. Copyright 2006 SPSS Inc.

Minería de Datos con Clementine

Presentaciones similares

Presentación del tema: "Minería de Datos con Clementine"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Minería de Datos con Clementine

Presentaciones similares

Presentación del tema: "Minería de Datos con Clementine"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback