La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Ana Drozdowskyj Analytical Solutions Product Manager SAS Spain

Presentaciones similares


Presentación del tema: "Ana Drozdowskyj Analytical Solutions Product Manager SAS Spain"— Transcripción de la presentación:

1 Ana Drozdowskyj Analytical Solutions Product Manager SAS Spain
Data Mining:Un proceso para llegar al conocimiento a partir de los datos Ana Drozdowskyj Analytical Solutions Product Manager SAS Spain Copyright © 2000 , SAS Institute Inc. All rights reserved.

2 Agenda Data Mining en la obtención de conocimiento
Introducción Data Mining en la obtención de conocimiento ¿Qué nos aporta SAS ? Casos prácticos Conclusiones

3 Introducción Data Mining

4 Introducción

5 Los datos y “Data Mining”
El objetivo: “Knowledge is the only competitive Advantage” Jack Welch, CEO, General Electric

6 Los datos y “Data Mining”
La situación actual: “Computers promised us a Fountain of Wisdom, but delivered us a Flood of Data” Gregory Piatetsky-Shapiro, 1991

7 ¿Necesitan lo mismo todos mis clientes ?

8 ¿Hay realmente diferencias?

9 Tecnologías involucradas
Recordar Tecnologías involucradas Data Warehousing Data Mining Aprender Análisis multidimensional y distribución via aplicaciones web Actuar

10 Una definición conocida...
DATA MINING, Una definición conocida... Data Mining es el proceso de selección, exploración y modelización de grandes volúmenes de datos para descubrir patrones ocultos que aporten un beneficio para la empresa Data Mining turns the member information into Knowledge. SAS has a definition for data mining which is..READ As a process, data mining enables continuous learning and this learning is not in and of itself a goal, it is done to meet defined business objectives.

11 Data Mining en la obtención de conocimiento
Transformar Datos en información Actuar según la información Pregunta de negocio Data Warehouse DBMS Proceso de Data Mining EIS, Business Reporting, OLAP Identificar el problema Medir resultados

12 Entornos de aplicación de Data Mining
Buscar Recuperar Adquirir Fidelizar Rentabilizar Retener CRM- Gestión de las relaciones con los clientes Finanzas: Rentabilidad, Retención, Fraude Investigación : Medicina, Medioambiental

13 ¿Cómo hacer Data Mining ?

14 Dos caminos al interior de los datos
Descriptivo Predictivo

15 Análisis descriptivo

16 Análisis predictivo Buscamos características críticas desconocidas
¿Qué perfil tienen mis mejores clientes ? ¿Quién contestará a una promoción? ¿Qué genes diferencian dos tipos de cancer? Usando técnicas específicas: Regresión, árboles de decisión, redes neuronales, cluster , asociaciones y secuencias, Que puedan Generalizarse Aplicar el conocimiento adquirido Evaluar los resultados

17 Ejemplo: Análisis de campañas y marketing dirigido
Optimizar el mailing de catálogos incrementar la tasa de respuesta, estudiar catálogos personalizados Análisis del comportamiento del cliente Usar asociaciones para deducir patrones de compra , usar secuencias para predecir posibles compras futuras

18 ¿Qué nos aporta SAS Institute para Data Mining?

19                                                                             Haga click en la imagen para acceder a la página de DMReview El ranking de las 100 mejores empresas de Business Intelligence -incluyendo Customer Relationship Management (CRM) y Data Warehousing- se ha basado en los resultados de una encuesta realizada entre los lectores de la revista y la investigación ha sido llevada a cabo por la empresa Market Perspective vía web. SAS, desde año en que se concedieron por primera vez estos premios -, ha sido la única compañía en posicionarse siempre entre las tres primeras del ranking. Según Ron Powell, director editorial de DM Review, "Aparecer en DM Review 100 demuestra el compromiso que la compañía ha adquirido con sus clientes y significa que conoce perfectamente sus necesidades y que está dispuesta a darles respuesta. SAS ha sido seleccionada por nuestros lectores como la empresa líder en soluciones e-Intelligence".

20 Enterprise Miner Release 4.0 con SAS Release 8e
Cliente: Windows 95/98/2000/NT Client Servidor: Win NT Server; Win 2000 MVS OS/390 Unix: AIX, HP-UX, Sun/Solaris, Compaq Tru64 Unix, Intel ABI (incl. MP-RAS) Compaq Tru64 Unix 4.0E Specify the delivery date and that we will be shipping under SAS V8.1. Hold off on discussing V8 advantages until next slide. Indicate that we will be shipping EM on different platforms in waves and that platforms highlighted in yellow are new.

21 Decisión (BI) Acceso a los datos : DW/DBMS
Sample Explore Modify Model Assess Metodología SEMMA Decisión (BI)

22 Sample Explore Manipulate Model Assess ¿Muestreo? Exploración Visual
Reducción Datos Agrupaciones, Subconjuntos Transformaciones Redes Neuronales Arboles Decisión Técnicas Estadísticas Asociaciones Secuencias Comparación Modelos, Nuevas Preguntas 22

23 Sample Sample (Muestreo) Partición de los datos Training Validación Test

24 Explore (Exploración) Conocer los datos
Tendencias principales Rango de las variables clave Frecuencia de los valores Correlación entre variables Grupos

25 Nodo Distribution Explorer
Al ejecutar el nodo se pueden generar Tablas, incluyendo tablas cruzadas para variables de clasificación y estadísticas descriptivas de las variables contínuas.

26 Nodo Multiplot Genera automáticamente gráficos de distribución de cada variable. También genera gráficos que ilustran la relación de cada variable con la variable target.

27 Modify (Modificación) ¿Con qué información trabajar?
Experiencia de negocio Transformar variables para la modelización óptima

28 Construir el modelo que responde a la pregunta planteada
Model (Modelización) Construir el modelo que responde a la pregunta planteada Modelos Estadísticos RNs Arboles de decisión Series temporales

29 Tree View- basado en MSF
If you don’t understand the MFC browser, use this slide instead, otherwise skip this slide.

30 Assess (Validación) Cuál es la mejor técnica?
Assessment Assess (Validación) Cuál es la mejor técnica?

31 Interfaz

32 Diagramas de flujo del Proceso

33 Nodo Reporter Genera automáticamente un informe con detalles y resultados del PFD. Los informes son em formato HTML Se pueden leer utilizando cualquier web browser.

34 Un ejemplo .... SAS Enterprise Miner trabajando para identificar el grupo obejtivo de una campaña de marketing....

35 ¿Qué servicios son relevantes? Cuál es su valor "LTV"
Proceso completo para Data Mining SEMMA ¿Qué comprarán? ¿Qué servicios son relevantes? Cuál es su valor "LTV" ¿Quiénes son mis clientes?

36 Subdividir los datos del cliente para entrenar los modelos y validar los resultados

37 Explorar los datos para validar las técnicas de muestreo y
descubrir nuevos patrones de compra

38 ¿La muestra es representativa de la población?

39 Segmento “Gasto” alto

40 Co-linealidad... Co-linelidad...

41 Modificar datos del cliente para mejorar la capacidad predictiva del modelo

42

43 Modelo de clientes para anticipar su próxima acción
¿Qué quieren mis clientes? ¿Qué nuevos clientes debería adquirir? ¿Qué productos y servicios comprarán? Modelo de clientes para anticipar su próxima acción

44 Resultados del árbol de decisión... Hoja “Pura”

45 Perfil del cliente ideal

46 Validar qué modelo predice mejor el comportamiento del cliente frente a la compra
Puntuar clientes

47 Respuesta capturada del Warehouse de clientes
Comportamiento del modelo... Respuesta capturada del Warehouse de clientes “Grupos” de clientes

48 Puntuar Warehouse de clientes

49 Clasificación de Leucemia agua, usando “Perfil de expresión genética”
La leucemia linfoblástica aguda y la leucemia mieloide aguda , presentan síntomatología similar La distinción de los dos cánceres es crítica para un tratamiento eficaz Se uitliza Data Mining para identificar los genes que difrencian claramente los dos cánceres -- asegurando un tratamiento adecuado de los pacientes

50 Datos para la investigación
Fichero de Training : 38 pacientes: 11 AML (Leucemia Mieloide Aguda) 27 ALL (Leucemia Linfoblástica Aguda) - 19 Células B-, 8 Células T Fichero de Test : 34 pacientes: 14 AML 20 ALL - 19 células B, 1 células T Número total de genes en las matrices : 7129

51 Resultados Note: Golub voting method can only classify two-types disease. * indicates ignoring Golub’s PS values.

52 Análisis del comportamiento
Sample Explore Model Asses Modify

53 Dell Online CRM Analítico
Análisis del camino para mejorar el contenido y la navegación del site Segmentación de clientes Mejora en la gestión de campañas Similarly, we are doing some interesting work with Dell Online, who also has warehoused a great deal of web data. Achieving greater customer understanding and evolving the site based on customer needs are motivating some interesting applications.

54 R&D sigue trabajando... “Fuzzy Pattern Matching” Text Mining Genomics

55 Enterprise Miner 4.1 Memory Based Reasoning
Idea básica : buscar en una base de datos y permitir “coincidencia inexacta” (k vecinos más próximos) Requiere una definición de similitud para cada variable y una regla de combinación para calcular la distancia MBR = “fuzzy” pattern matching , usado para categorización

56 Enterprise Miner 4.1 Memory Based Reasoning
Aplicaciones: Cualquier B2C, e-business on-line Venta por catálogo Programación de vuelos

57 Enterprise Miner para texto
Text Mining: Descubrir y utilizar el conocimiento que existe en una colección de documentos Permite la entrada de texto, el proceso, la clasificación & generación de clusters Puede gestionar gran número de documentos Conocimiento

58 Proceso de Text Mining

59 Investigación del Genoma
Entender el genoma humano supondrá una revolución en la forma en que se desarrollan los medicamentos Grande volúmenes de datos - requieren un proceso complejo Colaboración iBiomatics/SAS para proporcionar un “Genomic warehouse” Enterprise Miner para Genomics como un add-on al EM resolviendo la parte analítica

60 Enterprise Miner para Genomics

61 Data Mining y otras iniciativas
Data Mining y CRM Adquisición, retención y rentabilidad de clientes, venta cruzada, nueva venta, fraude. Data Mining y cálculo sobre Web Scoring On-line de clientes Data Mining y “e” Perfil de clientes, personalización, adaptar entorno al comportamiento del cliente, identificar potencial, incrementar la fidelidad al sitio web Data Mining y Sector Farmacéutico Hallar estructuras químicas, decubrir nuevos medicamentos, investigación de efectos, ventas y marketing Data Mining y Sistemas Capacity planning, detección de intrusos

62 Conclusiones : ¿Qué nos aporta el Data Mining ?
Conocimiento

63 Conclusiones: SAS Enterprise Miner™
Metodología de implantación GUI para el proceso de DM Todas las técnicas data mining Resultados orientados al experto de negocio Entorno Cliente/Servidor Posibilidad de ampliación de funcionalidad (flexible) Integrado con las tecnologías data warehouse, Web y OLAP


Descargar ppt "Ana Drozdowskyj Analytical Solutions Product Manager SAS Spain"

Presentaciones similares


Anuncios Google