Data Mining para Marketing Directo

Data Mining para Marketing Directo
Juan Carlos Ruilova T.

Marketing Directo Porque Marketing Directo? A las personas no nos gusta que nos traten iguales. Gran diversidad de clientes cada un con diferentes características. One to one es el objetivo en los negocios. Ejemplos: Habib’s, UOL Diferente al Marketing de Masas.- requiere conocimientos técnicos, el gasto es menor, es más estratégico.

Marketing Directo Como abarcar todos los clientes, cada uno con diferentes características? Segmentación de mercado.- Regresión Logística, Análisis Cluster, Árboles de Decisión, etc. La segmentación es realizada sobre datos demográficos, de comportamiento y de actitud. Antes es necesario conocer bien la base de datos.- Análisis exploratorios.

Marketing Directo Después de la segmentación se aborda a los clientes con diferentes estrategias para: Fidelización, Cross Selling, Adquisición de Clientes, Migración, Life Time Value, Cancelamiento, Descancelamiento, etc. Al final siempre son importantes las validaciones y las pruebas que confirmen los resultados.

Data Mining Ha dado resultados prácticos importantes.
A veces ha existido frustramiento por parte de algunas empresas. El mineo de datos requiere operaciones que deben ser analizadas por un estadístico o alguien quien conozca no solo los conceptos sino también sepa interpretar los datos cuando existen cambios.

Data Mining Data Mining requiere de una iteración entre las áreas de Computación, Estadística y del área de Negocios. Data Mining comenzó a popularizarse debido a la facilidad y bajo costo para guardar informaciones y para utilizar estos datos. Profesionales con gran experiencia a veces rechazan el Data Mining, pero los resultados son los que le han popularidad.

Data Mining Data Mining es parte del KDD (Knowledge Discovery in Databases) o búsqueda de conocimientos en bases de datos. El Data Mining, podría definirse como el proceso que extrae informaciones, sin conocimiento previo, de grandes bases de datos, y las usa para la toma de decisiones.

Data Mining Dentro del mundo estadístico, el Data Mining es definido peyorativamente como un análisis exploratorio dentro de grandes bases de datos. El Data Mining es un área multidisciplinaria que relaciona procedimientos como técnicas estadísticas, reconocimiento de padrones, aprendizaje de máquinas, etc. La selección de una herramienta adecuada es vital para el Data Mining.

Aplicaciones del Data Mining
Sector Bancario, modelos de credit e behavior scoring, comportamiento en el uso de tarjetas de crédito, fidelización, cross selling, life time value, etc. Marketing y Comercio, comportamiento de compra de clientes, segmentación, respuestas a campañas de marketing, productos comprados vs. características demográficas, adquisición, etc. Seguros y Planos de Salud, predicción de clientes propensos a comprar pólizas de seguros, identificación de fraudes, etc.

Aplicaciones del Data Mining
Medicina, identificación de mejores terapias para diferentes dolencias, etc. Industrias, determinación de confiabilidad de productos industriales complejos, calidad, etc. Transporte, análisis y comportamiento de cargas, logística, cronogramas, fraudes, etc. Internet, identificación de patrones de home pages, búsqueda y agrupamiento de documentos.

Data Mining y Análisis Estadístico
El Data mining podría entenderse como una adaptación de las técnicas Estadísticas tradicionales, aplicadas a grandes bases de datos. Muchas bases de datos son constituidas por una enorme cantidad de registros donde las variables pueden estar contaminadas, no ser iid, no presentar estacionariedad, presentar sesgo, etc.

Debido al gran tamaño de las bases de datos, algunos métodos de estimación secuencial y adaptativos fueron desarrollados. Otro problema se debe al almacenamiento de la bases de datos y es que muchas veces los datos tienen una estructura hierárquica que dificulta el acceso a la base total. Por esto motivo, técnicas de estratificación y agrupamiento han sido necesarias.

Otro problema es que cuando existen datos en abundancia, las pruebas de hipótesis quedan comprometidas pues los resultados siempre apuntan a la fuerte evidencia de que efectos, aunque pequeños, existen. La palabra estadísticamente significante, entonces podría verse comprometida.

Otro aspecto importante dentro del data mining es la depuración de los datos contaminados que básicamente tiene que ver con la detección y tratamiento de los datos missing (datos faltantes o incoherentes) y outliers (datos erróneos y valores reales).

Importancia de las Bases de Datos
El tamaño de las bases de datos es de vital importancia en el Data Mining, así la importancia de un sistema gerenciador es fundamental. Una característica en una base de datos es definida como un conjunto de líneas que comparten el mismo valor en 2 o más columnas. La confianza, no en el sentido estadístico, es el porcentaje de líneas con una característica.

Estos términos son importantes para determinar incongruencias o excepciones en las bases de datos, así una característica con una gran confianza y un grande número de líneas es más poderosa que una corroborada por un pequeño número de líneas (característica débil).

Data Warehouse, es un sistema de gerenciamiento de la base de datos relacional. Tiene fuerte relación con el Data Mining. Data Warehouse extrae datos operacionales archivados y supera las inconsistencias entre diferentes formatos de datos, además integra los datos de toda la empresa, independientemente de la localización. En el Data Warehouse una vez que entran los datos no son actualizados ni alterados, simplemente cargados o accesados.

La idea principal en el Data warehouse es disponibilizar la información de tal forma que pueda ser usada para futuros procesamientos analíticos y toma de decisiones. Las tareas de Extracción (datos con diferentes formatos), Transformación, Limpieza (Inconsistencias) e Integración son necesarias para mover los datos operacionales al datawarehouse central.

El datawarehouse no resuelve todos los problemas de preparación de los datos para el Data Mining, así los datos extraídos del datawarehouse podrían necesitar de algunas transformaciones. Otro problema importante que se tiene con las grandes bases de datos es respecto al procesamiento de la información sin sacrificar el tiempo de respuesta.

El OLAP (On-line Analytical Processing) permite minimizar este problema y puede ser visto como una extensión del datawarehouse. La principal característica de una arquitectura OLAP es ser on line, de tal forma que el sistema pueda acceder a grandes cantidades de datos, promover los análisis de relaciones entre las variables, agregar los datos de forma adecuada para el análisis, presentar los datos en diferentes perspectivas y responder rapidamente a las preguntas del usuario (Dilly, 1998).

El proceso KDD

El proceso KDD Selección de las variables.- se refiere a extraer el conjunto de datos necesarios para la aplicación de data mining. Las variables pueden ser categóricas (nominales o ordinales) o cuantitativas (discretas o continuas). Es importante tomar en cuenta las mudanzas de variables tales como empleo, dirección, etc.

El proceso KDD Preprocesamiento de los datos.- trata de asegurar la calidad de los datos (datos limpios y comprensibles) para esto se usa métodos estadísticos y de visualización de los datos. Datos con errores (outliers) y valores faltantes (missing) son dos problemas resueltos en el preprocesamiento de los datos. Transformación de los datos.- juega un papel importante, técnicas como discretización, reducción de la dimensionalidad, categorización, etc. Son comúnmente usadas.

El proceso KDD Data Mining.- ajusta modelos y/o determina características en los datos. El proceso de data mining está directamente relacionado a la experiencia e intuición del analista, pues para cada problema existen un sinnúmero de algoritmos de data mining. Los algoritmos de data mining, en general, tienen una mezcla de cuatro componentes: El Modelo, Estimación de los parámetros, selección del modelo.

El proceso KDD El modelo, cuya función puede ser: Clasificación, Regresión, Dependencia, Asociación, Tendencia, Cluster, Sumarización, etc. La representación del modelo determina la flexibilidad del mismo a representar los datos y su interpretación. Los métodos más complejos generalmente ajustan mejor los datos pero son más difíciles de interpretar. Ejemplos son modelos que incluyen decisión por árbol, modelos lineales, modelos no lineales, reglas de decisión, etc.

El proceso KDD Estimación de parámetros, estima los parámetros necesarios para poder realizar la representación del modelo. Selección del mejor modelo, de entre varios modelos se escoge el mejor, pudiendo realizarse pruebas experimentales o teóricas o ambas.

El proceso KDD Los pasos en el KDD no comparten el mismo peso en términos de esfuerzo y tiempo. La preparación de los datos, por ejemplo, que envuelve la selección, procesamiento y transformación de los datos necesita entre el 60 y 80% del tiempo utilizado en todo el proceso, con la mayor parte del tiempo consumido en la limpieza de los datos.

Análisis Estadístico para KDD
Medidas de Locación Medidas de Dispersión Medidas de Simetría y Curtosis Tipos de Variables Distribución de frecuencias Tipos de Gráficos Análisis Exploratoria Análisis Univariada; Análisis Cruzada; Reducción de Datos; etc. Correlación y Regresión Muestreo y Poblaciones Probabilidad y Estadística

Análisis Estadísticos
Atravesamos nuestra vida tomando decisiones basadas en informaciones incompletas. La mayoría de nosotros convive confortablemente con algún nivel de inseguridad. Lo que vuelve a los Estadísticos únicos es su habilidad de cuantificar la inseguridad – esto los vuelve capazes de hacer afirmaciones categóricas con total confianza, al respecto de sus insegiridades... La Estadística es el arte de torturar los números hasta que digan la verdad...

Porqué la Estadística ha ganado importancia en el Database Marketing?
Empresas con gran cantidad de clientes Gran volumen de datos por cliente Costos computacionales en caida Capacidad de procesamiento en alta Busqueda de performance en Marketing infor- mación decisiones datos acciones

Estadística y Marketing Directo
Estatística Descritiva Presentación, sumarización e interpretación de los datos Conceptos básicos Modelos de Segmentación Segmentaciones Población Muestra Inferencia Estadística Estimación/predicción de cantidades desconocidas y extrapolación de resultados Modelos Predictivos Pruebas Pruebas de hipótesis a partir del análisis de probabilidades

Análisis Exploratorio
Consistencia de Datos. Detección y tratamiento de Outliers y Missings. Transformación de datos. Selección de las variables para el modelo. Requiere técnicas de visualización. Requiere de experiencia para la selección y tratamiento de las variables.

Análisis Exploratorio
Es fundamental que los profesionales de DBM conozcan íntimamente los dados de clientes y prospects. La comprensión de la lógica aplicada a la arquitetura de datos y de las reglas empleadas para realizar las actualizaciones a cada carga de datos es crucial para el análisis. (Ejemplo Folha de Sao Paulo). Gran parte de los análisis preliminares de datos es hecha a través de los portales web específicos (BI). La estadística descriptiva es el primer paso para un buen conocimiento de los datos.

Tipos de variables Cualitativas Variables Cuantitativas Nominales
(sexo, estado civil) Cualitativas (Dimensões) Ordinales (grado de escolaridad) Variables Discretas/ categóricas (edad, número de hijos) Cuantitativas (Fatos) Continuas (gasto)

Base de datos Exemplo

å Medidas de Resumen x = n Medidas de ubicación: Media
Mediana: valor que se encuentra en el centro de una serie ordenada de números Moda: valor que ocurre con mayor frecuencia Quartiles: valores que dividen una serie ordenada en cuatro partes iguales (Q1, mediana, Q3) Mínimo, máximo n x i å =

Medidas de resumo Medidas de posição: (variável peso) Moda: 89
, Moda: 89 Média: 75,28 Q1 Q3 Mediana Mínimo Máximo

Peso medio: 73.28kg Conclusión: todos pesam 73.28 kg!!!
Nós não somos todos iguais!!!

Medidas de Resumen Amplitud: diferencia entre el mínimo y el máximo.
Medidas de dispersión Amplitud: diferencia entre el mínimo y el máximo. Amplitud = max - min = = 77 Intervalo interquartil: diferencia entre el tercer y el primer quartil. IIQ = Q3 - Q1 = = 26 A idea es dividir los datos en 4 grupos iguales y verificar cuan distantes los grupos extremos son.

Box Plot para Edad Outliers Q3 + 1,5*IIQ=40 Q3 = 31 IIQ = 6
Mediana = 27 Q1 = 24

Medidas de Resumen Medidas de dispersión
Desviación Estándar: La Desviación Estándar mide la dispersión de los datos alrededor de la media. Se puede pensar como la distancia media entre cada observación y su media. La Variancia es la Desviación Estandar al cuadrado.

Ejemplo

Observación Importante
Los Box Plots son útiles para comparar variables dentro de las categorías de esta variable. Los hombres son más pesados que las mujeres, siendo que la mujer más pesada es más liviana que el hombre más liviano. No siempre es fácil establecer conclusiones, siendo necesarias otras herramientas.

Observación Importante
Es importante tener mucho cuidado en las conclusiones. En general, las personas casadas son más pesadas que las solteras. Conclusión: El casamiento engorda!

Medidas de Resumen Medidas de Simetría.
Distribución Simétrica (Curva Normal) Media=Mediana=Moda Si 0.15 < |Coef.As.| < 1, la asimetría es considerada moderada, si |Coef.As|>1 la asimetría es considerada fuerte. Asimétrica a la derecha Moda<Mediana<Media Asimétrica a la izquierda Media<Mediana<Moda

Curva Normal (mesocurtica)
Medidas de Resumen Coeficiente de Curtosis. Es el grado de achatamiento de una distribución en relación a una distribución estándar (curva normal, por exemplo). Curva Leptocurtica Curva Normal (mesocurtica) Curva Platicurtica Curtose =  curva mesocurtica Curtose <  curva leptocurtica Curtose >  curva platicurtica

Muestreo Población es un conjunto de entes portadores de por lo menos una característica en común, esto es la definición de universo estadístico. Muestra es cualquier subconjunto finito de una población. La gran ventaja de una muestra es el entendimiento de la población a bajo costo. Muestreo es el conjunto de técnicas para escoger una muestra. Normalmente el muestreo debe ser hecho aleatoriamente para garantizar representatividad, puede ser hecho con base en diversos métodos que garantizan mayor representatividad, por ejemplo, a través de métodos de estratificación, conglomerados, etc. Hacer inferencias al respecto de una población exige planeamiento correcto desde el cálculo del tamaño de muestra ideal, reglas de estratificación, y definición de los objetivos y objetos a ser medidos posteriormente, para que se garantice la calidad y validez de las informaciones. Errores en el muestreo producirán errores en las inferencias.

Tabulaciones (Distribuciones de Frecuencia)
En la selección de un grupo de clientes para una oferta, en la preparación de un modelo, o en la segmentación de la base de datos, tabulaciones (uni o multivariadas) son la forma de análisis más común en DBM. Este análisis permite que el analista identifique cuáles datos tienen relación con el comportamiento en análisis (compras, pagamientos, renovaciones, etc.) Frecuencia es el número de observaciones relacionado a un determinado valor de la variable. Puede ser representada en una tabla o gráficamente.

Distribución de Frecuencias

Histogramas Es la representación gráfica de la distribución de frecuencias. Son útiles para describir el comportamiento de una variable. Es importante tener un buen conjunto de clases para tener una buena visualización gráfica. Son una aproximación de la densidad, la que trae toda la información acerca de una variable.

Cross Tabs (Tabulaciones Cruzadas)
Muestran 2 o más variables al mismo tiempo. Destacan inter-relacciones entre variables, mostrando que una variable poco relevante puede ser bastante importante cuando es considerada en conjunto. Ejemplo (Tabulación).- Tasa de respuesta a una oferta en relación a la edad del respondiente. Idade Qtde % da Amostra No. de Pedidos Taxa de Resposta Indexação Menos de 30 1,529 15.29% 67 4.38% 175 31-40 1,775 17.75% 63 3.55% 142 41-50 1,879 18.79% 46 2.45% 98 51-60 2,054 20.54% 29 1.41% 56 Mais de 61 1,785 17.85% 18 1.01% 40 Info não disponível 978 9.78% 27 2.76% 110 Total 10,000 100.00% 250 2.50% 100

Cross Tabs (Tabulaciones Cruzadas)
Ejemplo (Tabulación cruzada).- Ofertas realizadas en una campaña vs. Pedidos efectuados. Total de Ofertas realizadas Total de Pedidos 1-5 6-10 11-20 21-30 31 plus Total 0.00% (0/0) 1.63% (8/491) 1.76% (17/967) 2.34% (20/856) 1.60% (16/998) 1.87% (62/3,312) 2.89% (8/277) 1.85% (14/756) 2.51% (29/1,154) 1.80% (16/887) 2.21% (68/3,074) 11-15 3.03% (14/462) (29/956) 2.67% (21/787) 2.90% (64/2,205) 15 plus 3.34% (12/359) 5.03% (30/597) 3.53% (16/453) 3.97% (56/1,409) 2.08% (16/768) 2.24% (57/2,544) (108/3,563) (69/3,125) 2.5% (250/10,000)

Correlación La relación entre dos variables puede ser medida a través de la correlación. Dos variables pueden ser correlacionadas positiva o negativamente, pueden ser correlacionadas de forma no lineal o también pueden ser no correlacionadas. Aplicaciones.- Cross Selling, Churn, etc. Correlación Lineal Negativa Correlación No-Lineal No hay correlación (correlación nula) Correlación Lineal Positiva La existencia de grupos de nubes de puntos puede interferir en el resultado

Regresión Determinar la relación de una variable vs. Otras.
10 20 30 40 50 60 70 80 90 5 15 25 Qtde. de cheques Qtde. de Clientes

Regresión Métodos.- Mínimos Cuadrados, Máxima Verosimilitud.
Tipos.- Lineal, No Lineal, Paramétrica, No Paramétrica, Modelos Mixtos, etc. Objetivos.- Realizar previsiones de una variable de interés en función de otras variables conocidas. Ejemplos.- Modelos de Descancelamiento, Estimación de la Volatilidad, Modelos Churn, Elasticidad del Precio, etc.

Distribuciones de Probabilidad
Importancia.- Describir totalmente el comportamiento de una variable aleatoria. Existen, modelos teóricos de probabilidad, que podemos adaptar a experimentos aleatorios en la práctica, como por ejemplo, la distribución Binomial, Normal, Poisson, etc. Exemplo1: La Regresión Logística, por ejemplo, admite que la variable respuesta tiene una distribución Binomial o Mutlinomial. Exemplo2: La Regresión Lineal admite que hay un error aleatorio con distribución Normal. Importancia de la Distribución Normal.- Teorema del Límite Central: Si tomamos una gran muestra de observaciones de una variable que sigue cualquier distribución, y que tenga variancia finita, entonces la distribución de la media muestral será aproximadamente normal.

Distribuciones de Probabilidad
Ejemplo 3: La Distribución del Número de Compras efectuada por los clientes de una empresa puede ser aproximada por Distribución de Poisson. Ejemplo 4: La distribución Lognormal también es una buena aproximación para informaciones de consumo de clientes. Ejemplo 5: El ajuste da regresión Logística permite la obtención de los Scores de Descancelamiento, Cancelamiento, Aquisición. El score ajustado de la regresión logística es un buen ejemplo de la aproximación de la Respuesta Binomial para la Distribución Normal. (Separación de buenos y malos clientes)

Modelos estadísticos, geomarketing Análisis/ Estrategia
Listas y otras fuentes externas Base de Prospects Facturamiento Sistemas transacionais Base de Cadastros Website Call Center Otras origenes Tratamiento, limpieza, deduplicación, householding DBM Banco datos Campañas/ Resultados Modelos estadísticos, geomarketing Customer Intelligence: Relatórios/ Análisis/ Estrategia Campañas de Relacionamiento Loyalty Fuerza de Vendas Mala Direta Website dinámico Call Center Premios, puntos

Análisis Predictiva y Descriptiva
Determina la relación entre datos y respuesta Identifica que datos son relevantes Determina la contribución de cada variable Descriptiva Describe miembros del database conforme los datos Asume que todos los datos son igualmente relevantes Considera que todas las variables contribuyen

Análisis Predictiva y Descriptiva
Frecuencias Tablas cruzadas Análisis de perfil Árboles de decisión Análisis de Clusters Análisis Factorial Predictiva Regresión Lineal Regresión Logística Series Temporales Árboles de decisión Redes Neurales

Segmentación.- Objetivos
Entender la utilidad y el porqué es necesario la segmentación. Entender los métodos y las dificultades para segmentar una base de datos. Comparar las diferentes técnicas de segmentación. Discutir algunos ejemplos y cases de aplicación de las técnicas de segmentación. Objetivo principal de una segmentación: Definir grupos de clientes de modo que los clientes de cada grupo tengan características semejantes.

Segmentación de mercado
Métodos de Segmentación: Tabulación (Conteo) Modelación Estadístico Clusterización Árboles de decisión Análisis factorial, discriminante

Ejemplo de Tabulación Ingresos
Edad anos anos anos anos Más 60 anos

Tabulación (conteo) Pocas variables envueltas. Exige poca técnica.
Usuario impone una segmentación a los datos. El resultado depende del formato impuesto. La identificación de los grupos se realiza en función de la experiencia o de la necesidad de la empresa de tener tales grupos.

Ejemplo de segmentación con base en Edad e Ingresos

Gráficamente Edad Ingresos 60 50 40 30 20
0 $ $ $ $ 4.000 60 50 40 30 20

Podemos estipular puntos de corte para limitar los grupos
Ingresos Edad 0 $ $ $ $ 4.000 60 50 40 30 20

Con quién estos puntos más se parecen?
Ingresos: corte en 3.000 Edad: corte en 40 años Ingrasos Edad 0 $ $ $ $ 4.000 60 50 40 30 20 Con quién estos puntos más se parecen?

Segmentación con técnicas estadísticas
Muchas variables envueltas Exige conocimiento técnico Los datos hablan por si mismos El resultado “depende” de la propria naturaleza de los datos. La experiencia y el conocimiento del negocio también es importante, pero solo en la selección de las variables. Es possível ‘forzar’ los resultados creando agrupamientos diversos.

Segmentación con técnicas estadísticas
Aplicaciones: Segmentar el público en grupos homogéneos. Descubrir individuos fuera del padrón. Descubrir los individuos que mejor representan cada grupo (centroides – personificación de los grupos)

Gráficamente Edad Ingresos 60 50 40 30 20
0 $ $ $ $ 4.000 60 50 40 30 20

Técnicas para segmentación
Cluster Técnica estadística más utilizada para hacer segmentación. Busca identificar grupos ‘naturales’ de clientes. Análisis Factorial Normalmente utilizado como un método de reducción de datos. Crea variables compuestas que ‘capturan’ el máximo possible De lo que es medido por los datos originales. Estas variables compuestas pueden ser utilizadas como base para una análisis de segmentación. Árboles de decisión Básicamente utilizado para identificar clientes que son probables de pertenecer a un grupo en particular.

Clusterización Divide el universo en grupos homogéneos.
Clusters ideales : homogeneidad intra-grupo, heterogeneidad inter-grupos.

Clusterización

Clusterización Variação intra grupos

Clusterización Variação entre grupos

Clusterización: Algoritmos buscam maximizar las diferencias inter-grupos y minimizar las diferencias intra-grupos

Algoritmo Diferencias Inter-Grupos Diferencias Intra-Grupos ~ F

Clusterización Dos técnicas: clusterización hierárquica
clusterización “K-means”

Cluster Hierárquico Inicio: Los dos objetos (observaciones o variables) más próximos son combinados. Para definir la proximidad entre los objetos, se adopta una medida de distancia. El algoritmo continua paso a paso juntando a los clusters formados, los objetos más próximos a ellos, hasta formar un solo cluster. Una vez unidos, dos objetos no son más separados.

Clusterización por el Método Hierárquico
Los pasos de la clusterización son mostrados en un dendograma. El método es hierárquico pues una vez que dos objetos son unidos, ellos permanecen así hasta el fin. Clusters formados en una etapa posterior contienen clusters formados en etapas anteriores.

Ejemplo: Dendograma Ciudad Ciudades más semejantes
Distancia media entre los Clusters Ciudad Ciudades más semejantes También son semejantes

Ejemplo: Dendograma Si quisiéramos dos grupos de ciudades Ciudad
Distancia media entre los Clusters Ciudad Si quisiéramos dos grupos de ciudades

Ejemplo: Dendograma Se quisiéramos 3 grupos de ciudades Ciudad
Distancia media entre los Clusters Ciudad Se quisiéramos 3 grupos de ciudades

Métodos para la clusterización hierárquica
Single Linkage (“Nearest Neighbor”) Complete Linkage (“Furthest Neighbor”) Centroid Clustering Median Clustering Average Linkage Between Groups Ward´s Method

Clusterización Hierárquica
Shortest Simple Linkage Longest Complete Linkage

Clusterización Hierárquica
Average Linkage Between Groups Centroid clustering

Clusterización por el método de K-Means
K porque el analista puede escoger el número de clusters a ser formados. Means porque las medias (o centroides) de las observaciones representan el cluster. Es un proceso iterativo donde, a cada paso, las observaciones son agrupadas en el cluster con el centroide más próximo, con el subsiguiente recálculo dos centros.

Define inicialmente 3 posibles centroides
Ejemplo (K-means) Três clusters para um grupo de clientes utilizando as variáveis idade e renda Define inicialmente 3 posibles centroides

Ejemplo (K-means)

A cada nueva observación, se clasifica el individuo y el centroide es recalculado

Precauciones para Clusterizar
Estandarizar las variables para evitar que valores grandes afecten más a las medidas de distancia que los valores pequeños. La técnica no identifica automáticamente variables “sin sentido” Es importante realizar primero una clusterización hierárquica (en una muestra) y después una K-means, caso no sea posible trabajar con toda la base.

Ejemplos Cluster de Productos (variables).- Adams
Cluster de Clientes (Observaciones).- Credicard (Hierárquico y K-means) Cluster de Censos.

Análisis Factorial Utilizado para disminuir el número de variables a ser utilizadas en una segmentación. Crea variables compuestas (factores) que pueden ser utilizadas en el análisis de cluster o en la regresión logística. Cada factor atribuye un score a cada una de las variables, pudiendo variar de -1 a 1, de acuerdo con la importancia de la variable.

Análisis Factorial Se puede crear tantos factores cuanto el número de variables utilizadas en el análisis. Cada factor es responsable por explicar un porcentaje de la variabilidad total de los datos. En general, los factores generados por el análisis poseen una interpretación lógica.

Cluster X Análisis Factorial
El análisis de clusters puede ser rodado utilizándose un número grande de variables, mas pueden ocurrir dos contratiempos: Se muchas variables miden las mismas (o muy similares) características, entonces lo que ellas miden puede tener un peso mayor en el análisis. Un análisis de clusters con muchas variables es de difícil interpretación. Sugerencia: en estos casos es útil primeramente correr un análisis factorial y luego un análisis Cluster.

Análisis Factorial Ejemplo: En un estudio de preferencia de los consumidores, una muestra aleatoria de clientes fue entrevistada sobre los atributos de un nuevo producto. Las respuestas varían en una escala de 0 a 7 (0: pésimo; 7: excelente)

Análisis Factorial Fator 1: fator nutricional Fator 2: fator de sabor
Fator 1 = 0,02*Gosto + 0,94*Saudável + 0,13*Sabor + 0,84*Crocante + 0,97*Energia Fator 2 = 0,99*Gosto - 0,01*Saudável + 0,98*Sabor + 0,43*Crocante - 0,02*Energia

Análisis Factorial Independientemente del estudio que se desea hacer con estos datos, en lugar de utilizarse las cinco variables, se puede utilizar apenas los scores de los dos factores, pues se tendría 93,2% de la variabilidad total de las cinco variables siendo explicada por estos factores.

Árboles de Decisión Aplicaciones típicas:
Mailing (Mala direta): determinar cuáles grupos tienen la mayor tasa de respuesta. Marketing: determinar cuáles variables están asociadas a las ventas. Churn: determinar cuáles aspectos más influencian en el cancelamiento. Listas: Cómo adquirir nuevos clientes.

Árboles de Decisión El método más conocido para crearse árboles de decisión es el CHAID (Chi-square Automatic Interaction Detection) Examina la relación entre muchas variables categóricas o discretas y un objetivo categórico o medida de resultado. El resultado es presentado en forma de un diagrama que muestra las variables explicativas que resultan en una mayor diferencia de la variable objetivo.

CHAID Ventajas sobre otros tipos de modelación estadística:
Produce un modelo que puede ser representado por reglas y especificaciones lógicas de fácil entendimiento y que pueden ser utilizadas para generar predicción en nuevas bases de datos. Trata valores nulos.

Árboles de Decisión Ejemplo de motivación:
Investigación de clientes para descubrir se ellos compraron o no un determinado producto. A partir de variables demográficas (región, sexo, edad y faja salarial), se desea saber cuáles subgrupos son más probables compradores. Solución directa: Hacer tablas cruzadas con la respuesta y verificar cuáles variables son individualmente más relacionadas con la respuesta.

El análisis sería confuso y complejo!
Árboles de Decisión Y si una combinación de los factores demográficos es relevante para la respuesta? Tablas de triple entrada, entrada cuádruple... El análisis sería confuso y complejo!

Algoritmo CHAID Examina las tablas cruzadas de cada variable explicativa con la respuesta. Realiza pruebas para verificar cual variable explicativa es más significante para la respuesta. Si la variable posee más de una categoría, el CHAID las compara y agrupa aquellas que no presentan diferencias entre si. Dentro de cada categoría de la primera variable escogida se examina las predictivas restantes y se verifica cual resulta en la diferencia más significante...

Ejemplos Cluster de datos del censatarios con primera parte usando análisis factorial. Case da Renault, usando información cruzada. Adquisición de Listas de la Folha de Sao Paulo. Cultura Inglesa.

Chaid X Clusters Chaid: los segmentos son derivados para predecir una variable dependiente. Clusterización: los clusters resultantes pueden no ser predictores.

Precauciones Realizar un análisis de correlaciones.
Tratar las variables. Tener cuidado con el exceso de inteligencia del árbol o la red neural. Comparar diferentes metodologías con la curva de ganancia. Probar los resultados. Base de entrenamiento y base de validación.

Data Mining para Marketing Directo

Presentaciones similares

Presentación del tema: "Data Mining para Marketing Directo"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Data Mining para Marketing Directo

Presentaciones similares

Presentación del tema: "Data Mining para Marketing Directo"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback