La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

Presentaciones similares


Presentación del tema: "Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada."— Transcripción de la presentación:

1 Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada por Pedro Concejero Cerezo Dirigida por Rosario Martínez Arias 9 de diciembre 2004 Universidad Complutense de Madrid – Departamento de Metodología de las Ciencias del Comportamiento

2 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 1 Índice 1 Objetivos Introducción teórica 2 La fidelización del cliente y el CRM 3 Aplicaciones de metodología ROC 4 Metodología de análisis de curvas ROC y medida de la eficacia diagnóstica Investigación empírica 5 Hipótesis y predicciones 6 Método 7 Resultados Conclusiones INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

3 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 2 Aplicación de metodología curvas ROC a problema actual de CRM: optimización de la decisión entre clientes fieles / no fieles, y evaluación de la eficacia global de procedimientos estadísticos de predicción. Objetivos: curvas ROC en marketing ¿Por qué ROC en marketing? Metodología prácticamente desconocida en marketing. En los últimos 15 años ha encontrado aplicaciones en muchas áreas con problemas asimilables al diagnóstico (decisiones con sólo dos alternativas: sí / no, enfermo / sano), con aplicaciones muy interesantes para detección rápida,o screening. 1 ÍNDICE OBJETIVOS INTRODUCCIÓN TEÓRICA Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES El objetivo de investigación es fuertemente multidisciplinar... Las curvas ROC son una herramienta metodológica con raíces en la Psicofísica que ha conocido un enorme avance en los campos de diagnóstico médico y psicológico.... y metodológico: Los métodos de curvas ROC admiten dos enfoques: paramétrico y no paramétrico. El objetivo es compararlas y poner en práctica todas las posibilidades de esta metodología (evaluación de la eficacia, análisis coste-beneficio, detección rápida, análisis de la capacidad predictiva).

4 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 3 El problema de la fidelización del cliente en marketing Paradigma dominante en marketing es CRM (Customer Relationship Management). Aspectos claves son la fidelidad y el abandono de los clientes, y predecirlo. 2 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES Factores en paradigma CRM la importancia del factor tecnológico: el empuje de la minería de datos. ¿Existe una teoría fuerte que explique la fidelidad del cliente? No, son modelos parciales: Enfoques conductual y actitudinal. Enfoques dirigidos hacia la predicción en áreas de aplicación específicas. Fidelidad en la práctica es un constructo que hay que definir y operativizar para el campo de aplicación específico. Tarjetas son herramienta básica para programas de fidelización: herramienta de relación con la marca, estudio del comportamiento, bonificación del consumo. Muchos tipos: Con o sin método de pago incorporado Con o sin programas de puntos Una única marca vs. Multimarca

5 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 4 El problema de la fidelización del cliente en marketing 2 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES Objetivos del análisis de nuestra tarjeta de fidelización (Travel Club) Operativamente definimos fidelidad como redención de puntos: si un cliente dispone de suficientes puntos y nunca ha redimido podremos concluir que está en riesgo de abandonar el programa Detectar clientes que puedan estar en riesgo de abandono del programa Optimizar reglas de decisión basadas en indicadores conductuales disponibles ¿Tener tarjeta garantiza la fidelización? La clave del éxito es la adecuada gestión y el análisis

6 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 5 Breve historia de las curvas ROC en diferentes áreas ROC es acrónimo de Receiver –o también Relative- Operating Characteristic y requiere un sustantivo además: curva ROC, análisis ROC. 3 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES Origen en Teoría de Detección de Señales (Tanner, Swets y Green, 1956; Green y Swets, 1966). Técnica clásica y como tal se sigue aplicando en Psicofísica. En contexto de laboratorio psicofísico se mantienen supuestos fuertes de normalidad. Desde años 70 se aplican en diagnóstico por la imagen (radiodiagnóstico) y se extienden con mucha rapidez en otras áreas de la medicina. Fechas importantes en desarrollo de curvas ROC en medicina: Metz (1978) y Swets (1979) en campos de diagnóstico por imagen (Radiología) Hanley y Mc.Neil (1982 y 1983) DeLong, DeLong y Clarke-Pearson (1988) Swets y Pickett (1982), Swets (1986, 1988) Como metodología, el análisis ROC se han caracterizado por su desarrollo muy centrado en aplicaciones concretas.

7 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 6 El análisis ROC para instrumentos de detección temprana ¿Por qué tarda en difundirse en la Psicología? Áreas de aplicación desde años 90: 3 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES 1 - Psicología Clínica: Detección temprana de trastornos psicológicos Predicción del uso de los servicios de salud Predicción del reintento de suicidio Detección de adicciones Análisis coste-beneficio en contextos clínicos Predicción del maltrato Algunas aplicaciones en Psicología Educativa 2 - Psicología Forense: Predicción de reincidencia Violación libertad condicional Análisis de decisiones de jurados 3 - Tecnologías de la información 4 - Investigación de mercados: muy pocas aplicaciones, en sectores muy específicos

8 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 7 El análisis de curvas ROC Punto de partida es tabla de contingencia, para cada punto de corte: 4 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES Para cada punto de corte: ROC representación de (1-especificidad) –eje x vs. Sensibilidad – eje y según se varía el punto de corte para la decisión. Permite comparar instrumentos de diagnóstico en eficacia global (indep. de punto de corte)

9 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 8 Análisis ROC paramétricas y no- paramétricas La importancia de la tasa de prevalencia, valor predictivo positivo y negativo y análisis coste-beneficiovalor predictivo positivo y negativo y análisis coste-beneficio 4 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES El área bajo la curva AUC [0.5:1] tiene un significado esencial: Proporciona índice de eficacia diagnóstica puro, independiente de punto de corte Enfoque no paramétrico La curva no es tal: colección de puntos para los puntos de corte del estudio. Estimación AUC y comparación curvas: regla trapezoidal y U de Mann-Whitney Ventajas: No requiere supuestos de distribuciones de partida, cálculo muy sencillo y directo Desventajas: Subestima el área bajo la curva, sólo aplicable para comparación de curvas en sensibilidades y especificidades observadas Enfoque paramétrico (supone binormalidad): Produce efectivamente una curva (estimación de máxima verosimilitud), para todo el rango de valores posibles Comparación mediante contrastes estadísticos Z Ventajas del enfoque paramétrico Compara curvas para cualquier sensibilidad y especificidad Desventajas del enfoque paramétrico Cumplimiento de supuestos puede ser muy difícil, y cálculo complejo Representación alternativa en caso de ROC binormales: recta en puntuaciones típicas normalizadas

10 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 9 Medir la precisión o efectividad de un sistema diagnóstico: índices de eficacia Propiedades de las medidas de un sistema diagnóstico: fidelidad, consistencia, precisión y eficacia. Swets (1986) expone dos tipos de índices de eficacia: Con umbral fijo De modelo de umbral variable Swets (1986) muestra que todos los índices se pueden expresar como funciones de curva o punto ROC. La curva ROC es el instrumento de medida de eficacia diagnóstica más general, y: Proporciona índice de eficacia diagnóstica puro, indep de punto de corte Estima probabilidad de diferentes resultados de tabla de clasif. Cruzada Proporciona base para decisión sobre punto de corte, incluyendo probabilidades y costes o utilidades. Alternativas a curva y análisis ROC: En recuperación de información existen indicadores específicos (precision, cobertura, F –Lewis y Gale, 1994) El gráfico Lift o de elevación es un concepto con un objetivo similar muy típico en marketing, pero con bases muy diferentes El gráfico Lift o de elevación 4 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

11 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 10 Parte empírica 5 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES Aplicación de metodología de análisis ROC en una tarjeta multimarca española (Travel Club), usando los dos procedimientos (paramétrico y no paramétrico) para: Establecer regla empírica, mediante procedimientos estadísticos que permitan optimizar la eficacia predictiva, para distinguir clientes de fieles de los que no lo son, a partir de definición operativa establecida anteriormente (basada en redención de puntos). Evaluar la eficacia de diferentes procedimientos estadísticos de predicción o clasificación de clientes en fieles versus no fieles.

12 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 11 Hipótesis y predicciones Hipótesis 1: Si las curvas ROC son el mejor método para evaluar la capacidad predictiva de indicadores individuales, entonces 5 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES H1a: Mediante el análisis de curvas ROC sobre las variables de nuestra base de datos, individuales o agregadas de una manera simple, seremos capaces de encontrar un indicador con capacidad predictiva estadísticamente significativa. H1b: Obtendremos conocimiento sobre la capacidad predictiva de las variables de interés en nuestra base de datos, mediante el cálculo de la curva ROC empírica. H1c: Una vez calculadas éstas, podremos realizar contrastes estadísticos de significación de la capacidad predictiva de forma no paramétrica. H1d: Y si obtenemos un indicador cuya distribución sea suficientemente normal, podremos optimizar la estimación de los indicadores de la curva ROC mediante la aplicación del modelo binormal. H1e: Y a partir de la elección de un modelo de curva ROC de los pasos anteriores, seremos capaces de encontrar puntos de corte óptimos después de un análisis coste-beneficio. Hipótesis 2: Si es posible estimar un modelo de regresión logística o un modelo de árbol de decisión sobre nuestros datos, entonces H2a: Podremos decidir entre uno u otro para proponerlo en competición con el indicador individual que hemos encontrado antes. H2b: A partir de su aplicación en la base de datos, podremos realizar análisis de curvas ROC que nos permitan comparar la capacidad predictiva de las dos aproximaciones (modelo estadístico vs. indicador único).

13 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 12 Método Data mart de 7411 clientes que a la fecha de su confección (enero de 2003) llevaban al menos 1 mes y como máximo 1 año inactivos. Primer proceso fue la limpieza de la base de datos de partida (datos incorrectos o irrelevantes): base final para el análisis son Exploración de datos: 39% varón, 35% mujeres y resto desconocido 73% con edad conocida media edad: 43.7 años Sólo 5.88% dados de alta en web 12.44% tienen tarjeta(s) adicional(es) Distribución decreciente de número de meses inactivo 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

14 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 13 Método Clasificaciones propias del negocio (datos elaborados por Travel Club): Perfil de compra (HMLNUM) es clasificación por frecuencia de compra con criterios puros de negocio Índice de capacidad adquisitiva, en 5 categorías, mediante procedi- mientos estándar (datos externos, datos estadísticos centralizados) El más importante resultará el perfil multipatrocinador. El indicador disponible en la base de datos resultará muy pobre 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

15 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 14 Método Variable de clasificación de perfil multipatrocinador creada a partir de datos de consumo: 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

16 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 15 Resultados Transformaciones necesarias en variables de adquisición de puntos para llevarlas a la normalidad y agregar variables separadas en la base de datos (puntos acumulados hasta 2002 y durante 2002): 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES Media de 181 puntos una vez transformada, mediana de 184 puntos en escala directa. Distribución es normal según prueba de Kolmogorov-Smirnov.

17 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 16 Resultados Variable redención de puntos es criterio esencial para tomar decisión: sólo un 9.30% ha redimido puntos en alguna ocasión. ¿Qué variables individuales – por sí mismas- pueden predecir la conducta de rendención de puntos? Realizamos un análisis sistemático mediante curvas ROC empíricas para encontrar aquéllos mejores predictores individuales: Número de meses inactivo tiene alguna capacidad predictiva significativa Perfil de compra (HMLNUM) tiene alguna capacidad predictiva significativa, no así el índice de capacidad económica. La edad tiene alguna capacidad predictiva significativa. Observamos también una relación significativa en porcentaje de redención si el cliente está registrado en la web o no. La variable que mayor capacidad predictiva ofrece por sí misma es el total de puntos obtenidos históricamente (suma de los históricos más los del año en curso). 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

18 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 17 Resultados Una vez realizada transformación logarítmica tenemos distribución global normal, pero ¿y si diferen- mos entre los que redimen y los que no? 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES El requisito de binormalidad es muy difícil de cumplir. Aun así, intentamos el cálculo de la curva ROC mediante los procedimientos paramétricos. El ajuste es razonablemente bueno, aunque la ganancia en capacidad predictiva (AUC=0.796) con respecto a procedimiento empírico (AUC=0.791) es muy pequeño.

19 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 18 Resultados Análisis coste-beneficio: ¿Podemos establecer una regla que nos permita realizar el análisis coste-beneficio que permite el hecho de disponer de una curva ROC? Tendríamos funciones básicas de coste en función de razones alternativas de coste/beneficio 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

20 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 19 Resultados Para garantizar una potencia predictiva del 80%, si tenemos una prevalencia del 9% tendremos que establecer un punto de corte en torno a 7600 puntos, mientras que si tenemos una prevalencia del 20% sólo necesitaríamos en torno a 3400 puntos Conclusión parcial: el análisis ROC nos permite elegir mejor indicador predictivo individual y optimizar punto de corte (Hipótesis 1). 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES El gran efecto de las distintas tasas de prevalencia:

21 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 20 Resultados Comparación de modelos estadísticos de predicción: regresión logística versus árboles de decisión. Se realizó mediante Enterprise Miner v.4.1. de SAS v Permite la comparación mediante curvas ROC empíricas (procedimiento visual) de los resultados de diferentes procedimientos estadísticos. La regresión logística ofrece mejor capacidad predictiva global 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

22 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 21 Resultados Los árboles de decisión son una técnica para representar reglas ocultas en los datos Estructuras jerárquicas, secuenciales, que hacen particiones en los datos de forma recursiva. Algoritmos como AID, MAID, THAID y CHAID construyen árboles de segmentación binaria 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

23 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 22 Resultados El modelo de regresión logística incluye 6 predictores, 2 de ellos variables a nivel de intervalo (total de puntos transformada y número de meses inactivo) y 4 de categoría (si está registrado online, el perfil de compra y dos dummy de la variable de perfil multipatrocinador) 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

24 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 23 Resultados ¿Rinde mejor en capacidad predictiva global el indicador individual total de puntos transformado, o el modelo resultante de la regresión logística? Análisis no paramétrico de curvas ROC permite responder a esta pregunta 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

25 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 24 Conclusiones En cuanto a la hipótesis 1, sobre las curvas ROC y su capacidad de evaluar la capacidad predictiva de indicadores individuales: (H1a) Análisis ROC permite tomar decisiones sobre la capacidad predictiva de distintas variables de nuestra base de datos, de una manera estándar para todas ellas y con una gran potencia y simplicidad. De este modo hemos sido capaces de identificar un valor agregado (una simple suma de puntos) con una capacidad predictiva muy importante. (H1b y c) Análisis ROC permite tomar decisiones entre alternativas mediante el enfoque de curva ROC empírica y contrastes estadísticos basados en la ROC no paramétrica. (H1d) Después de realizar las transformaciones necesarias sobre la variable agregada que hemos identificado como más predictiva, análisis ROC según el modelo binormal permite aumentar la capacidad predictiva, aun cuando tiene la gran limitación de cumplir el supuesto de distribuciones binormales que se solapan, que puede ser muy difícil de cumplir en entornos aplicados, y sobre todo en aquellos casos en que el hecho positivo sea muy raro, puesto que nos será más difícil cumplir este supuesto. (H1e) Análisis ROC permite establecer un punto de corte que optimice el beneficio esperado. Sin embargo, no hemos sido capaces de estimar suficientemente los costes y beneficios para obtener toda la potencia del modelo, y hemos tenido que realizar simulaciones con varias razones de costes-beneficios. 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

26 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 25 Conclusiones En cuanto a la hipótesis 2, hemos podido estimar un modelo de regresión logística y un modelo de árbol de decisión y: (H2a) Hemos podido compararlos en capacidad predictiva utilizando una forma muy básica de curva ROC, según la proporciona el paquete estadístico sobre el que se han estimado tanto la regresión logística como el árbol de decisión. Pero no hemos sido capaces de hacer contraste estadístico entre el área bajo la curva de cada modelo, puesto que esta funcionalidad no la incorpora el programa estadístico. Por tanto, hemos tomado una decisión a partir de la curva ROC dibujada. No hemos podido extraer las puntuaciones probabilísticas a partir del árbol de decisión de tal manera que pudieran ser comparadas con el rendimiento de la variable identificada en el paso 1. Sí que hemos podido hacer con el modelo de regresión logística, y... (H2b) Hemos comparado el modelo de regresión logística con el modelo de un único predictor identificado en el paso 1, llevando a cabo el contraste de hipótesis estadísticas, pero no hemos podido realizar esta comparación con el modelo binormal, puesto que la salida del modelo de regresión logística no cumple el supuesto de distribuirse normalmente. 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

27 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 26 Discusión Limitaciones de este estudio Conclusiones sobre modelos de curvas ROC: Disponibilidad de software hace posible por fin aplicación de metodología de curvas ROC en muchos campos Resulta necesario disponer al menos de enfoque no paramétrico completo (contraste estadístico entre curvas alternativas) Modelos de curvas ROC binormales aportan mayor potencia pero imponen requisitos muy estrictos y de difícil cumplimiento en muchos campos aplicados La gran eficacia y simplicidad del enfoque de screening Eficacia predictiva en el mundo real: No existe una regla simple que permita optimizar la decisión Estimación de costes y beneficios individuales (para cada caso en la tabla y no sólo para estimar una razón) todavía un problema El gran efecto de la prevalencia Directrices futuras: La incorporación de metodología de curvas ROC en procedimientos de minería de datos 6 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

28

29 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 28

30 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 29 Ejemplo de salida de tabla completa de sensibilidad y especifidad para cada punto de corte (ejemplo factor 2 de instr. Detección maltrato) ANEXOS

31 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 30 Figura Curvas ROC empíricas para factor 2 y puntuación "suma" del instrumento de detección de maltrato infantil, obtenidas con el programa NCSS 2004 ANEXOS

32 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 31 Ejemplo de coste beneficio y valores predictivos negativo y positivo Análisis coste-beneficio. Necesario tener en cuenta la tasa de prevalencia: valor predictivo positivo y negativo ANEXOS

33 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 32 Figura Valores predictivo positivo y negativo de la escala de abandono o factor 2, para tres tasas de prevalencia de maltrato infantil en la población: 0.05, 0.07 y Las funciones crecientes son el valor predictivo positivo, y las decrecientes el negativo. A su vez, la creciente inferior corresponde a la prevalencia de 0.05, la siguiente a 0.07 y así sucesivamente ANEXOS

34 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 33 Figura Funciones de coste según enfoque de Metz y NCSS 2004 de la clasificación en función del punto de corte del factor 2 ANEXOS

35 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 34 Figuras 4.17 y 4.18 Representaciones alternativas de curvas ROC binormales (en escala natural de sensibilidad y especificidad y en escala de puntuaciones típicas) ANEXOS

36 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 35 Figura Representación de la ROC en el espacio definido por las puntuaciones típicas cuando no se cumple el supuesto de binormalidad ANEXOS

37 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 36 Figuras El gráfico de elevación (lift chart) frente a las curvas ROC ANEXOS

38 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 37 Salida del procedimiento árbol de decisión ANEXOS

39 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 38 Salida del procedimiento árbol de decisión ANEXOS

40 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 39 Opciones de ajuste del árbol en SAS (1) ANEXOS

41 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 40 Opciones de ajuste del árbol en SAS (2) ANEXOS

42 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 41 Opciones de ajuste del árbol en SAS (3) ANEXOS

43 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 42 El análisis ROC para instrumentos de detección temprana A partir de años 90 se observa crecimiento de aplicaciones en áreas clínicas y aplicadas de la Psicología. Su mayor difusión se basa en el enfoque no paramétrico: desaparecen supuestos fuertes y se aplica a instrumentos de detección rápida (screening). Aparecen contrastes estadísticos basados en U Mann- Whitney – Wilcoxon. Se convierte en herramienta estándar en epidemiología y en áreas de diagnóstico, prevención primaria. Tarda en aparecer en paquetes estadísticos Macro SAS de DeLong et al. También se desarrollan macros para S-Plus y lenguajes especializados. Incorporación como herramienta gráfica en SPSS. Aparición de software específico para el análisis no paramétrico (GraphROC) en ámbito médico. Desarrollo de software específico para modelo paramétrico (binormal) en Universidad de Chicago. NCSS 2004 es el único software estadístico que incorpora los dos modelos de forma completa. 3 INTRODUCCIÓN TEÓRICA ÍNDICE OBJETIVOS Fidelización y CRM Aplicaciones curvas ROC Metodología ROC y eficacia diagn. INVESTIGACIÓN EMPÍRICA Hipótesis y predicciones Método Resultados CONCLUSIONES

44 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 43 Figura 4.15: Elección de p. corte = 45 en factor 2 instr. maltrato ANEXOS

45 Universidad Complutense de Madrid Departamento de Metodología de las Ciencias del Comportamiento 44 Figura 4.15: Elección de p. corte en puntuación total maltrato ANEXOS


Descargar ppt "Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada."

Presentaciones similares


Anuncios Google