Relaciones y diferencias entre minería de datos y estadística Tema 2 Dr. Francisco J. Mata
Estadística, aprendizaje mecánico y minería de datos Basada en la teoría Enfocada en la prueba de hipótesis Aprendizaje mecánico: Heurístico Enfocado en mejorar el rendimiento de un agente que aprende Relacionado con aprendizaje en tiempo real y robótica – áreas que no son parte de la minería de datos Minería de datos Integra teoría y heurística Enfocada en todo el proceso de descubrimiento de conocimiento, incluyendo limpieza de datos y visualización de resultados Diferencias no son claras Dr. Francisco J. Mata
Estadística Arte y ciencia de la colección, interpretación y análisis de datos y la habilidad de obtener generalidades lógicas relacionadas con un fenómeno bajo investigación Dr. Francisco J. Mata
Estadística Relacionada con el método científico Especificación de objetivos Recolección de información Análisis de los datos Obtención de conclusiones Dr. Francisco J. Mata
Estadística Dos categorías principales Estadística descriptiva Métodos descriptivos para sumarizar y describir las características prominentes en los datos Estadística inferencial Métodos que proveen las bases de razonamiento para interpretar lógicamente hechos observados, determinar el rango en el cual estos hechos apoyan o contradicen un modelo postulado Dr. Francisco J. Mata
Estadística descriptiva Parámetros de una población Media o promedio Varianza o desviación estándar Distribuciones de frecuencia Dr. Francisco J. Mata
Estadística inferencial Muestreo Prueba de hipótesis Dr. Francisco J. Mata
Relaciones entre estadística y minería de datos Métodos de minería de datos pueden utilizar conceptos estadísticos Ejemplo: segmentación Métodos estadísticos pueden combinarse con técnicas de minería de datos Transformación de datos Reducción de datos Dr. Francisco J. Mata
Diferencias entre estadística y minería de datos Dos tipos de minería de datos Prueba de hipótesis Métodos estadísticos inferenciales Descubrimiento de conocimiento heurístico Métodos propiamente de minería de datos Dos tipos Descubrimiento directo Descubrimiento indirecto Dr. Francisco J. Mata
Pasos en los tres tipos de métodos de minería de datos Prueba de hipótesis Descubrimiento directo Descubrimiento indirecto 1. Generar hipótesis 1. Identificar fuentes de datos preclasificados 1.Identificar fuentes de datos 2. Determinar datos para probar hipótesis 2. Preparar datos 2. Preparar datos para análisis 3. Recolectar datos 3. Construir y entrenar modelo computacional 4. Preparar datos 4. Evaluar la efectividad del modelo 5. Procesar datos mediante métodos estadísticos inferenciales 5 Aplicar el modelo a nuevos datos 6. Confirmar o rechazar hipótesis Dr. Francisco J. Mata
Ejemplos de aplicación de prueba de hipótesis Objetivo: Evaluar la efectividad de una campaña publicitaria Hipótesis: Clientes expuestos a la campaña publicitaria compran más del producto publicitado que aquellos no expuestos a esta campaña Dos poblaciones: Clientes expuestos a la campaña publicitaria Clientes no expuestos a dicha campaña Selección de dos muestras aleatorias para cada población Datos: Medir la cantidad de producto comprado para cada muestra Dr. Francisco J. Mata
Ejemplos de aplicación de prueba de hipótesis Análisis: Comparar los promedios de la cantidad de producto comprado para ambas poblaciones mediante método estadístico de análisis de varianza (prueba T) Conclusiones: Si el promedio de los que estuvieron expuestos a la campaña publicitaria es estadísticamente superior al de los que no lo estuvieron se confirma la hipótesis, en caso contrario se rechaza Dr. Francisco J. Mata
Ejemplo de descubrimiento de conocimiento directo Objetivo: Determinar qué tipo de clientes son rentables para una compañía de tarjetas de crédito Fuentes de datos: estado de cuentas e información personal de los clientes Generación de variable de rentabilidad (sí o no) Volumen de compras Ganancia por intereses en saldos Análisis: uso de árboles de decisión Conclusiones: características de los clientes y de sus transacciones que dividen a los clientes rentables de los no rentables (reglas de decisión) Dr. Francisco J. Mata
Ejemplo de descubrimiento indirecto de conocimiento Objetivo: Agrupar clientes de acuerdo con características socieconómicas Fuentes de datos: registros sobre características socieconómicas Análisis: detección de grupos Conclusión: división de clientes en subgrupos con características homogéneas Dr. Francisco J. Mata