La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2.

Presentaciones similares


Presentación del tema: "Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2."— Transcripción de la presentación:

1 Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

2 Dr. Francisco J. Mata2 Estadística, aprendizaje mecánico y minería de datos Estadística: Estadística: Basada en la teoría Basada en la teoría Enfocada en la prueba de hipótesis Enfocada en la prueba de hipótesis Aprendizaje mecánico: Aprendizaje mecánico: Heurístico Heurístico Enfocado en mejorar el rendimiento de un agente que aprende Enfocado en mejorar el rendimiento de un agente que aprende Relacionado con aprendizaje en tiempo real y robótica – áreas que no son parte de la minería de datos Relacionado con aprendizaje en tiempo real y robótica – áreas que no son parte de la minería de datos Minería de datos Minería de datos Integra teoría y heurística Integra teoría y heurística Enfocada en todo el proceso de descubrimiento de conocimiento, incluyendo limpieza de datos y visualización de resultados Enfocada en todo el proceso de descubrimiento de conocimiento, incluyendo limpieza de datos y visualización de resultados Diferencias no son claras Diferencias no son claras

3 Dr. Francisco J. Mata3 Estadística Arte y ciencia de la colección, interpretación y análisis de datos y la habilidad de obtener generalidades lógicas relacionadas con un fenómeno bajo investigación Arte y ciencia de la colección, interpretación y análisis de datos y la habilidad de obtener generalidades lógicas relacionadas con un fenómeno bajo investigación

4 Dr. Francisco J. Mata4 Estadística Relacionada con el método científico Relacionada con el método científico Especificación de objetivos Especificación de objetivos Recolección de información Recolección de información Análisis de los datos Análisis de los datos Obtención de conclusiones Obtención de conclusiones

5 Dr. Francisco J. Mata5 Estadística Dos categorías principales Dos categorías principales Estadística descriptiva Estadística descriptiva Métodos descriptivos para sumarizar y describir las características prominentes en los datos Métodos descriptivos para sumarizar y describir las características prominentes en los datos Estadística inferencial Estadística inferencial Métodos que proveen las bases de razonamiento para interpretar lógicamente hechos observados, determinar el rango en el cual estos hechos apoyan o contradicen un modelo postulado Métodos que proveen las bases de razonamiento para interpretar lógicamente hechos observados, determinar el rango en el cual estos hechos apoyan o contradicen un modelo postulado

6 Dr. Francisco J. Mata6 Estadística descriptiva Parámetros de una población Parámetros de una población Media o promedio Media o promedio Varianza o desviación estándar Varianza o desviación estándar Distribuciones de frecuencia Distribuciones de frecuencia

7 Dr. Francisco J. Mata7 Estadística inferencial Muestreo Muestreo Prueba de hipótesis Prueba de hipótesis

8 Dr. Francisco J. Mata8 Relaciones entre estadística y minería de datos Métodos de minería de datos pueden utilizar conceptos estadísticos Métodos de minería de datos pueden utilizar conceptos estadísticos Ejemplo: segmentación Ejemplo: segmentación Métodos estadísticos pueden combinarse con técnicas de minería de datos Métodos estadísticos pueden combinarse con técnicas de minería de datos Transformación de datos Transformación de datos Reducción de datos Reducción de datos

9 Dr. Francisco J. Mata9 Diferencias entre estadística y minería de datos Dos tipos de minería de datos Dos tipos de minería de datos Prueba de hipótesis Prueba de hipótesis Métodos estadísticos inferenciales Métodos estadísticos inferenciales Descubrimiento de conocimiento heurístico Descubrimiento de conocimiento heurístico Métodos propiamente de minería de datos Métodos propiamente de minería de datos Dos tipos Dos tipos Descubrimiento directo Descubrimiento directo Descubrimiento indirecto Descubrimiento indirecto

10 Dr. Francisco J. Mata10 Pasos en los tres tipos de métodos de minería de datos Prueba de hipótesis Descubrimiento directo Descubrimiento indirecto 1. Generar hipótesis 1. Identificar fuentes de datos preclasificados 1.Identificar fuentes de datos 2. Determinar datos para probar hipótesis 2. Preparar datos 2. Preparar datos para análisis 3. Recolectar datos 3. Construir y entrenar modelo computacional 4. Preparar datos 4. Evaluar la efectividad del modelo 5. Procesar datos mediante métodos estadísticos inferenciales 5 Aplicar el modelo a nuevos datos 6. Confirmar o rechazar hipótesis

11 Dr. Francisco J. Mata11 Ejemplos de aplicación de prueba de hipótesis Objetivo: Evaluar la efectividad de una campaña publicitaria Objetivo: Evaluar la efectividad de una campaña publicitaria Hipótesis: Clientes expuestos a la campaña publicitaria compran más del producto publicitado que aquellos no expuestos a esta campaña Hipótesis: Clientes expuestos a la campaña publicitaria compran más del producto publicitado que aquellos no expuestos a esta campaña Dos poblaciones: Dos poblaciones: Clientes expuestos a la campaña publicitaria Clientes expuestos a la campaña publicitaria Clientes no expuestos a dicha campaña Clientes no expuestos a dicha campaña Selección de dos muestras aleatorias para cada población Selección de dos muestras aleatorias para cada población Datos: Datos: Medir la cantidad de producto comprado para cada muestra Medir la cantidad de producto comprado para cada muestra

12 Dr. Francisco J. Mata12 Ejemplos de aplicación de prueba de hipótesis Análisis: Análisis: Comparar los promedios de la cantidad de producto comprado para ambas poblaciones mediante método estadístico de análisis de varianza (prueba T) Comparar los promedios de la cantidad de producto comprado para ambas poblaciones mediante método estadístico de análisis de varianza (prueba T) Conclusiones: Conclusiones: Si el promedio de los que estuvieron expuestos a la campaña publicitaria es estadísticamente superior al de los que no lo estuvieron se confirma la hipótesis, en caso contrario se rechaza Si el promedio de los que estuvieron expuestos a la campaña publicitaria es estadísticamente superior al de los que no lo estuvieron se confirma la hipótesis, en caso contrario se rechaza

13 Dr. Francisco J. Mata13 Ejemplo de descubrimiento de conocimiento directo Objetivo: Determinar qué tipo de clientes son rentables para una compañía de tarjetas de crédito Objetivo: Determinar qué tipo de clientes son rentables para una compañía de tarjetas de crédito Fuentes de datos: estado de cuentas e información personal de los clientes Fuentes de datos: estado de cuentas e información personal de los clientes Generación de variable de rentabilidad (sí o no) Generación de variable de rentabilidad (sí o no) Volumen de compras Volumen de compras Ganancia por intereses en saldos Ganancia por intereses en saldos Análisis: uso de árboles de decisión Análisis: uso de árboles de decisión Conclusiones: características de los clientes y de sus transacciones que dividen a los clientes rentables de los no rentables (reglas de decisión) Conclusiones: características de los clientes y de sus transacciones que dividen a los clientes rentables de los no rentables (reglas de decisión)

14 Dr. Francisco J. Mata14 Ejemplo de descubrimiento indirecto de conocimiento Objetivo: Agrupar clientes de acuerdo con características socieconómicas Objetivo: Agrupar clientes de acuerdo con características socieconómicas Fuentes de datos: registros sobre características socieconómicas Fuentes de datos: registros sobre características socieconómicas Análisis: detección de grupos Análisis: detección de grupos Conclusión: división de clientes en subgrupos con características homogéneas Conclusión: división de clientes en subgrupos con características homogéneas


Descargar ppt "Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2."

Presentaciones similares


Anuncios Google