K-NN: K vecinos más cercanos

Slides:



Advertisements
Presentaciones similares
Mariano Alcántara Eduardo
Advertisements

Introducción a la minería de datos
Árboles de decisión Tema 9 Parte teórica Minería de datos
Regresión mínimo cuadrada (I)
DATA MINING MINERIA DE DATOS Gersom Costas.
REGRESION LINEAL SIMPLE
MÉTODOS DE MEDICIÓN DE COSTOS.
ANÁLISIS EXPLORATORIO DE DATOS
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
Ingeniería Industrial II CicloEducativo 2011
KRIGING.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Enfoque estadístico para estimación y predicción
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
Econometria 2. Modelo de Regresión Lineal Simple
Capitulo 10: La metodología Box-Jenkins
APRENDIZAJE WIDROW- HOFF
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
Curso de Estadística Básica
9 Regresión Lineal Simple
Regresión y Correlación
SISTEMAS DE SOPORTE PARA LA TOMA DE DECISIONES
RECONOCIMIETO DE PATRONES
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Redes Neuronales Monocapa
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
APROXIMACIÓN INTERPOLACIÓN Y REGRESIÓN. INTERPOLACIÓNREGRESIÓN.
Redes Competitivas.
INVESTIGACION DE OPERACIONES
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Métodos de calibración: regresión y correlación
Capítulo 7 Estimación de Parámetros Estadística Computacional
Titular: Agustín Salvia
1 TEMA II Prof. Samaria Muñoz Análisis de Regresión simple: ESTIMACION.
Redes Neuronales Artificiales 2 - Aprendizaje
ERICK CISNEROS SAAVEDRA GABRIELA REGULES GUTIÉRREZ Datamining.
Regresión lineal simple
Regresión lineal múltiple
LA ESTADÍSTICA PROF.: EDMUNDO C.PARDO H. CARACAS,OCTUBRE DE 2014
ANÁLISIS DE REGRESIÓN SIMPLE
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Regresión lineal simple Nazira Calleja
REGRESIÓN LINEAL SIMPLE
1 Descubrimiento de Patrones de Desempeño Académico en la Competencia de Lectura Crítica Contrato
INFERENCIA ESTADÍSTICA
Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Pruebas paramétricas y no paramétricas

Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

Resumen Previo Enfoque estadístico para estimación y predicción Métodos univariable Métodos multivariable – Regresión Lineal Multivariable Determinar la confianza de las estimaciones Intervalos de predicción Verificar los supuestos del modelo

Métodos supervisado vs. no supervisado Métodos no supervisados: No hay variable objetivo Algoritmos buscan patrones. Por ejemplo: Clustering Métodos supervisados Mayoría de métodos de minería de datos Variable objetivo pre clasificada Proceso de aprendizaje Por ejemplo: Árboles de decisión, redes neuronales y los k-vecinos más cercanos. Mixtos (supervisados y no supervisados) Reglas de Asociación ¿Cuáles ítems se compran juntos? – No supervisado Con cierta confianza y soporte ¿Cuáles ítems se compran juntos? - Supervisado (apriori) Métodos supervisados: hay una variable particular pre especificada, y el algoritmo da muchos ejemplos donde el valor de la variable objetivo se proporciona, para que el algoritmo pueda aprender qué valores de la variable objetivo son asociados a qué valores de la variable predictoras.

Metodología para modelos supervisados Generar el modelo de minería de datos provisional Conjunto de entrenamiento Modelo de minería provisional Aplicar el modelo provisional al conjunto de prueba. Ajustar el modelo para minimizar la rata de error en el conjunto de prueba Conjunto de Prueba Modelo de minería ajustado Aplicar el modelo ajustado al conjunto de validación. Ajustar el modelo para minimizar la rata de error en el conjunto de validación Conjunto de Validación Modelo de minería final Adaptado de [1] para uso educativo

Nivel óptimo de complejidad Sobre ajuste Bajo ajuste Tomado de [1] para uso educativo

Complejidad vs. Error Baja complejidad Baja varianza x Baja complejidad Baja varianza Alto sesgo (error) Conocido como Bias-variance trade-off Dilema de sobre/bajo ajuste Un modelo más complejo disminuye el sesgo (bias) en el conjunto de entrenamiento pero incrementa la varianza (dispersión de la variables con respecto a su esperanza) Alta complejidad Alta varianza Bajo sesgo (error) Tomado de [1] para uso educativo Pilas con la idiosincrasia de los datos

Complejidad vs. Error El Error Cuadrado Medio (Mean-squared error, MSE) es una buena medida para evaluar dos modelos que compiten (debe minimizarse) MSE contempla el sesgo y la varianza P es el número de parámetros del modelo, en regresión lineal simple p=1 (y=m*x+b entonces y depende de 1 solo parámetro, x en este caso) Tomado de [1] para uso educativo

Tareas de clasificación Hay una variable categórica objetivo. Ejemplos de tareas de clasificación Banca: Transacciones fraudulentas y riesgo crediticio Educación: Orden de cursos a tomar por un nuevo estudiante Medicina: Diagnosticar si una enfermedad esta presente Leyes: Determinar si un testamento es fraudulento Seguridad Nacional: Comportamiento financiero que señale una amenaza de terrorismo

Tareas de clasificación Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Tomado de [1] para uso educativo

Algoritmo de los k vecinos más cercanos El más usado para clasificación También es usado para estimaciones y predicciones Aprendizaje basado en instancias Examina K tuplas cercanas a la tupla que se va a clasificar O(n) para cada tupla a clasificar (n es el numero de tuplas en el data set de entrenamiento)

Algoritmo de los k vecinos más cercanos Tomado de [2] para uso educativo

Algoritmo de los k vecinos más cercanos Tomado de [1] para uso educativo

Algoritmo de los k vecinos más cercanos NP1 New patient 1 tiene cerca drogas Y

Algoritmo de los k vecinos más cercanos New patient 2 con k=1 droga B Con k=2 droga B o A? NP2 Tomado de [1] para uso educativo

Algoritmo de los k vecinos más cercanos New patient 3 con k=1 droga B Con k=2 droga B o A? Con k=3 droga B o A o X? NP3 Tomado de [1] para uso educativo

Problemas de los k vecinos más cercanos ¿Cuántos vecinos considerar? ¿Valor de k? ¿Cómo medir la distancia? ¿Cómo combinar la información de más de una observación? ¿El peso de los vecinos debe ser igual? ¿algunos vecinos deben tener mayor influencia que otros?

Función de Distancia Debe cumplir tres reglas (distancia o similitud) 1. d (x, y) >= 0, y d (x, y) = 0 si y sólo si x = y (No ser negativa) 2. d (x, y) = d (y, x) (Conmutativa) 3. d (x, z) <= d (x, y) + d (y, z) (desigualdad triangular) Distancia Euclidiana Tomado de [1] para uso educativo

Función de Distancia Distancia Euclidiana Importantísimo Normalización Min-Max o Estandarización Z-score Tomado de [1] para uso educativo

Función de Distancia Para variables categóricas la Distancia Euclidiana no aplica. Para ello definimos una función “Diferente de”  para comparar el i-ésimo atributo Tomado de [1] para uso educativo

Función Combinación NP2 Tomado de [1] para uso educativo

Función Combinación Simple NP2 Tomado de [1] para uso educativo

Función Combinación Simple Con K= 1 gana Droga del punto A Con K= 2 empate como decido? Con K= 3 gana Droga de puntos B y C Tomado de [1] para uso educativo

Función Combinación Ponderada Tomado de [1] para uso educativo

Función Combinación Ponderada Los votos son pesados de acuerdo al cuadrado inverso de sus distancias Para los registros B y C, Gris medio: Con K= 3 gana Droga A (contrario a función de combinación simple) Tomado de [1] para uso educativo

Validación Cruzada Cross-Validation: Holdout validation: Separar el Training Set en Validation y Traininng, normalmente hasta una tercera parte … realmente no es validación cruzada K-fold cross-validation: Realizar k particiones del DataSet, tomar k-1 de ellas como Training Set y la otra (k) como Validation Set, y repetir el proceso rotando la partición que se toma como Validation Set Leave-one-out cross-validation: Igual al anterior pero tomando cada fila como Validation set Para K-nn la validación cruzada puede ayudar a encontrar el mejor valor de K.

Resumen Aprendizaje supervisado y no supervisado Nivel optimo de complejidad (under fitting y over fitting) K-nn muy usado para clasificación, estimación y predicción – Algoritmo basado en instancias – Lazy (perezoso) Normalización y/o Estandarización de los datos, inicialmente igual peso, dependiendo de la aplicación o un experto los pesos se pueden cambiar La medida de distancia es clave: distancias numéricas y categóricas Función de combinación de k valores (Votación simple o ponderada) Modelado con Validación cruzada (Cross-Validation: Holdout validation, K-fold cross-validation, Leave-one-out cross-validation)

Taller Usar IBK (K-nn) de Weka para el data set de drogas y entender todos los parámetros y resultados entregados Implementar K-nn en VS.NET o java y probarlo con un data set de la UCI Machine Learning Repository

Referencias Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2 Dunham, Margaret H. Data Mining: Introductory and Advanced Topics. Prentice Hall, 2003. 315 p. ISBN-10: 0130888923, ISBN-13: 9780130888921. Slides available on http://lyle.smu.edu/~mhd/book. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM.