La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías de.

Presentaciones similares


Presentación del tema: "K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías de."— Transcripción de la presentación:

1 K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

2 Resumen Previo Enfoque estadístico para estimación y predicción Métodos univariable Métodos multivariable – Regresión Lineal Multivariable Determinar la confianza de las estimaciones Intervalos de predicción Verificar los supuestos del modelo

3 Métodos supervisado vs. no supervisado Métodos no supervisados: No hay variable objetivo Algoritmos buscan patrones. Por ejemplo: Clustering Métodos supervisados Mayoría de métodos de minería de datos Variable objetivo pre clasificada Proceso de aprendizaje Por ejemplo: Árboles de decisión, redes neuronales y los k- vecinos más cercanos. Mixtos (supervisados y no supervisados) Reglas de Asociación ¿Cuáles ítems se compran juntos? – No supervisado Con cierta confianza y soporte ¿Cuáles ítems se compran juntos? - Supervisado (apriori)

4 Metodología para modelos supervisados Conjunto de entrenamiento Generar el modelo de minería de datos provisional Aplicar el modelo provisional al conjunto de prueba. Ajustar el modelo para minimizar la rata de error en el conjunto de prueba Aplicar el modelo ajustado al conjunto de validación. Ajustar el modelo para minimizar la rata de error en el conjunto de validación Modelo de minería provisional Conjunto de Prueba Conjunto de Validación Modelo de minería ajustado Modelo de minería final Adaptado de [1] para uso educativo

5 Nivel óptimo de complejidad Sobre ajuste Bajo ajuste Tomado de [1] para uso educativo

6 Complejidad vs. Error Alta complejidad Alta varianza Bajo sesgo (error) Baja complejidad Baja varianza Alto sesgo (error) x x x x x x x Conocido como Bias-variance trade-off Dilema de sobre/bajo ajuste Un modelo más complejo disminuye el sesgo (bias) en el conjunto de entrenamiento pero incrementa la varianza (dispersión de la variables con respecto a su esperanza) Tomado de [1] para uso educativo Pilas con la idiosincrasia de los datos

7 Complejidad vs. Error El Error Cuadrado Medio (Mean-squared error, MSE) es una buena medida para evaluar dos modelos que compiten (debe minimizarse) MSE contempla el sesgo y la varianza P es el número de parámetros del modelo, en regresión lineal simple p=1 (y=m*x+b entonces y depende de 1 solo parámetro, x en este caso) Tomado de [1] para uso educativo

8 Tareas de clasificación Hay una variable categórica objetivo. Ejemplos de tareas de clasificación Banca: Transacciones fraudulentas y riesgo crediticio Educación: Orden de cursos a tomar por un nuevo estudiante Medicina: Diagnosticar si una enfermedad esta presente Leyes: Determinar si un testamento es fraudulento Seguridad Nacional: Comportamiento financiero que señale una amenaza de terrorismo

9 Tareas de clasificación Tomado de [1] para uso educativo Comprensión del negocio Análisis de los datos Preparación de los datos ModelamientoEvaluación Despliegue Datos

10 Algoritmo de los k vecinos más cercanos El más usado para clasificación También es usado para estimaciones y predicciones Aprendizaje basado en instancias Examina K tuplas cercanas a la tupla que se va a clasificar O(n) para cada tupla a clasificar (n es el numero de tuplas en el data set de entrenamiento)

11 Algoritmo de los k vecinos más cercanos Tomado de [2] para uso educativo

12 Algoritmo de los k vecinos más cercanos Tomado de [1] para uso educativo

13 Algoritmo de los k vecinos más cercanos New patient 1 tiene cerca drogas Y NP1

14 Algoritmo de los k vecinos más cercanos Tomado de [1] para uso educativo New patient 2 con k=1 droga B Con k=2 droga B o A? NP2

15 Algoritmo de los k vecinos más cercanos Tomado de [1] para uso educativo New patient 3 con k=1 droga B Con k=2 droga B o A? Con k=3 droga B o A o X? NP3

16 Problemas de los k vecinos más cercanos ¿Cuántos vecinos considerar? ¿Valor de k? ¿Cómo medir la distancia? ¿Cómo combinar la información de más de una observación? ¿El peso de los vecinos debe ser igual? ¿algunos vecinos deben tener mayor influencia que otros?

17 Función de Distancia Debe cumplir tres reglas (distancia o similitud) 1. d (x, y) >= 0, y d (x, y) = 0 si y sólo si x = y (No ser negativa) 2. d (x, y) = d (y, x) (Conmutativa) 3. d (x, z) <= d (x, y) + d (y, z) (desigualdad triangular) Distancia Euclidiana Tomado de [1] para uso educativo

18 Función de Distancia Distancia Euclidiana Importantísimo Normalización Min-Max o Estandarización Z-score Tomado de [1] para uso educativo

19 Función de Distancia Para variables categóricas la Distancia Euclidiana no aplica. Para ello definimos una función Diferente de para comparar el i- ésimo atributo Tomado de [1] para uso educativo

20 Función Combinación Tomado de [1] para uso educativo NP2

21 Función Combinación Simple Tomado de [1] para uso educativo NP2

22 Función Combinación Simple Con K= 1 gana Droga del punto A Con K= 2 empate como decido? Con K= 3 gana Droga de puntos B y C Tomado de [1] para uso educativo

23 Función Combinación Ponderada Tomado de [1] para uso educativo NP2

24 Función Combinación Ponderada Los votos son pesados de acuerdo al cuadrado inverso de sus distancias Para los registros B y C, Gris medio: Con K= 3 gana Droga A (contrario a función de combinación simple) Tomado de [1] para uso educativo

25 Validación Cruzada Cross-Validation: Holdout validation: Separar el Training Set en Validation y Traininng, normalmente hasta una tercera parte … realmente no es validación cruzada K-fold cross-validation: Realizar k particiones del DataSet, tomar k-1 de ellas como Training Set y la otra (k) como Validation Set, y repetir el proceso rotando la partición que se toma como Validation Set Leave-one-out cross-validation: Igual al anterior pero tomando cada fila como Validation set Para K-nn la validación cruzada puede ayudar a encontrar el mejor valor de K.

26 Resumen Aprendizaje supervisado y no supervisado Nivel optimo de complejidad (under fitting y over fitting) K-nn muy usado para clasificación, estimación y predicción – Algoritmo basado en instancias – Lazy (perezoso) Normalización y/o Estandarización de los datos, inicialmente igual peso, dependiendo de la aplicación o un experto los pesos se pueden cambiar La medida de distancia es clave: distancias numéricas y categóricas Función de combinación de k valores (Votación simple o ponderada) Modelado con Validación cruzada (Cross-Validation: Holdout validation, K-fold cross-validation, Leave-one- out cross-validation)

27 Taller Usar IBK (K-nn) de Weka para el data set de drogas y entender todos los parámetros y resultados entregados Implementar K-nn en VS.NET o java y probarlo con un data set de la UCI Machine Learning Repository

28 Referencias 1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc ISBN Dunham, Margaret H. Data Mining: Introductory and Advanced Topics. Prentice Hall, p. ISBN-10: , ISBN-13: Slides available on 3. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia.


Descargar ppt "K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías de."

Presentaciones similares


Anuncios Google