Clase 11: knn,pca,lda,qda y pca+lda

Slides:



Advertisements
Presentaciones similares
Repaso de Examen 1.1. Trabajo de timbre (Bellwork) Escriban (write) el guía de estudio. Alfabeto Frases de la clase Saludos (pg 35 vocabulario 1) Pronombre.
Advertisements

Calentamiento 1/5/11 Escribe en inglés y español.
Clasificación Supervisada
3. Metodología de Razonamiento Inductivo Difuso (FIR) MODELADO CUALITATIVO El modelo esta definido por la máscara + la base de reglas patrón (matriz de.
Componentes Principales
RECONOCIMIETO DE PATRONES
Técnicas multivariantes:
J. Trinidad Guillen Bonilla, H. Guillen Bonilla, A. Guillen Bonilla,
Computacion inteligente Introduccion a la Clasificacion.
Primer Parcial -> Tema 1 Minería de Datos Universidad del Cauca.
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Presentation Created by Dr. Luis O. Jiménez Design & Validation of Classifiers Machine Learning Design & Validation of Classifiers.
Había un árbol con 4 hojas, amarillas y rojas. El viento sopló, y una de las hojas se cayó. There was a tree with 4 leaves yellow and red The wind blew.
Este monedero lo hicimos en la clase de artística el miércoles día 14 de noviembre We made this wallet in art class on Wednesday 14th of November.
CHAPTER 4: TALKING ABOUT PLANS & INVITING SOME ONE TO DO SOMETHING 1 1.
Detecccion de caras1 Deteccion de caras-2 A fast and accurate face detector based on neural networks, R. Feraud, O.J. Bernier, J.E. Viallet, M. Collobert,
TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
Nathalia Castellanos Gómez Orfidia Ovalle Garzón Psicología 4D
Realidades II EXAMEN HABLADO Capítulos 1A y 1B. PROCEDURE  4-7 days before test day:  You are told the questions and given some time to prepare answers.
El módulo “tracemalloc”
1 C OMPUTACIÓN A VANZADA PARA M ÚSICA POR O RDENADOR POLYPHONIC INSTRUMENT RECOGNITION USING SPECTRAL CLUSTERING 1 ISMIR 2007.
Clase 1. Clase 7 Clase 8.
1.3.1Media aritmética, geométrica y ponderada 1.3.2Mediana 1.3.2Moda Regresar.
One thousand and One nigths.
Mauro A.e. Chaparro Marcela Natal Marcos A.e. Chaparro Debora C. Marie
 Los datos que a continuación se presentan corresponden al número de llamadas telefónicas que un grupo de personas realiza durante el día. 0, 1, 2, 4,
DEPARTAMENTO DE ELECTRICA Y ELECTRÓNICA
“Introducción a la Geoinformación”
¿Cómo almacenar datos dentro del computador?
Correlación y regresión
Instituto Nacional de Astrofísica, Óptica y Electrónica
Ciclos condicionales y exactos Estructura de control de ciclos
Situaciones a resolver de combinaciones
Apuntes de Matemáticas 2º ESO
Robust parameter estimation for mixture model
Autor: Araya P., Ruz G., Palomino H.
Apuntes 2º Bachillerato C.S.
Definiciones elementales: densidad, distancias. Centralidad. Cohesión
Alteraciones hematológicas por beta lactámicos
Apuntes de Matemáticas 3º ESO
Clase7: Objetos y Clases
POLINOMIOS U. D. 5 * 4º ESO E. Angel Prieto Benito
Unidad 6. Capítulo IV. Puntos ordinarios y puntos singulares.
Comparación de medias-no paramétrico
Robust parameter estimation for mixture model
estadistica
Tipos Básicos.
Fundamentos de programación en TIG 4. Aptana y Arcpy
Estudio del movimiento
DEPARTAMENTO DE ELECTRICA Y ELECTRÓNICA
ESTADÍSTICA DESCRIPTIVA
i=2I.
M.C Alejandro Castellanos Lopez
MANOVA Factor A “variable cualitativa o de clasificación”
DEL MANIPULADOR: PARTE 1 Roger Miranda Colorado
Maestría en Ciencias de la Computación
ESTADISTICA MEDIDAS DE DISPERSIÓN Cristian Gómez Coordinar Técnico Calidad Laboratorio Labsai.
Alimento para cerdos Objetivo del experiento:
Resolución de Ecuaciones No Lineales
¿Cuántos peces hay en el lago? _____ peces ¿Cuántos tipos o clases de peces diferentes hay? _____ clases diferentes.
MAPA DE NAVEGACIÓN INECUACIONES UNIDAD 8 Índice Teoría Y Ejemplos.
Regresión (II).
Inteligencia Artificial
Presented by: Rafael O. Batista Jorge Wall Following Robot Path Planning Problem: A Statistical Learning Approach Universidad de Puerto Rico Recinto Universitario.
Clase
CURSO PSICOMÉTRICO UNI 2017 Clase # 2. ANALOGÍAS NUMÉRICAS Es un grupo de números distribuidos en dos o más filas, tales que cada fila está formada por.
UNIDAD VI (continuación) ARREGLO BIDIMENSIONAL
VARIABILIDAD La variabilidad está presente en todo nuestro entorno, ejemplo: Un paciente tarda en recuperarse de depresión 8 meses, otro 6 meses y un.
Resumen El objetivo del presente trabajo fue el desarrollo de tecnología de punta basada en plataformas móviles con entorno virtual para mejorar el proceso.
Tiempo (s) Distancia (m) t (s) d (m)
Transcripción de la presentación:

Clase 11: knn,pca,lda,qda y pca+lda Rodrigo Assar, PhD L A B O R A T O R I O D E B I O I N F O R M Á T I C A Y M A T E M Á T I C A D E L G E N O M A - U N I V E R S I D A D D E C H I L E

knn: k-nearest neighbour Se decide la clase de un dato segun la clase “mayoritaria cercana”: de los k datos de entrenamiento mas cercanos Cercanos: Respecto a las variables consideradas Con distancia euclideana

Paquete de R class en repositorio CRAN. Funcion knn(): References: knn(train, test, cl, k = 1, l = 0, prob = FALSE, use.all = TRUE) References: Ripley, B. D. (1996) Pattern Recognition and Neural Networks. Cambridge. Venables, W. N. and Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth edition. Springer. L A B O R A T O R I O D E B I O I N F O R M Á T I C A Y M A T E M Á T I C A D E L G E N O M A - U N I V E R S I D A D D E C H I L E

Ejemplo data(iris) cS <- as.character(Sp <- iris$Species) train=sample(1:150, 75) test=setdiff(1:150,train) Resknn=knn(iris[train,1:4], iris[test,1:4], cS[train], k = 3, prob=TRUE) table(Resknn,iris[test,5]) Resknn setosa versicolor virginica setosa 28 0 0 versicolor 0 23 1 virginica 0 1 22 L A B O R A T O R I O D E B I O I N F O R M Á T I C A Y M A T E M Á T I C A D E L G E N O M A - U N I V E R S I D A D D E C H I L E

Ejecutando print(Resknn) [1] setosa setosa setosa setosa [5] setosa setosa setosa setosa [9] setosa setosa setosa setosa [13] setosa setosa setosa setosa [17] setosa setosa setosa setosa [21] setosa setosa setosa setosa [25] setosa setosa setosa setosa [29] versicolor versicolor versicolor versicolor [33] versicolor versicolor versicolor versicolor [37] virginica versicolor versicolor versicolor [41] versicolor versicolor versicolor versicolor …

Continuacion print(Resknn) attr(,"prob") [1] 1.0000000 1.0000000 1.0000000 1.0000000 [5] 1.0000000 1.0000000 1.0000000 1.0000000 [9] 1.0000000 1.0000000 1.0000000 1.0000000 [13] 1.0000000 1.0000000 1.0000000 1.0000000 [17] 1.0000000 1.0000000 1.0000000 1.0000000 [21] 1.0000000 1.0000000 1.0000000 1.0000000 [25] 1.0000000 1.0000000 1.0000000 1.0000000 [29] 1.0000000 1.0000000 1.0000000 1.0000000 [33] 1.0000000 1.0000000 1.0000000 1.0000000 [37] 1.0000000 1.0000000 1.0000000 1.0000000 [41] 1.0000000 1.0000000 1.0000000 1.0000000 …

Validando con leave-one-out Se construye tantos predictores knn como datos de entrenamiento, en cada uno una de las filas no se considera (se usa como validacion). Finalmente se constroye el predictor por mayoria. Resknncv=knn.cv(iris[,1:4], cS, k = 3, prob=TRUE) table(Resknncv,iris[,5]) Resknncv setosa versicolor virginica setosa 50 0 0 versicolor 0 47 3 virginica 0 3 47 prediccionRFvalid L A B O R A T O R I O D E B I O I N F O R M Á T I C A Y M A T E M Á T I C A D E L G E N O M A - U N I V E R S I D A D D E C H I L E

Comparemos ambos clasificadores table(Resknncv[test],Resknn) Resknn setosa versicolor virginica setosa 28 0 0 versicolor 0 24 0 virginica 0 0 23

Otros clasificadores: LDA (An.Disc.Lineal), QDA, PCA+LDA Package MASS: Funciones lda(), tambien qda() para cuadratico. Iris <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]),Sp = rep(c("s","c","v"), rep(50,3))) Reslda=lda(Sp~ ., Iris, prior = c(1,1,1)/3, subset = train) Prediccioneslda=predict(Reslda,Iris[test,])$class Resqda=qda(Sp~ ., Iris, prior = c(1,1,1)/3, subset = train) Prediccionesqda=predict(Resqda,Iris[test,])$class

Revisando resultados table(Prediccioneslda,Prediccionesqda) Prediccionesqda Prediccioneslda c s v c 22 0 2 s 0 28 0 v 0 0 23 table(Prediccioneslda,Iris$Sp[valid]) Prediccioneslda c s v c 23 0 1 s 0 28 0 v 1 0 22 table(Prediccionesqda,Iris$Sp[valid]) Prediccionesqda c s v c 22 0 0 v 2 0 23

Comparemos con knn table(resknn,Prediccioneslda) Prediccioneslda Para poder comparar, uniformamos los nombres de las clases: resknn=as.character(Resknn) resknn[resknn=="virginica"]=“v” resknn[resknn=="versicolor"]=“c” resknn[resknn=="setosa"]="s" table(resknn,Prediccionesqda) Prediccionesqda resknn c s v c 22 0 2 s 0 28 0 v 0 0 23 table(resknn,Prediccioneslda) Prediccioneslda resknn c s v c 24 0 0

PCA+LDA Transformando la matriz de datos con PCA: respca=princomp(~ ., data = iris[,1:4], cor = TRUE) Iris_pca <- data.frame(respca$scores,Sp = rep(c("s","c","v"), rep(50,3))) Aplicando lda a los nuevos datos: Reslda_pca=lda(Sp~ ., Iris_pca, prior = c(1,1,1)/3, subset = train) Prediccioneslda_pca=predict(Reslda_pca,Iris_pca[te st,])$class

Mirando resultados Respecto a realidad: Respecto a lda: table(Prediccioneslda_pca,Iris$Sp[test]) Prediccioneslda_pca c s v c 23 0 1 s 0 28 0 v 1 0 22 Respecto a lda: table(Prediccioneslda_pca,Iris$Sp[valid]) Prediccioneslda_pca c s v

Pero la gracia es reducir variables con el pca Trabajando con las 3 primeras componentes: Iris_pca3 <- data.frame(respca$scores[,1:3],Sp = rep(c("s","c","v"), rep(50,3))) Reslda_pca3=lda(Sp~ ., Iris_pca3, prior = c(1,1,1)/3, subset = train) Prediccioneslda_pca3=predict(Reslda_pca3,Iris_pca3[t est,])$class

Mirando resultados: perdemos table(Prediccioneslda_pca3,Iris$Sp[valid]) Prediccioneslda_pca3 c s v c 23 0 3 s 0 28 0 v 1 0 20 table(Prediccioneslda_pca3,Prediccioneslda_pca) Prediccioneslda_pca Prediccioneslda_pca3 c s v c 24 0 2 v 0 0 21