La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.

Presentaciones similares


Presentación del tema: "Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica."— Transcripción de la presentación:

1 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica

2 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Contenidos 1.Introducción 2.La función de densidad de probabilidad normal 3.Funciones discriminantes para la f.d.p normal 4.Diseño de clasificadores lineales y cuadráticos 5.El problema de la estimación de los parámetros 6.Detección de puntos dudosos

3 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 1. Introducción Objeto de estudio: Clasificación supervisada paramétrica

4 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 1. Introducción Supervisado: El aprendizaje supervisado requiere disponer de un conjunto de prototipos (conjunto de entrenamiento) a partir del cual construiremos y evaluaremos un clasificador. Paramétrico: Se supone un completo conocimiento a priori de la estructura estadística de las clases. Podemos modelar las clases mediante funciones de densidad de probabilidad conocidas.

5 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 1. Introducción Clasificador de Bayes: La función de densidad normal (gaussiana) es la más tratada en la literatura. Propiedades: 1. Parámetros que especifican la distribución. La f.d.p. Normal queda completamente especificada por pocos parámetros. 2. Incorrelación e independencia. Dado un conjunto de patrones que siguen una distribución normal, si las variables asociadas están incorreladas, entonces son independientes.

6 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 1. Introducción 3. Justificación física. Aproximación razonable para la mayor parte de los datos tomados de la naturaleza. La función de densidad normal es acertada en situaciones en las que un conjunto de patrones de una determinada clase toman valores en un rango contínuo y alrededor de un patrón promedio. Considera que los patrones de clases diferentes tienen distintos valores pero los valores de los patrones de una clase son lo más parecidos posibles. 4. Densidades marginales y condicionales. Las densidades marginales y condicionadas de una distribución normal son también normales.

7 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 1. Introducción 5. Invarianza frente a transformaciones lineales. La distribución que sigue cualquier combinación lineal de una variable aleatoria normal es también normal (con diferentes parámetros). Siempre puede encontrarse, para una distribución normal, un nuevo conjunto de ejes tal que las nuevas variables son independientes en este nuevo sistema.

8 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal 2.1 La f.d.p. normal unidimensional. Forma funcional. donde es la media de la clase i es la varianza de la clase i

9 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Fdp normales de media 0 y varianzas: 0.15, 1 y 2 2. Función de densidad de prob. normal

10 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Una propiedad interesante y útil: El área bajo la curva de la función de densidad de probabilidad normal puede calcularse de forma precisa según el número de desviaciones típicas. El 68.3% de las observaciones están en el intervalo [  -  ;  +  ] El 95.4% de las observaciones están en el intervalo [  - 2  ;  + 2  ] El 99.7% de las observaciones están en el intervalo [  - 3  ;  + 3  ]

11 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Áreas bajo la curva de la fdp gaussiana en función del número de desviaciones típicas

12 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Parámetros que especifican la distribución - La fdp normal está completamente especificada por los parámetros  i y  i 2 - En la práctica,  i y  i 2 son desconocidos y deben estimarse a partir de los puntos de entrenamiento Estimadores no sesgados de  i y  i 2 : donde: N i es el número de prototipos de la clase i. x j es el j-ésimo prototipo de la clase i.

13 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal 2.2 La f.d.p. normal multidimensional. Forma funcional.  i : matriz de covarianza de la clase i |  i | : determinante de  i  i -1 : matriz inversa de  i (X -  i ) T : vector traspuesto de (X-  i )

14 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Representación de una fdp normal dibimensional

15 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Parámetros que especifican la distribución - La fdp normal multivariante está completamente especificada por los parámetros  i y  i - En la práctica, estos parámetros son desconocidos y deben estimarse a partir de prototipos.

16 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Estimadores no sesgados de  i y de  i : donde: N i es el número de prototipos de la clase i. X l es el l-ésimo prototipo de la clase.

17 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal - Estimación alternativa (elemento a elemento): para j, k = 1, 2,..., d donde: * X j l : componente j-ésima del prot. l-ésimo de w i * i j : componente j-ésima del vector medio de w i

18 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Ejemplo. Disponemos de 5 prototipos de la clase w i : Estimación de  i. Estimación de  i (completa): 1. Vectores (X l - ):

19 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal

20 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal 2. Matrices (X l - )(X l - ) T :

21 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal 3. Finalmente, Parámetros estimados para esta clase:

22 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Estimación de  i (elemento a elemento)

23 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Propiedades de  i 1.  i es simétrica. Como  i jk =  i kj, hay que calcular únicamente d (d + 1)/2 componentes. 2.  i es (semi)definida positiva (|  i |>0) 3.  i jk es la covarianza de la clase i entre las variables j y k (j,k = 1,2,...,d j  k) y se interpreta como la relación o dependencia entre estas dos variables. 4. Los valores de la diagonal de la matriz de covarianza son las varianzas de las variables individuales, esto es,  i jj =  2 i j 5. Si  i jk = 0, las variables j y k son estadísticamente independientes. Si no, existe correlación entre ellas.

24 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal A) Vars. independientes B) Vars. correladas

25 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2.2 La f.d.p. normal multidimensional. 2.2.1 La distancia de Mahalanobis Los puntos para puntos para los que el valor de la fdp es constante están situados en hiperelipsoides en las que la forma cuadrática (X-  ) T  -1 (X-  ) es constante: distancia de Mahalanobis (al cuadrado) de X a . 2. Función de densidad de prob. normal

26 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal A) Dens. de prob B) Diagrama de dispersión

27 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Las direcciones de los ejes principales de estos hiperelipsoides están determinadas por los autovectores de  y sus longitudes por los autovalores correspondientes. Al estar ponderada por , esta métrica considera la distinta dispersión de las variables en el espacio. Importante: con una métrica de este tipo, el concepto de distancia es muy distinto al concepto de distancia en nuestro mundo Euclídeo

28 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Dos distribuciones normales con igual media y diferentes matrices de covarianza

29 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal 2.2 La f.d.p. normal multidimensional. 2.2.2 Correlación de variables A) Alta covarianza B) Baja covarianza. En ambos casos,  2 1 =5.7 y  2 2 =7.1

30 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Coeficiente de correlación. Medida normalizada del grado de relación entre las variables, independiente de las unidades de medida. Este coeficiente verifica que |  ij |  1

31 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Relación entre covarianzas y correlaciones:  =  R 

32 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal -  ij =, entonces  ij =  j  i  ij. Además, como  ij =  ji, entonces  ij = = =  ji - Como  ii = = = 1.  ii =  i  i  ii =  i 2 porque  ij = 1

33 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Interpretación del factor de correlación Si proyectamos la nube de puntos sobre un plano definido por los ejes (abscisas) y (ordenadas): - Superficie: determinada por  (desviaciones típicas). - Forma: determinado por R (correlaciones). Dado que |  ij |  1 (-1   ij  1) 1. Si  ij = 0, la correlación es nula (son independientes): los puntos se disponen aleatoriamente en un círculo (  1 =  2 ) o en una elipse (  1   2 ) cuyo centro es (  i,  j ). Una correlación con valor 0 indica que no existe relación lineal en absoluto. 2. Función de densidad de prob. normal

34 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Función de densidad de prob. normal Ejemplos de correlación nula

35 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Si 0 <  ij < 1 los puntos se disponen en una elipse centrada en (  i,  j ). El eje principal tiene una pendiente positiva y una forma más o menos circular dependiendo de si  ij está más o menos cercano a 0. 2. Función de densidad de prob. normal Ejemplos de correlación positiva

36 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3. Si  ij = 1, la correlación el lineal y perfecta ( X j depende linealmente de X i ): los puntos se disponen a lo largo de una línea recta con pendiente positiva 2. Función de densidad de prob. normal Ejemplos de correlación lineal

37 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Para -1 <  ij < 0, similar a caso 2 y para  ij = -1, similar a caso 3 (ahora con pendiente negativa). La orientación y longitud de los ejes de las elipses que caracterizan las distribuciones se deducen de los autovectores y autovalores de la matriz de covarianza. 2. Función de densidad de prob. normal Ejemplos de correlación negativa

38 Reconocimiento de Formas en Data Mining Prof: Héctor Allende El clasificador de mínimo error (Bayes) puede expresarse en términos de funciones discriminantes: Forma general de las funciones discriminantes asumiendo f.d.p. normales 3. Funciones discriminantes para la f.d.p normal.

39 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Casos particulares: - Caso 1.  i =  2 I (Clasif. Lineal) - Caso 2.  i =  (Clasif. Lineal) - Caso 3.  i arbitrarias (Clasif. Cuadrático) 3. Funciones discriminantes para la f.d.p normal.

40 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3.1 Clasificadores lineales 3.1.1 Caso 1:  i =  2 I Variables estadísticamente independientes (incorreladas) y todas tienen la misma varianza,  2. Las matrices de covarianza son diagonales con valor  2 3. Funciones discriminantes para la f.d.p normal.

41 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3. Funciones discriminantes para la f.d.p normal. Clasificador lineal con  i =  2 I

42 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Simplificaciones de las funciones discriminantes. - En este caso Sustituyendo en (10): - Considerando que ||  || es la norma Euclídea 3. Funciones discriminantes para la f.d.p normal.

43 Reconocimiento de Formas en Data Mining Prof: Héctor Allende - Si  i son iguales, no son significativas para : Alternativamente, Regla de mínima distancia Euclídea. 3. Funciones discriminantes para la f.d.p normal.

44 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Funciones discriminantes lineales: Superficies de decisión: donde: 3. Funciones discriminantes para la f.d.p normal.

45 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3. Funciones discriminantes para la f.d.p normal. Front. de dec. Para un clasificador de mín. distancia

46 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3.1.2 Caso 2:  i =  Las variables no son estadísticamente independientes (cor- reladas) y las varianzas individuales son diferentes. Geométricamente: patrones distribuidos en agrupamientos hiperelipsoidales de igual tamaño y forma. Cada agrupamiento centrado en su media correspondiente,  i 3. Funciones discriminantes para la f.d.p normal. Clasif. Lineal con  i =  (  12  0,  1  2 )

47 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3. Funciones discriminantes para la f.d.p normal. Clasif. Lineal con  i =  (  12 =0,  1  2 )

48 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Simplificación de las funciones discriminantes. Si  i son iguales, no son significativas para : Alternativamente, Regla de mínima distancia Mahalanobis. 3. Funciones discriminantes para la f.d.p normal.

49 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Funciones discriminantes lineales: Superficies de decisión. 3. Funciones discriminantes para la f.d.p normal.

50 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3.2 Clasificadores cuadráticos 3.2.1 Caso 3:  i arbitrarias Fronteras de decisión expresadas como una función cuadrática (círculos, elipses, parábolas, hipérbolas). Este es el caso más general (caso 3), del cual se derivan como casos particulares los dos estudiados anteriormente. 3. Funciones discriminantes para la f.d.p normal.

51 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3. Funciones discriminantes para la f.d.p normal. Clasificadores Cuadráticos

52 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Simplificación de las funciones discriminantes. Si  i son iguales, no son significativas para : Funciones discriminantes cuadráticas: donde: 3. Funciones discriminantes para la f.d.p normal.

53 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 3. Funciones discriminantes para la f.d.p normal. Fronteras de decisión (en dos dimensiones)

54 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Motivación: ¿Porqué no usar el caso 3 siempre? 1. Considerar los costes computacionales de calcular: Caso 3: Caso 2: Caso1: 4. Diseño de clasificadores. Clasif. de mín. distancia

55 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Estabilidad de los estimadores. Etapas: 1. Análisis del conjunto de aprendizaje. 2. Aprendizaje. 3. Clasificación. 4. Diseño de clasificadores. Clasif. de mín. distancia

56 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4.1. Diseño de clasificadores. 1. Análisis del conjunto de aprendizaje. Estudiar y sacar conclusiones sobre los conjuntos de aprendi- zaje: test de normalidad, comprobación de la suficiencia del número de muestras de aprendizaje para estimaciones y estudio de la estructura estadísticas de las clases. En resumen: decidir el clasificador (casos 1,2 ó 3). 4. Diseño de clasificadores. Clasif. de mín. distancia

57 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 2. Aprendizaje. Estimación de los parámetros de cada clase 1.- Estimar  i (i = 1,2,..., J) 2.- Si acaso 2 ó 3, Estimar  i (i = 1,2,..., J) Si acaso 2, Calcular  = 3. Clasificación. Calcular para i=1,2,...,J (según el caso) 4. Diseño de clasificadores. Clasif. de mín. distancia

58 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia 4.2. Clasificadores de mínima distancia. Casos particulares de los clasificadores estudiados como los casos 1 y 2 cuando no se consideran las probabilidades a priori (todas son iguales) 1. Distancia Euclídea: - Vars. Estadísticamente independientes- - Vars. Igualmente escaladas en todas las direcciones. 2. Distancia de Mahalanobis: - Vars. correladas. - Vars. posiblemente escaladas de forma diferente

59 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia 4.2.1 Clasif. de mínima distancia Euclídea. Cálculo de la distancia Euclídea

60 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia Regla óptima de clasificación donde Clasificador de mínima distancia Euclídea

61 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia Estamos “resumiendo” una clase por su valor medio: toda la información de interés de una clase (para la clasificación) está concentrada en su media Un clasificador Euclídeo para tres clases

62 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia Derivación de funciones discriminantes lineales para el clasificador de mínima distancia Euclídea

63 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia Expresado en forma de funciones discriminantes: De manera aún más compacta:

64 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia Demostración:

65 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4.2.2 Clasif. de mínima distancia de Mahalanobis. Distancia de Mahalanobis. Regla óptima de clasificación: donde Clasificador de mínima distancia Euclídea 4. Diseño de clasificadores. Clasif. de mín. distancia

66 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia Dist. de Mahalanobis frente a dist. Euclídea

67 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 4. Diseño de clasificadores. Clasif. de mín. distancia Dist. de Mahalanobis frente a dist. Euclídea (2)

68 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 5. El problema de la estimación de parámetros En teoría, el error de Bayes decrece conforme la dimensionalidad de los datos se incrementa. En la práctica, se usa un número fijo de muestras, N, para construir el clasificador: los estimadores están sesgados por las muestras disponibles. Si suponemos distribuciones normales se requiere: - Clasif. Cuadrático: estimaciones - Clasif. Lineal: estimaciones

69 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 5. El problema de la estimación de parámetros Fenómeno de Hughes.

70 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Interpretación: Existe un valor óptimo de dimensionalidad que es función del tamaño del conjunto de entrenamiento. Si el número de muestras de entrenamiento es suficiente y la dimensionalidad de los datos es alta el fenómeno de Hughes se manifiesta debido a que los estimadores obtenidos son inestables y segados. Este fenómeno es más acusado cuanto mayor sea la dimensionalidad. Diferencia entre las curvas: - Clasificador cuadrático: proporcional a d 2 /N - Clasificador lineal: proporcional a d/N 5. El problema de la estimación de parámetros

71 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Conclusiones: Aunque la decisión de adoptar un clasificador cuadrático o un clasificador lineal depende fundamentalmente de la forma de las matrices de covarianza de las clases, el clasificador cuadrático requiere muchas más muestras de entrenamiento que un clasificador lineal para conseguir resultados similares. Soluciones: 1. Obtener más muestras de entrenamiento 2. Utilizar las variables más relevantes (selección y/o extracción de características) 5. El problema de la estimación de parámetros

72 Reconocimiento de Formas en Data Mining Prof: Héctor Allende Motivación: Algunos patrones deben descartarse (asignarse a w 0 ) 6. Detección de puntos dudosos

73 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 6. Detección de puntos dudosos

74 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 6. Detección de puntos dudosos Técnica: Umbralización Sea w c tal que P(x | w c ) = Cálculo del umbral para el clasificador cuadrático. Sea w c tal que =

75 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 6. Detección de puntos dudosos La clasificación es aceptable (d(X) = w c ) si Sigue una distribución  2 con d grados de libertad si X está normalmente distribuida.

76 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 6. Detección de puntos dudosos - Procedimiento: 1.- Consultar la tabla  2 para determinar el valor de (X-  c ) T  c -1 (X-  c ) por debajo del cual hay un determinado porcentaje de puntos. En esta figura, indicamos el valor de la  2 que tiene la probabilidad P de ser sobrepasada (la proporción de la población con un valor  2 mayor que un valor determinado)

77 Reconocimiento de Formas en Data Mining Prof: Héctor Allende 6. Detección de puntos dudosos 2.- Una vez consultado el valor,, 3.- El valor exacto de T c se calcula directamente, conociendo las probabilidades a priori y las matrices de covarianza de esa clase.

78 Reconocimiento de Formas en Data Mining Prof: Héctor Allende


Descargar ppt "Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica."

Presentaciones similares


Anuncios Google