Reconocimiento de Patrones

Slides:



Advertisements
Presentaciones similares
Jacqueline Chávez Cuzcano
Advertisements

Tema 6: Regresión lineal.
DISEÑO DE EXPERIMENTOS
Modelos de Variable Dependiente Binaria -Logit y Probit-
Pronósticos, Series de Tiempo y Regresión
Grupo 4 Matías Melgar Pablo Carbonell
KRIGING.
GEOESTADISTICA MULTIVARIADA
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Reducción de datos Por Elizabeth León.
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
LAS CARAS DE LA EVALUACION
Investigación Operativa
Taller 2. Medición de distancia entre variables y sujetos
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
ANÁLISIS DISCRIMINANTE
Determinacion de endmembers CCA1 Determinación de endmembers mediante una transformacion cónica.
ANÁLISIS DE CORRESPONDENCIAS SIMPLE
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Análisis de correlación.
Tema 2: Métodos de ajuste
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
RECONOCIMIETO DE PATRONES
Representación del Conocimiento
TRANSFORMACIONES LINEALES PARA REDES NEURALES ARTIFICIALES
Diseño de la investigación
ANÁLISIS DE CONGLOMERADOS

Diseño y análisis de algoritmos
Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
(Organización y Manejo de Archivos)
Descomposición Factorial Unidad 5
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Combinación de Clasificadores
MÉTODO DE PIXELES DE BORDE
Backtracking 1. Método general. 2. Análisis de tiempos de ejecución.
Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.
Métodos de calibración: regresión y correlación
3. Análisis de Correspondencias Simples
REGRESION LINEAL MULTIPLE: Introducción
Capacidad de Proceso.
Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.
CARPLATE Reconocimiento del marco de la matrícula de un coche
ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro.
Método para evaluar valores y cualidades
Variables estadísticas bidimensionales
MODELOS DEL PROCESO DE DECISIÓN DE OBJETIVOS
Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,
 Introducción  Modelo factorial ortogonal  Construcción del modelo factorial: método de componentes principales  Construcción del modelo factorial:
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Análisis de componentes principales
Reconocimiento de caras usando Histogramas de Gradientes Orientados
Toma de decisiones en la empresa
Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
RIESGO, RENDIMIENTO Y VALOR
Aplicación JAVA implementando Arboles de Decisión
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
OPTIMIZACION DEL DESEMPEÑO DE ERROR

REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Reconocimiento de Patrones Selección y Extracción de Características «Reducción de la Dimensionalidad»

Índice: Selección de características. Estrategias de búsqueda. Función criterio: Wrapper: Error de clasificación. Filter: Separación entre clases, medidas de dependencia y medidas de información. Ponderación de características. Extracción de características.

Diferentes Perspectivas Selección: obtener un subconjunto del conjunto inicial de atributos. Ponderación: aplicar un peso a cada una de las características iniciales. Extracción: obtener un conjunto a partir de la transformación o combinación de los atributos originales.

Problema de la Selección Buscar un subconjunto reducido de d características a partir de los D atributos iniciales que componen el vector de características de las muestras. Reducción de la dimensionalidad del espacio de características.

Objetivos Reducir el costo computacional asociado a una regla de clasificación. Eliminando atributos irrelevantes. Eliminando atributos redundantes. Aumentar la precisión (tasa de aciertos) de una regla de clasificación. Eliminando atributos “dañinos”. Reduciendo el número de atributos cuando se dispone de pocas muestras de entrenamiento: Razon entre número de muestras y número de características.

Posibles Aplicaciones Fusión de la información de múltiples sensores (Information Fusion). Minería de datos (Data Mining). Análisis de imágenes de percepción remota (Remote Sensing). Otras con grandes volúmenes de datos.

Formulación Matemática Problema de optimización combinatoria: Dado un conjunto Y de D características, escójase un subconjunto X  Y de talla d que optimice una cierta función criterio J(X).

Solución Trivial Realizar una búsqueda exhaustiva del mejor subconjunto de d  D características. Examinar todos los posibles subconjuntos de d características: Si en cambio buscamos todos los posibles subconjuntos de características entonces el problema tiene 2D – 1 combinaciones.

Solución Alternativa Algoritmos de selección de características: Se basan en el uso de una estrategia de búsqueda y una función criterio que permita evaluar la calidad de cada subconjunto seleccionado. En general, la función criterio trata de medir la capacidad discriminatoria de un atributo o de un subconjunto de características.

Esquema Estrategia de Búsqueda Función Criterio Selección de Características Conjunto de Características Estrategia de Búsqueda Mejor Subconjunto Subconjunto de Características Juicio Función Criterio

Proceso de selección de características con validación Evaluación Validación Subconjunto Conjunto original características características Bondad del subconjunto criterio parada Selection: Process of search a subset of features to evaluate. Evaluation: Evaluate the goodness of the subset under examination. Stopping criterion: Is the best subset? ->Criterion Can have a threshold with a fixed number of features to select. To maximise the accuracy classification or a posteriori probability for a determinate rule of classifier. Validation: Classification the training Set of the subset of features chosen with a test Set. NO: Search a new subset of features. no si

Factores de Influencia En general, el algoritmo de búsqueda utilizado no resulta tan determinante como la función criterio: distintos algoritmos obtienen la misma solución. Lo realmente fundamental en el resultado es la función criterio empleada.

Clasificación por Estrategia usando el propio clasificador Solución óptima Algoritmos de Ramificación y Poda. Solución subóptima Algoritmos Secuenciales. Algoritmos Genéticos.

Algoritmos Secuenciales Búsqueda Secuencial Hacia Delante (Forward Sequential Search, FSS). Búsqueda Secuencial Hacia Atrás (Backward Sequential Search, BSS). Búsqueda Secuencial Flotante (Sequential Floating Search, SFS).

Algoritmo FSS Parte de un conjunto de características vacio. En cada iteración, añade al conjunto la “mejor” característica.

Algoritmo BSS Parte de un conjunto formado por todas las características disponibles. En cada iteración, elimina del conjunto la “peor” característica.

Ejemplo FSS (Datos) Conjunto inicial: Y = {y1, y2, y3, y4 , y5}. Objetivo: seleccionar un conjunto X con las 2 mejores características (|X| = 2).

Ejemplo FSS (Ejecución) X =  Seleccionar el mejor subconjunto: X = {y1}, X = {y2}, X = {y3}, X = {y4}, X = {y5} Seleccionar el mejor subconjunto: X = {y2, y1}, X = {y2, y3}, X = {y2, y4}, X = {y2, y5}.

Ejemplo BSS (Datos) Conjunto inicial: Y = {y1, y2, y3, y4 , y5}. Objetivo: seleccionar un conjunto X con las 2 mejores características (|X| = 2).

Ejemplo BSS (Ejecución) X = Y = {y1, y2, y3, y4}. Seleccionar la mejor combinación: X = {y1, y2, y3}, X = {y1, y2, y4}, X = {y1, y3, y4}, X = {y2, y3, y4}. Seleccionar el mejor subconjunto: X = {y1, y3}, X = {y1, y4}.

Inconvenientes de FSS y BSS No pueden “corregir” adiciones o eliminaciones anteriores. Pueden dar lugar a conjuntos no óptimos: por ejemplo, en el BSS, el mejor X de 3 características era X = {y1, y3, y4} y, sin embargo, el mejor X de 2 elementos podría haber sido X = {y1, y2}.

Algoritmo SFS Dos variantes: “forward” y “backward”. Una mejora sobre FSS (o BSS): mediante la inclusión (o eliminación) condicional de características.

Algoritmo SFS Después de cada iteración hacia delante (o hacia atrás), se vuelve hacia atrás (o hacia delante) para comprobar si existe alguna combinación mejor. En la práctica, se aplica directamente el FSS (o BSS) en las 2 primeras iteraciones.

Ejemplo SFS (Datos) Conjunto inicial: Y = {y1, y2, y3, y4 , y5}. Objetivo: seleccionar un conjunto X con las 3 mejores características (|X| = 3).

Ejemplo SFS (Ejecución 1) Suponemos que el FSS ya ha seleccionado el mejor subconjunto de 2 elementos: X = {y2, y3}. El SFS selecciona ahora el mejor conjunto con 3 características; supongamos que éste es X = {y2, y3, y4}.

Ejemplo SFS (Ejecución 2) La vuelta atrás consiste en ver si existe algún subconjunto de 2 características mejor que el seleccionado anteriormente (X = {y2, y3}): en este caso, sólo podría ser el conjunto X = {y3, y4}. Si se cumple, se cambia y se vuelve hacia delante con el nuevo subconjunto.

Clasificación por Función Filtros: la función criterio utilizada es independiente del clasificador a emplear en la fase de clasificación. Wrappers: la función criterio utilizada es la propia regla que posteriormente se empleará para la clasificación de nuevas muestras.

Métodos filter y wrapper Variables de entrada Algoritmo de selección aprendizaje Método filter Método wrapper Variables de entrada evaluación subconjunto aprendizaje Algoritmo de selección Two groups of feature selection methods. Filtering methods: The subset selected is independent of the learning method that will use the selected features. We obtain a ranking of relevance in the features set. We have a choice of a subset with the better features. Wrapper methods: In this case, using the evaluation function based on the same learning algorithm that will be used for learning on domain represented with the selected features.

Funciones Criterio Medidas de distancia o separabilidad: p.e., distancia euclidea, “city-block”. Medidas de información: p.e., entropía. Medidas de dependencia: p.e., coeficiente de correlación. Medidas de la tasa de error: clasificador.

Medidas de Distancia Para un problema de 2 clases, un atributo X es preferible a otro Y si X induce una mayor diferencia entre las probabilidades condicionales de las dos clases. Por ejemplo, se puede utilizar la distancia entre los centroides de las dos clases.

Medidas de Información Miden la “ganancia de información” debida a cada atributo. Esta ganancia de información se puede definir a partir de la entropía.

Entropía donde pi es la proporción de muestras de la clase i en el conjunto S. Mide el “grado de impureza” de un cierto conjunto de muestras: Será máxima cuando todas las clases están representadas en la misma proporción.

Ganancia de Información Entonces, la ganancia de información de un atributo A será:

Medidas de Dependencia Cuantifican la capacidad para predecir el valor de una variable a partir del valor de otra variable: coeficiente de correlación. Coeficiente de correlación (entre 0 y 1): mide el grado de relación lineal entre dos variables. Un valor igual a 0 indica que no existe relación entre ellas.

Medidas de Dependencia Para detectar atributos redundantes, se puede determinar el coeficiente de correlación de un atributo X con otro Y.

Medidas de Tasa de Error Básicamente, se corresponden con los métodos “wrapper”. Como función criterio se utiliza el mismo clasificador que posteriormente vaya a emplearse para la clasificación de nuevas muestras.

Función Criterio - Problema Medidas de distancia Atributos irrelevantes Medidas de información Atributos redundantes Medidas de dependencia Atributos “dañinos” Medidas de tasa de error

Situación Actual En general, las propuestas actuales están dirigidas a resolver un único problema: atributos irrelevantes, atributos redundantes, atributos “dañinos”. El problema a resolver viene determinado, básicamente, por la función criterio utilizada.

Ponderación de Características Ponderar, en vez de seleccionar, cada uno de los atributos: asignar un peso a cada atributo en función de su importancia. Esta opción se centra en aumentar la tasa de aciertos de la regla de decisión, no en reducir el costo computacional.

Problema de la Ponderación Transformar el conjunto Y de los D atributos iniciales en un nuevo conjunto X de D características con distintos pesos: X = {w1y1, w2y2, …, wDyD}

Conjunto de Características Esquema Ponderación de Características Conjunto de Características Conjunto Ponderado Evaluación Ajuste de Pesos Aprendizaje de Pesos

Base del Problema Idea: los atributos irrelevantes tendrán muy poca influencia sobre el resultado global de la clasificación. Solución: ponderar la importancia de los atributos en función de su contribución al problema.

Fundamentos Las estrategias de ponderación tratan de: Premiar a los atributos responsables de clasificaciones correctas. Penalizar a los atributos culpables de clasificaciones erróneas.

Estrategias de Ponderación Ajustar los pesos en función del resultado de las predicciones. Ajustar los pesos en función de la clase de los vecinos más próximos. Ajustar los pesos en función de la probabilidad condicional de cada clase.

Ponderación — Selección La selección de características puede verse como un caso particular de la ponderación de características. El peso asignado a cada atributo sólo puede tomar los valores 0 (mínima relevancia) y 1 (máxima relevancia).

Comparativa entre selección y ponderación

Extracción de características Transformar el espacio de entrenamiento E en otro espacio E* donde los datos estén menos correlacionados. Encontrar un nuevo conjunto de ejes ortogonales en el que la varianza de los datos se máxima. En ese nuevo espacio los ejes principales serán los que más información aporten y los ejes secundarios no aportarán casi información por lo que se pueden eliminar y reducir la dimensionalidad. En la matriz de covarianza de los datos la dirección de máxima varianza es la del eje principal de la elipse.

Análisis de componentes principales: Se determina la matriz de covarianza de los datos. A continuación se diagonaliza la matriz calculando sus autovalores y sus autovectores. El resultado es una rotación rígida donde el autovector asociado al mayor autovalor está en la dirección de máxima varianza. Solución: Se ordenan los autovalores. Se suma la traza de la matriz T que contendrá la suma de los autovalores y se normaliza cada autovalor por la suma: De esta forma conocemos el grado de influencia de cada autovalor en la varianza total. Iremos acumulando de mayor a menor analizando cuanto porcentaje del total estamos acumulando hasta un umbral. Ej. 90 %.

Mediante los autovectores X podemos calcular las coordenadas de los puntos del conjunto de entrenamiento x en el espacio transformado x’: Si sólo utilizamos los autovalores asociados a los autovalores más altos tendremos conjunto de entrenamiento en un espacio transformado más reducido.

Conclusiones Selección: determinar la función criterio y el algoritmo de búsqueda. Ponderación: determinar la estrategia de ajuste de los pesos. Extracción: Pasar a un espacio transformado quedándonos con los ejes que más decorrelacionan los datos.