Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.

Slides:



Advertisements
Presentaciones similares
Jacqueline Chávez Cuzcano
Advertisements

Diseño y análisis de algoritmos
DATA MINING MINERIA DE DATOS Gersom Costas.
TEMA 3: Modelos de Oligopolio
Modelos de Variable Dependiente Binaria -Logit y Probit-
D ATA M INING Mª José Ramírez (DMIP) Índice Presentación Líneas de Investigación DMIP Negociación basada en Minería de Datos.
Grupo 4 Matías Melgar Pablo Carbonell
DATA MINING Bibliografía:
COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.
KRIGING.
MODELO DE REGRESIÓN MÚLTIPLE
Representación en espacio de estado
Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 7: Máquinas de Vectores Soporte Curso de doctorado impartido por Dr.
SUPPORT VECTOR MACHINE SVM
Máquinas con Vectores de Soporte - SVM
Investigación Operativa
RECONOCIMIENTO DE OBJETOS
DERIVADAS PARCIALES Gráficas.
Aplicaciones de la derivada Resuelve problemas de optimización aplicando las ideas básicas relacionadas con extremos de funciones de una variable Bloque.
CONCEPTOS BÁSICOSDE ESTADÍSTICA.
APRENDIZAJE WIDROW- HOFF
Fundamentos de Programación Matemática y Casos de Estudio en Economía.
Tema 2: Métodos de ajuste
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
RECONOCIMIETO DE PATRONES
 La resolución de problemas algorítmicos no solamente implica que los informáticos sepan programar sino necesitan de otras habilidades como tener una.
Representación del Conocimiento
Análisis Discriminante
Sesión 2: Métodos Probabilísticos Básicos
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Resolución de Problemas Método Simplex
EL PODER DE SOLVER.
Programación Lineal Unidad 1 Parte 3.
Unidad V: Estimación de
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
Técnicas Supervisadas Aproximación no paramétrica
Reconocimiento de Formas en Data Mining
DEFINICIONES Sea (P) el siguiente problema de programación lineal:
Aplicaciones de las Redes Neuronales Artificilaes Dr. Héctor Allende
Programación lineal: 1- Introducción: dualidad, definiciones, holguras
MÉTODO DE PIXELES DE BORDE
Red de Minería y Aprendizaje Grupo de Aprendizaje Automático Universidad de Oviedo en Gijón Selección de Atributos en Aprendizaje.
Unidad V: Estimación de
Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.
INVESTIGACION DE OPERACIONES
Aprendizaje en Árboles de Decisión
3- PROGRAMACION LINEAL PARAMETRICA
XV Congreso Nacional de Matemáticas
Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.
CARPLATE Reconocimiento del marco de la matrícula de un coche
Capítulo 1. Conceptos básicos de la Estadística
Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,
6. ANÁLISIS DISCRIMINANTE
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
1 Condiciones de extremo Proceso para derivar las condiciones De problema más simple a más complejo Progresión de problemas: Problema sin restricciones.
Notas de clase Física de Semiconductores
Introducción a las Ingenierías de la Información
MÉTODOS DE ANÁLISIS EN LA TOMA DE DECISIONES EXISTEN PROCEDIMIENTOS DE ORDEN MATEMÁTICO, FINANCIERO, ECONÓMICO, ESTADÍSTICO ENTRE OTROS, PARA LA TOMA DE.
Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.
ESPAD III * DÍA 12 ECUACIONES LINEALES.
Unidad II: Teorias del comportamiento del consumidor y de la empresa
Prof. Juan José Bravo B., M.Sc. ©
Matemáticas II. Profesor: Ing. Yadhira M. Rangel Carrillo.
MUESTREO : Generalidades
UNSa Sede Regional Oran TEU - TUP. Un espacio vectorial (o espacio lineal) es el objeto básico de estudio del álgebra lineal.álgebra lineal A los elementos.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Hernández Camacho Víctor Jesus Islas Sánchez Karla Vanessa
ALGEBRA CON VECTORES Y MATRICES Uso de MatLab.
Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
Transcripción de la presentación:

Support Vector Machines

 Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje no supervisado  Agrupación (Clustering)  Asociación (relaciones entre atributos) ◦ KDD y Data Mining

 Introducción  Marco Teórico  Extensiones  Ejemplos  Conclusiones

 Introducción  Marco Teórico  Extensiones  Ejemplos  Conclusiones

 Desarrolladas por Vapnik en los laboratorios AT&T (90s)  Sólidas bases teóricas: teoría VC, que caracteriza las propiedades del aprendizaje automático (60s)  Inicialmente desarrolladas para clasificación (aplicación práctica original: reconocimiento óptico de caracteres, OCR)

 Introducción  Marco Teórico  Extensiones  Ejemplos  Conclusiones

 Dado el espacio H en el que hay definido un producto escalar se define un hiperplano en el mismo  Se construye un clasificador basado en la función de decisión

 Entre todos los posibles se escoge aquel tenga distancia mínima de unidad a los puntos de entrenamiento  Es un problema de optimización con restricciones, que se puede resolver mediante el método de los multiplicadores de Lagrange.

 No tenemos por que calcular w explícitamente, el clasificador puede construirse como:  El problema depende únicamente del producto escalar entre los puntos de entrenamiento en el espacio de características H

 El hiperplano queda definido por un subconjunto de los vectores de entrenamiento, los Vectores de Soporte (SV), que son aquellos con α > 0.

 Introducción  Marco Teórico  Extensiones  Ejemplos  Conclusiones

 Con el clasificador hiperplanar se trabaja en exclusiva con productos escalares sobre el espacio de características, si se hace la sustitución (kernel trick):  Se puede suponer que la función k encierra tanto un producto escalar como una traslación de los vectores (Φ-image) a un nuevo espacio de características, tal vez de mayor dimensionalidad que el original.

Φ’’ Φ’Φ’ Φ’’’

 Modificación de la función objetivo de SVC.  One Vs Rest. M clases, se obtienen M clasificadores que distinguen una clase de las demás.  Pairwise Classification. Un clasificador por cada par de clases, M clases implican (M- 1)M/2 clasificadores.

 Error-Correcting Output Coding. Se basa en dividir el conjunto de clases en grupos que se clasifican, con una adecuada partición se puede llegar a determinar la clase.  SVM-Tree.

 En la práctica, puede no haber hiperplano separador (ej.: consecuencia del ruido)  Se tolera una cierta cantidad de clasificación errónea, es decir, de ejemplos mal clasificados mediante 'variables de holgura' (slack variables, ξ)

 Hay dos tipos: ◦ C-SVM donde C (0,∞) representa el compromiso (trade-off) entre maximización del margen y minimización del error de entrenamiento. ◦ V-SVM donde ν (0,1] es tanto proporcional a la fracción de errores como de vectores de soporte  Se ha demostrado que ambos tipos de clasificadores son equivalentes.

 Introducción  Marco Teórico  Extensiones  Ejemplos  Conclusiones

Kernel lineal  Vectores de Soporte= 256  error medio= 0.5  C=100000

Kernel Gaussiano  Vectores de soporte = 210  error medio =  C = 1

Kernel polinomial  Vectores de soporte = 13  error medio = 0  C = 1

Kernel Gaussiano  Vectores de soporte = 433  error medio = 0.05  C = 1

Kernel polinomial  Vectores de soporte = 665  error medio = 0.09  C = 1

Kernel polinomial  Vectores de soporte = 14  error medio = 0  C = 1

Kernel Gaussiano  Vectores de soporte = 140  error medio = 0.02  C = 1

 Introducción  Marco Teórico  Extensiones  Hiperplano de marco relajado  Ejemplos  Conclusiones

 La elección del kernel, incluyendo el valor de sus parámetros,para un problema es crítica para el rendimiento del método  También es crítica la adecuada elección del parámetro C (o ν su caso)  De ahí se deduce que aunque el método se vende como convexo, sólo lo es para un kernel fijado, sus parámetros y parámetro del SVC (sea C-SVC o ν-SVC)

 Incorporación de selección de características en el algoritmo (p.e.: “Bayesian approach to SVM”) o mediante filtros  Sistematización de selección y creación de kernels para un problema dado  Optimización de parámetros automática (C, ν, y específicos del kernel)

 Mejora de rendimiento: algoritmos de aproximación para ciertos cálculos, heurísticas (cacheado de resultados, descarte de ejemplos, etc...)  Aprendizaje “on line” de SVMs

 Teoría VC: desarrollada por Vapnik y Chervonenkis, su concepto más conocido es el de dimensión VC  Dimensión VC: para una función de clasificación da su capacidad máxima de discriminación. Su interés radica en que a partir de ésta se puede evaluar una cota al error esperado de un clasificador

 Margen de clasificador hiperplanar: ancho de separación entre cualquier punto de entrenamiento y el hiperplano  Vector de soporte (Support Vector, SV): puntos de entrenamiento con α > 0, únicos influyentes en el hiperplano solución  Kernel trick: sustitución del producto escalar en la formulación del clasificador hiperplanar por una función kernel que lo generaliza a problemas no lineales

 V. Vapnik and A. Chervonenkis, Theory of Pattern Recognition, Nauka, Moscow,  N. Cristianini and J. Shawe-Taylor, An Introduction to Support Vector Machines, Cambridge University Press, Cambridge,  J. Shawe-Taylor and N. Cristianini, Kernel Methods for Pattern Analysis, Cambridge University Press, Cambridge, 2004.