Selección de Características

Slides:



Advertisements
Presentaciones similares
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Advertisements

Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
1 ESTUDIO DE OPINIÓN PÚBLICA: LA SEXUALIDAD DE LOS CHILENOS ABRIL 2006 ¿Informados o desinformados? Principal fuente de información Las enseñanzas durante.
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
Jacqueline Chávez Cuzcano
Vera Olivera, David Carlos Marín Rosales, Nicolae Harry
Universidad San Martín de Porres
Variables Sherine Shawky, MD, Dr.PH Profesor asistente
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Programación entera En muchos problemas reales las variables sólo pueden tomar valores enteros Ejemplos: decisiones sobre inversiones, compras, arranques,
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
SIMULACIÓN DE MONTECARLO
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Introducción a la minería de datos
Árboles de decisión Tema 9 Parte teórica Minería de datos
Metodología de la Investigación Social
CAPÍTULO 9 La economía en pleno empleo
SIMATICA V2.0. Automatización de Viviendas con Simatic S7-200
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Unidad de competencia II Estadística descriptiva:
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
AGROACTIVO: 1 agricultura, ganadería y agroindustria.
TELEFONÍA IP.
Parte 3. Descripción del código de una función 1.
Vocabulario querer comerlo -paja por supuesto - madera
de Joaquín Díaz Garcés (Angel Pino)
FUNCIONES DE UNA VARIABLE REAL
Repaso de matrices DAGOBERTO SALGADO HORTA.
EL OSO APRENDIZ Y SUS AMIGOS
50 principios 1. Los clientes asumen el mando.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Hacer click Hacer click en cualquiera de estos links.
Indicadores CNEP Escuela
Ecuaciones Cuadráticas
La elección óptima del consumidor
¡Primero mira fijo a la bruja!
Investigación Algorítmica
Introducción a las Señales Aleatorias ISAL
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
Un nuevo algoritmo incremental IADEM-0
Máquinas con Vectores de Soporte - SVM
Programación dinámica (1)
Un ejemplo de agrupación de datos Problema 1 del capítulo 2 del libro de texto.
Quetzalpapalotl Quetzalpapalotl – Gevederde Slang, vlindergod.
RECONOCIMIENTO DE OBJETOS
By: Nicholas, Rayna, Nathaniel, Calvin
Los números. Del 0 al 100.
Realimentacion de la salida
Vocabulario: (Los números)
Los Numeros.
FACULTAD DE DERECHO PROTAGONISTAS PROMOCIÓN aniversario
Diagrama CAUSA_EFECTO ó ISHIKAWA ó ESPINA DE PESCADO
1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Norma de Información Financiera A-5
Introducción al Análisis Cluster
Herramienta FRAX Expositor: Boris Inturias.
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
Reconocimiento de Patrones

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Transcripción de la presentación:

Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Selección de Características error del clasificador número de características número de ejemplos Mg. Samuel Oporto Díaz

Mapa Conceptual – Minería de Datos Exploración y transformación Reconocimiento de Patrones Evaluación e Interpretación Fuentes de datos Pre-procesamiento Data cruda Data Objetivo Data Pre-procesada Data Transformada Evaluación y Entendimiento DHW Patrones DBMS Texto Muestreo y Selección Muestreo Selección Limpieza de Datos Limpieza de datos Datos que no existen Datos no clasificados Identificación de extremos Eliminación de Ruido Transformación de Datos Reducción de Dimensionalidad Creación de Características Normalización de Datos Variables Correlacionadas Discretización Modelado Descripción Clasificación Regresión Agrupamiento Asociación Secuenciación Detección de Desviación Reportes y Visualización

Tabla de Contenido Introducción 4 Pre-procesamiento 9 Reducción de Datos 26 Selección de Instancias 36 Selección de Características 40 Ejemplo Planteamiento del Problema 49 Procedimiento de solución 53 Algoritmos 58 Fuentes de Datos 64 Diseño de Experimentos 66 Resultados Experimentales 68

INTRODUCCION

Proceso de la Minería de Datos

Proceso de Minería de Datos Pre-procesamiento. Problemas de pre-procesamiento como un problema de búsqueda Minería de Datos. Aprendizaje/extracción de conocimiento como problemas de optimización y búsqueda

Preparación y pre-procesamiento de datos

Preparación de Datos El propósito fundamental de la preparación de los datos es la manipulación y transformación de los datos sin refinar para que la información contenida en el conjunto de datos pueda ser descubierta o estar accesible de forma más fácil.

PRE-PROCESAMIENTO

Importancia Los datos reales pueden ser impuros, pueden conducir a la extracción de patrones/reglas poco útiles. Esto se puede deber a: Datos Incompletos: falta de valores de atributos, Datos con Ruido Datos inconsistentes (incluyendo discrepancias)

Importancia La preparación de datos puede generar un conjunto de datos más pequeño que el original, lo cual puede mejorar la eficiencia del proceso de Minería de Datos. Esta actuación incluye: Selección relevante de datos: Eliminando registros duplicados Eliminando anomalías, Reducción de Datos: Selección de características muestreo o selección de instancias Discretización.

Importancia La preparación de datos genera “datos de calidad”, los cuales pueden conducir a patrones/reglas de calidad. Por ejemplo, se puede: Recuperar información incompleta. Eliminar outliers Resolver conflictos,

Importancia Datos de baja calidad puede llevar a modelos de minería de datos de baja calidad. Decisiones de calidad deben ser basadas en datos de calidad. La preparación de datos (limpieza, transformación, ….) puede llevar la mayor parte del tiempo de trabajo en una aplicación de minería de datos (90%).

¿Qué incluye la Preparación de Datos? Engloba a todas aquellas técnicas de análisis de datos que permite mejorar la calidad de un conjunto de datos de modo que las técnicas de extracción de conocimiento / minería de datos puedan obtener mayor y mejor información (mejor porcentaje de clasificación, reglas con más completitud, etc.)

¿Qué incluye la Preparación de Datos? Es difícil dar una lista exacta de tareas o tópicos. Diferentes autores dan diferentes tareas y clasificaciones. Se pueden incluir las siguientes tareas o tópicos. Limpieza de datos Integración de datos Transformación de datos Reducción de datos

¿Qué incluye la Preparación de Datos?

Limpieza de datos Resuelve redundancias consecuencia de la integración Chequea y resuelve problemas de ruido, valores perdidos, elimina outliers, Resuelve inconsistencias/conflictos entre datos

Limpieza de Datos Outliers Son objetos/datos con características que son considerablemente diferentes de la mayoría de los otros datos/objetos del conjunto.

Limpieza de Datos Datos con ruido. Suavizado

Limpieza de Datos Ejemplo de inconsistencias Presencia de discrepancias en datos Edad=“42” Fecha de Nacimiento=“03/07/1997”

Integración de Datos Obtiene los datos de diferentes fuentes de información Resuelve problemas de representación y codificación Integra los datos desde diferentes tablas para crear

Transformación de Datos Los datos son transformados o consolidados de forma apropiada para la extracción de información. Diferentes vías: Sumarización de datos Operaciones de agregación, etc. Aplicación de funciones

Ejemplos de Transformación de Datos Normalización min-max Normalización z-score Normalización por escala decimal donde j es el entero más pequeño tal que max(| v’|) < 1

Reducción de Datos Selecciona/extrae datos relevantes para la tarea de la minería de datos/extracción de información. Datos originales Datos Reducidos

Reducción de Datos Diferentes vías para la Reducción de Datos: Selección de Características Selección de Instancias Agrupamiento / Compactación Discretización

REDUCCION DE DATOS

Reducción de Datos

Selección de Características La SC pretende elegir atributos que sean relevantes para una aplicación y lograr el máximo rendimiento con el mínimo esfuerzo. El resultado de la SC sería: Menos datos  los algoritmos pueden aprender más rápidamente Mayor exactitud  el clasificador generaliza mejor Resultados más simples  más fácil de entender SC y Transformación (extracción y construcción)

Selección de Características Var 1 Var 5 Var 13

Selección de Características La SC se puede considerar como en problema de búsqueda Los Algoritmos Evolutivos y las diferentes meta-heurísticas se han utilizado para este problema.

Proceso

Selección de Instancias La SI pretende elegir los ejemplos que sean relevantes para una aplicación y lograr el máximo rendimiento. El resultado de la SC sería: Menos datos  los algoritmos pueden aprender más rápidamente Mayor exactitud  el clasificador generaliza mejor Resultados más simples  más fácil de entender SI y Transformación (compactación/agrupamiento)

Ejemplos de diferentes tamaños 8000 puntos 2000 puntos 500 puntos

Agrupamiento Compactación mediante el análisis de clusters

Discretización Divide el rango de atributos continuos (numéricos) en intervalos Almacena solo las etiquetas de los intervalos Importante para reglas de asociación y clasificación Ejemplo:

SELECCIÓN DE INSTANCIAS

Selección de Instancias

Muestreo

Muestreo

SELECCIÓN DE CARACTERÍSTICAS

El Problema Se desea clasificar ejemplos de determinados objetos en una de varias categorías o clases preestablecidas. La tarea de clasificación de patrones consiste en construir un mapa de relaciones entre el espacio de características y el conjunto de las clases, de modo de poder reconocer a qué clase corresponde cualquier patrón de entrada representado por un vector de características. En muchos otros problemas de clasificación no se conoce a priori, por falta de una teoría sólida establecida, cuáles son las características relevantes que permiten discriminar entre diversas categorías.

El problema El problema de la selección de características consiste en seleccionar un subconjunto de m características de entre un conjunto original de n características candidatos , bajo algún criterio de desempeño. Hay un total de de tales subconjuntos. El número de posibilidades crece exponencialmente, haciendo impráctica la búsqueda exhaustiva, aun para valores moderados de n.

Maldición de la dimensionalidad error del clasificador número de características número de ejemplos

Objetivos reducir la complejidad del clasificador y su implementación en hardware/software. compresión de información (eliminar características redundantes e irrelevantes). reducir el costo de medición al disminuir el número de características. proveer una mejor clasificación debido a efectos por tamaño finito de la muestra.

Ejemplos de datasets Aplicaciones donde se fusionan datos provenientes de múltiples sensores. Integración de múltiples modelos, donde se juntan los parámetros de diferentes modelos matemáticos para propósitos de clasificación. Por ejemplo, combinación de características de diferentes modelos de textura en imágenes. Aplicaciones de data mining, donde el objetivo es recuperar las relaciones escondidas entre un gran número de características.

Métodos Un método de selección de características típicamente requiere de los siguientes ingredientes: Generación de subconjuntos, que corresponde a un procedimiento de búsqueda. Un criterio de evaluación J para comparar subconjuntos de características. Un criterio de parada, típicamente un umbral de significancia o la dimensión del espacio final de características.

Proceso

Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación.

PLANTEAMIENTO DEL PROBLEMA

Selección de Características La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.

Selección de Características Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador. Se trata de reducir la dimensionalidad de los patrones de entrada Sm. Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.

Selección de Características Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es: Si n = m; 2n

PROCEDIMIENTO DE SOLUCION

Proceso de Selección de Características Filtro Envolvente Híbrido B. Optima B. Sub-optima B. Aleatoria B. Heurística e: error del clasificador Clasificador

Generación del Sub-Conjunto Búsqueda exhaustiva Búsqueda secuencial hacia delante. Búsqueda secuencial hacia atrás. Búsqueda Aleatoria (BA). Búsqueda Aleatoria Optimizada (BAO) Búsqueda Mejor Primero (BMP) Búsqueda Genética (BG) Optima Sub-optima Aleatoria Heurística

Evaluación del Sub-Conjunto Filtro. Independientes del algoritmo de aprendizaje. Componente principal, entropía. Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje. Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética. Híbridos. Filtro + Envolvente.

error del clasificador Criterio de Paro ¿Cuándo detener la búsqueda? : error del clasificador

ALGORITMOS

Algoritmos de Búsqueda BUSQUEDA ALEATORIA (BA) Realiza una búsqueda sobre un porcentaje de todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo. BUSQUEDA ALEATORIA OPTIMIZADA (BAO) Dado un subconjunto de características, si al quitar una característica. error sube  relevante <fracaso> error baja  irrelevente <exito> Se pretende eliminar las irrelevantes.

Algoritmos de Búsqueda BUSQUEDA MEJOR PRIMERO (BMP) Usa un árbol de búsqueda, de tal forma que la característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características. BUSQUEDA GENÉTICA (BG) Hace uso de un algoritmo genético. El objetivo consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).

Criterio de Paro Búsqueda Aleatoria (BA)  gradiente error < umbral Búsqueda Aleatoria Optimizada (BAO)  fracasos consecutivos < umbral Búsqueda Mejor Primero (BMP)  error (l) < error (l + k) k = [1, 2, 3, 4, 5] Búsqueda Genética (BG)  minimizar el error del clasificador.

Algoritmos de Clasificación Árbol de Decisión C4.5 Naive Bayesian Aprendizaje probabilístico: Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta. La predicción probabilística predice múltiples hipótesis ponderadas Desarrollado por Quinlan. Es un árbol de regresión. Es recursivo, y se basa en la estrategia "divide y vencerás“ Mejora del ID3.

Algoritmos de Clasificación Maquinas de Vector Soporte Red de Retropropagación Presentadas en 1992. Vapnik y Chervonenkis. Crea nuevas características linealmente separables. Busca un hiperplano que puede separar el espacio en dos partes Trabaja con datos continuos o discretos La salida puede ser vector de valores reales o discretos. Aprende por modificación de los pesos. Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.

FUENTES DE DATOS

Datos UCI Repository of Machine Learning Database University of California

DISEÑO DE EXPERIMENTO

Diseño de Experimentos DATOS ADULT, BANDS, MUSHROOM Árbol de Decisión C4.5 Naive Bayesian Maquinas de Vector Soporte Red de Retropropagación Búsqueda Aleatoria Búsqueda Aleatoria Optimizada Búsqueda Mejor Primero Búsqueda Genética 48 experimentos ALGORITMO DE BUSQUEDA CLASIFICADORES ANOVA Voting K-fold Validación cruzada K = 10

RESULTADOS EXPERIMENTALES

Resultados Experimentales

Tablas de Votación (error) Puntajes en función a la tasa de error promedio del clasificador

Tablas de Votación (reducción) Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos

Conclusión Voting Reducción del error No se puede concluir quién es el peor (2BA y 1BG) No se puede concluir quién es el mejor (2 BAO y 1BG) Reducción de la dimensionalidad. El peor es BAO para la data usada (3 BAO) No se puede concluir quién es el mejor (2 BG, 1 BA)

ANOVA: Error t(5%,6)=1.9432 BANDS ADULT MUSHROOM

ANOVA: Reducción t(5%,6)=1.9432 BANDS ADULT MUSHROOM

Conclusión ANOVA Reducción del error El peor es el BG para la data usada Los mejores son BAO y BA para la data usada, pero entre los no se de puede concluir una diferencia. Reducción de la dimensionalidad. El peor es el BAO para la data usada Los mejores son BA y BG para la data usada, pero entre los no se de puede concluir una diferencia.

PREGUNTAS