La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Un nuevo algoritmo incremental IADEM-0

Presentaciones similares


Presentación del tema: "Un nuevo algoritmo incremental IADEM-0"— Transcripción de la presentación:

1 Un nuevo algoritmo incremental IADEM-0
Autores: Gonzalo Ramos Jiménez, Rafael Morales Bueno, José del Campo Ávila Ponente: El algoritmo que vamos a presentar lo hemos llamado IADEM-0. A continuación veremos en qué consiste, pero lo primero será exponer el contenido de la exposición [...] E.T.S. Ingeniería Informática Universidad de Málaga Lenguajes y Ciencias de la Computación

2 Conclusiones y trabajos futuros
CONTENIDO Introducción Descripción de IADEM-0 Resultados Conclusiones y trabajos futuros Empezaremos introduciendo unos conceptos previos como los modelos de memoria, la representación probabilística o los algoritmos incrementales A continuación entraremos a explicar el IADEM-0; primero desde un punto de vista más general y después centrándonos en algunos detalles Una vez en este punto comentaremos algunos resultados obtenidos y para terminar daremosndo las conclusiones y los posibles trabajos futuros Introducción IADEM-0 Resultados Conclusiones

3 Conjuntos de datos cada vez mayores
Introducción Sistemas de aprendizaje automático trabajan sobre conjuntos de datos para extraer conocimiento (inducción) Conjuntos de datos cada vez mayores Grandes bases de datos Flujos de datos Extraer conocimiento con algoritmos tradicionales es una tarea inabordable Requisitos de memoria Los sistemas de aprendizaje automático se usan para trabajar sobre bases de datos y extraer conocimiento. Estas bases de datos son cada vez mayores e incluso ha surgido el concepto de flujo de datos: datos que lleguen continuamente de forma indefinida. Si queremos extraer conocimiento de estas bases de datos con los algoritmos tradicionales, nos enfrentamos a un problema de memoria. Algoritmos como el ID3 o el C4.5 que cargan todas las experiencias en memoria no pueden trabajar. Introducción IADEM-0 Resultados Conclusiones

4 La memoria en los algoritmos
Modelos de memoria de experiencias Completa: se guardan todas las experiencias IB1, ID3, ITI Parcial: se guardan algunas experiencias IB2, AQ-PM, FLORA Sin memoria: no se guardan experiencias Winnow, ID4, VFDT Modelos de memoria de conceptos Ninguna: no almacena descripción de concepto Alguna: reglas, árboles de decisión, etc. (( Los modelos de memoria de experiencias fueron propuestos por Reinke y Michalski 1988 [maloof2000] )) Decir que, si no se emplea memoria de experiencias habrá que tener algún tipo de memoria de conceptos Decir que, si no se usa memoria de conceptos, es necesario usar memoria de experiencias completa o parcial. Introducción IADEM-0 Resultados Conclusiones

5 Representación de conceptos
Hay tres formas de representar los conceptos Ejemplar: se compone de las experiencias en sí Clásica: los conceptos son representados por expresiones lógicas que son necesarias y/o suficientes para describir las propiedades de los conceptos Probabilística: asume que los conceptos representados muestran importantes propiedades de los conceptos reales, pero cualifica su importancia con probabilidades y otras medidas de confianza La representación probabilística permite explorar los datos mientras mantenemos la información más relevante extraída de las experiencias exploradas Introducción IADEM-0 Resultados Conclusiones

6 Algoritmos incrementales
Distintas interpretaciones (Michalski, Polikar) Características principales: Capacidad de incorporar nuevas experiencias a la base de conocimiento Capacidad de evolucionar la base de conocimiento desde una estructura sencilla hacia otra más compleja Ejemplos: ID4, STAGGER, Winnow, AQ-PM, ID5, ITI, VFDT Enfoque revolucionario y evolucionario de Michalski. Revolucionario consiste en ... Demasiado estricto el de Polikar (no permite guardar experiencias antiguas, acomodar nuevas clases ... ) Introducción IADEM-0 Resultados Conclusiones

7 Fundamentos de IADEM-0 Grandes bases de datos que no crecen
Grandes bases de datos que crecen + Flujos de datos Gran cantidad de experiencias Llegada de nuevas experiencias Algoritmos incrementales Sin memoria de experiencias Representación probabilística Chernoff y Hoeffding Las grandes bases de datos que crecen también tienen el problema de ser grandes y tener gran cantidad de experiencias Con memoria de conceptos IADEM-0 Árbol decisión Introducción IADEM-0 Resultados Conclusiones

8 IADEM-0 (I) Inducción de Árboles de I A DE M - 0 DEcisión por Muestreo
- 0 DEcisión por Muestreo Inicializar mientras ( ¬ Condición_Parada  ¬ Condición_Completamente_Expandido) hacer: Muestrear y Recalcular si ( ¬ Condición_Parada  Condición_Expansión) entonces si Condición_Es_Expansible(peor_nodo) entonces Expandir_Árbol Introducción IADEM-0 Resultados Conclusiones

9 Muestrear y Recalcular
IADEM-0 (II) ¿Cuándo parar? Solución deseada Árbol totalmente expandido ¿Cuándo expandir el árbol? No solución deseada Frontera de expansión Sea expansible (mejor atributo del peor nodo) Inicializar mientras ( ¬ Condición_Parada  ¬ Condición_Completamente_Expandido) hacer: Inicializar mientras ( ¬ Condición_Parada  ¬ Condición_Completamente_Expandido) hacer: Muestrear y Recalcular si ( ¬ Condición_Parada  Condición_Expansión) entonces si Condición_Es_Expansible(peor_nodo) entonces Expandir_Árbol Inicializar Inicializar mientras ( ¬ Condición_Parada  ¬ Condición_Completamente_Expandido) hacer: Muestrear y Recalcular si ( ¬ Condición_Parada  Condición_Expansión) entonces si Condición_Es_Expansible(peor_nodo) entonces Expandir_Árbol Muestrear y Recalcular Expandir_Árbol Procedimientos Inicializar las estructuras Muestrear nuevas experiencias y recalcular valores Expandir el árbol Introducción IADEM-0 Resultados Conclusiones

10 IADEM-0 (III) Parámetros y procedimientos Diferencias entre nodos reales y virtuales Grupo elemental de variables Procedimientos Predicados

11 Parámetros y argumentos
Descripción del problema ( atributos y sus valores ) Conjunto de experiencias Error buscado (  (0,1) ) Confianza (  (0,1) ) Parámetros Factor de expansión (  (0,1) ) determina la frontera de expansión Diferenciación de atributos ( d (0,1) ) determina cuándo los atributos son realmente diferentes Medida de desorden ( medida: [0,1]k  R +  {0} ) puede elegirse cualquiera Número de experiencias por muestreo ( n  N + ) Introducción IADEM-0 Resultados Conclusiones

12 Nodos reales y nodos virtuales (I)
A={a1,a2} B={b1 ,b2 ,b3} C={c1,c2} X={x1,x2} B b1 b2 b3 C X X c1 c2 X X A X a1 a2 C X c1 c2 A X a1 a2 C X c1 c2 Cada hoja no tiene valores únicos para algunas variables. Los valores se encuentran en un intervalo que depende de la confianza que le exijamos al algoritmo. Como se explicará en breve, la amplitud del intervalo se determina usando las cotas de Chernoff y Hoeffding. A X a1 a2 A X a1 a2 Introducción IADEM-0 Resultados Conclusiones

13 Nodos reales y nodos virtuales (II)
A={a1,a2} B={b1 ,b2 ,b3} C={c1,c2} X={x1,x2} B b1 b2 b3 C X A X c1 c2 a1 a2 X X A X a1 a2 C X c1 c2 X X A X a1 a2 A X a1 a2 C X c1 c2 C X c1 c2 Introducción IADEM-0 Resultados Conclusiones

14 Grupo elemental Árbol definido en base a los nodos hoja  HOJAS  N +
Grupo Elemental ( para el nodo i  HOJAS) atributos_usados i atributos_libres i L i A i V i, r Subgrupo Estructural t i n i n i, z total i nodos i Subgrupo Contadores El árbol está definido a partir de sus hojas. Para cada hoja se definen una serie de atributos básicos que son los que se van a modificar directamente después de cada muestreo. Los componentes son: Atributos usados y atributos libres para ese hoja, la profundidad de la hoja en el árbol, una función para ordenar los atributos usados desde la raíz hasta la hoja indicada, el valor del atributo r que es uno de los usados en el nodo i el número total de experiencias muestreadas desde que el nodo i es virtual, el número de ellas que corresponden a ese nodo i, y de entre estas últimas las que se corresponden con la clase z el número total de experiencias muestreadas desde que el nodo es real, y el número de ellas que corresponden a ese nodo i el conjunto de nodos virtuales, que son aquellos candidatos a convertirse realmente en nodos hoja del árbol cuando se de una expansión el número de experiencias muestreadas que corresponden con el nodo virtual (i,r,v), y el número de ellas que se corresponden con la clase z virtuales n’ ( i, r, v ) n’ ( i, r, v ), z Subgrupo Virtuales Introducción IADEM-0 Resultados Conclusiones

15 Muestrear_y_Recalcular
Procedimientos Inicializar Primer nodo hoja del árbol Valores iniciales a las variables del grupo elemental Muestrear_y_Recalcular Toma n experiencias y actualiza la estructura Se recalculan variables y predicados Expandir_Árbol Elimina el peor_nodo hoja Inserta como nuevas hojas a los hijos del peor_nodo

16 Predicados (I) Condición_Parada : 2N  { V, F }
Condición_Parada(HOJAS)  sup( error )   Condición_Parada : 2N  { V, F } Condición_Parada(HOJAS)  sup( error )   Vectores error = es un conjunto de vectores. cada vector en el conjunto se corresponde con una configuración de valores en los nodos del árbol de decisión. un árbol de decisión tiene una topología única pero existen distintos árboles dependiendo de los valores que tomen las variables en sus nodos. Como ahora expondremos, estamos tratando con intervalos dependiendo del error que cometamos. Es el caso de wi (probabilidad de que una experiencia alcance el nodo i-ésimo) o qi (probabilidad de la clase mayoritaria en el nodo i-esimo). Así para una topología determinada y dependiendo de los valores que se tomen, tenemos un conjunto de vectores cada uno de cuyos valores representa el error cometido en cada uno de los nodos Hay que tener en cuenta que la suma de las probabilidades de llegar a los nodos debe ser 1 y que los valores deben permanecer dentro de sus intervalos. Valores_error= conjunto con la suma de las componentes de cada vector del conjunto anterior. Introducción IADEM-0 Resultados Conclusiones

17 Predicados (II) Condición_Parada : 2N  { V, F }
Condición_Parada(HOJAS)  sup( error )   Wi = probabilidad de que una experiencia alcance el nodo i-ésimo = nº experiencias que llegan a i (virtualmente) / número total de experiencias desde que i existe (virtualmente) E(wi) = error cometido estimado mediante el uso de las cotas de Chernoff y Hoeffding Introducción IADEM-0 Resultados Conclusiones

18 Predicados (III) Condición_Parada : 2N  { V, F }
Condición_Parada(HOJAS)  sup( error )   pi,j = probabilidad de clasificar una experiencia como de la clase j en el nodo i Pi = conjunto de vectores. Cada vector encaja con una de las posibles clasificaciones dadas por el el nodo i. Cada valor debe estar en su intervalo y la suma debe ser 1. Mi,j = sus componentes son los máximos valores de pi,j atendiendo al nodo i y a la clasificación j. Y considerando las restricciones impuestas en Pi. Mi = reúne todos los elementos sin diferenciar entre clases. Introducción IADEM-0 Resultados Conclusiones

19 Predicados (IV) sup(error)  inf(error)
Condición_Parada : 2N  { V, F } Condición_Parada(HOJAS)  sup( error )   sup(error) inf(error) Introducción IADEM-0 Resultados Conclusiones

20 Frontera de expansión = ( 1 –  ) 
Predicados (V) Condición_hojas_disponibles: 2N  { V, F } Condición_hojas_disponibles (HOJAS)  | { i  HOJAS | atributos_libresi =  } | > 0 Condición_de_expansión : 2N  { V, F } Condición_de_expansión(HOJAS)  inf( error )  ( 1 –  )  sup(error) inf(error) Frontera de expansión = ( 1 –  )  Introducción IADEM-0 Resultados Conclusiones

21 Predicados (VI) Condición_Es_Expansible: HOJAS  { V, F }
Condición_Es _Expansible(i)   sup( medidai ( mejor_atributoi ) )  inf( medidai (r) ) r  atributos_libresi – { mejor_atributoi }   | sup( medidai( mejor_atributoi )) – min{ inf( medidai(r) ) | r  atributos_libresi – { mejor_atributoi } } |  d  Condición_Es_Expansible: HOJAS  { V, F } Condición_Es _Expansible(i)   sup( medidai ( mejor_atributoi ) )  inf( medidai (r) ) r  atributos_libresi – { mejor_atributoi }   | sup( medidai( mejor_atributoi ) – min{ inf( medidai(r) ) | r  atributos_libresi – { mejor_atributoi } } |  d  Pi,r,v,t = probabilidad de clasificar una experiencia como de la clase t en el nodo virtual (i,r,v) (i del nodo del que es virtual, r del atributo libre que contabiliza y v del valor de dicho atributo) Pi = conjunto de vectores. Cada vector encaja con una de las posibles clasificaciones dadas por el el nodo virtual. Cada valor debe estar en su intervalo y la suma debe ser 1. La zona recuadrada no se explicará pero la idea es similar a la expuesta anteriormente (se usan las cotas de Chernoff y Hoeffding junto con el valor estimado para calcular el intervalo. MEDIDAS (i,r,v) = conjunto de aplicar la función medida (de desorden) a cada posibilidad contemplada en P’(i,r,v). Introducción IADEM-0 Resultados Conclusiones

22 Predicados (VII) Condición_Es_Expansible: HOJAS  { V, F }
Condición_Es _Expansible(i)   sup( medidai ( mejor_atributoi ) )  inf( medidai (r) ) r  atributos_libresi – { mejor_atributoi }   | sup( medidai( mejor_atributoi ) – min{ inf( medidai(r) ) | r  atributos_libresi – { mejor_atributoi } } |  d  Condición_Es_Expansible: HOJAS  { V, F } Condición_Es _Expansible(i)   sup( medidai ( mejor_atributoi ) )  inf( medidai (r) ) r  atributos_libresi – { mejor_atributoi }   | sup( medidai( mejor_atributoi ) – min{ inf( medidai(r) ) | r  atributos_libresi – { mejor_atributoi } } |  d  peor_nodo Introducción IADEM-0 Resultados Conclusiones

23 Validación cruzada por deciles (10-cross)
Resultados Objetivos: Precisión Tamaño del árbol Conjuntos de datos Reales UCI Comparado con C4.5 e ITI Sintéticos Comparado con ITI Validación cruzada por deciles (10-cross) Test de significancia (t-student) Introducción IADEM-0 Resultados Conclusiones

24 Casos reales (I) Introducción IADEM-0 Resultados Conclusiones

25 Casos reales (II) Introducción IADEM-0 Resultados Conclusiones

26 Casos sintéticos Introducción IADEM-0 Resultados Conclusiones

27 Conclusiones Sin memoria de experiencias Algoritmo incremental
La memoria usada no depende del tamaño de la fuente de datos sino de la estructura de conocimiento almacenada Algoritmo incremental Pueden llegar nuevas experiencias y el conocimiento se va refinando Usa las cotas de Chernoff y Hoeffding Se conoce el error estimado del árbol inducido Detección automática tras satisfacer los requisitos del usuario ( , ) Se da información detallada para la predicción: valor estimado + margen de error Introducción IADEM-0 Resultados Conclusiones

28 Capacidad para trabajar con ruido y no determinismo
Trabajos futuros Capacidad para trabajar con ruido y no determinismo Aprendizaje con cambio de concepto Implementación distribuida Introducción IADEM-0 Resultados Conclusiones

29 Un nuevo algoritmo incremental IADEM-0
Autores: Gonzalo Ramos Jiménez, Rafael Morales Bueno, José del Campo Ávila


Descargar ppt "Un nuevo algoritmo incremental IADEM-0"

Presentaciones similares


Anuncios Google