La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Aprendizaje Automatizado. Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: – A partir de ejemplos suministrados.

Presentaciones similares


Presentación del tema: "Aprendizaje Automatizado. Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: – A partir de ejemplos suministrados."— Transcripción de la presentación:

1 Aprendizaje Automatizado

2 Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: – A partir de ejemplos suministrados por un usuario (un conjunto de ejemplos clasificados o etiquetados). APRENDIZAJE SUPERVISADO. – Mediante exploraci ó n aut ó noma (ej. software que aprende a jugar al ajedrez mediante la realizaci ó n de miles de partidas contra s í mismo). APRENDIZAJE NO SUPERVISADO.

3 Tipos de Aprendizaje Aprendizaje inductivo. – Datos de entrada espec í ficos: un usuario provee un subconjunto de todas las posibles situaciones. – Datos de salida generales: regla o modelo que puede ser aplicada a cualquier situaci ó n. Aprendizaje deductivo. – Se basa en una especializaci ó n. Aprendizaje por refuerzo. – Sistemas que aprenden mediante prueba y error. – Exploraci ó n aut ó noma para inferir reglas de comportamiento.

4 Aprendizaje Inductivo El objetivo es generar un modelo a partir de ejemplos. El conjunto de ejemplos usados se llama conjunto de entrenamiento. Cuatro elementos fundamentales: hip ó tesis (modelo resultante), instancias, atributos y clases.

5 Definiciones Resultado: modelo que se infiere a partir de los ejemplos (tambi é n llamado hip ó tesis). Instancia: cada uno de los ejemplos. Atributo: cada una de las propiedades que se miden (observan) de un ejemplo. Clase: el atributo que debe ser deducido a partir de los dem á s.

6 Ejemplo Modelado de la probabilidad de fallo de una m á quina. Clases: la m á quina fallar á / la m á quina no fallar á. Atributos: – Temperatura. – Nivel de vibraciones. – Horas de funcionamiento. – Meses desde la ú ltima revisi ó n.

7 Ejemplo Instancias: ejemplos pasados (situaciones conocidas). [Temp = alta, Nivel vibrac. = bajo, horas = 800, meses = 2, fallo = S Í ] Resultado: relaci ó n entre las medidas y la clase resultante. – SI nivel_vibraciones = alto Y temp = alta ENTONCES fallar á.

8 Atributos Hay m ú ltiples tipos de atributos: Real: puede tomar cualquier valor dentro de un cierto rango. Ej. temperatura como un n ú mero real [grados]. Discreto: Ej. horas de funcionamiento como un n ú mero natural. Categ ó rico: Ej. color como {azul, rojo, amarillo} – Se puede pensar como 'discreto no ordenado'.

9 Resultados Las hip ó tesis se pueden expresar de diversas formas: – Á rboles de decisi ó n. – Listas de reglas. – Redes neuronales. – Modelos bayesianos o probabil í sticos. – Etc.

10 Á rboles de Decisi ó n (I) Ejemplo: modelado de la probabilidad de fallo de una m á quina.

11 Á rboles de Decisi ó n (II) Compuestos de nodos y ramas. Representan reglas l ó gicas (if - then). Nodos internos = atributos. Nodos hoja = clases. Nodo ra í z = nodo superior del á rbol. Objetivo en aprendizaje automatizado: Obtener un á rbol de decisi ó n (resultado) a partir de un conjunto de instancias o ejemplos.

12 Á rboles de Decisi ó n (III) Ejemplo de un conjunto de entrenamiento.

13 Á rboles de Decisi ó n (IV) Crearemos un á rbol a partir de los ejemplos de entrenamiento anteriores. ¿ Qu é atributo elegir para el primer nodo?

14 Á rboles de decisi ó n (V) Á rbol construido hasta el momento: ¿ Qu é atributo usamos en el siguiente nivel del á rbol (rama izquierda)?

15 Á rboles de decisi ó n (VI) S ó lo aquellos ejemplos de entrenamiento que llegan al nodo (nivel_vibracion = alto) se utilizan para elegir el nuevo atributo:

16 Á rboles de decisi ó n (VI) Á rbol construido hasta el momento: ¿ Qu é atributo usamos en el siguiente nivel del á rbol (rama derecha)?

17 Otros modelos Los á rboles de decisi ó n son s ó lo uno de los posibles modelos. Dependiendo de la aplicaci ó n se deber á elegir un modelo u otro. A continuaci ó n se indican algunos criterios para elegir modelos.

18 Criterios de selecci ó n del modelo Dos decisiones fundamentales: – El tipo de modelo ( á rboles de decisi ó n, redes neuronales, modelos probabil í sticos, etc.) – El algoritmo utilizado para construir o ajustar el modelo a partir de las instancias de entrenamiento (existen varias maneras de construir á rboles de decisi ó n, varias maneras de construir redes neuronales, etc.)

19 Selecci ó n del modelo y/o algoritmo Capacidad de representaci ó n. Legibilidad. Tiempo de c ó mputo on-line. Tiempo de c ó mputo off-line. Dificultad de ajuste de par á metros. Robustez ante el ruido. Sobreajuste. Minimizaci ó n del error.

20 Selecci ó n del modelo y/o algoritmo Capacidad de representaci ó n (I) Relacionado con el tipo de fronteras de decisi ó n que se pueden expresar. Fronteras de decisi ó n: separaci ó n de clases distintas. Cada modelo crea diferentes fronteras.

21 Selecci ó n del modelo y/o algoritmo Capacidad de representaci ó n (II) Ejemplo con s ó lo dos atributos: Árboles de decisión: fronteras perpendiculares a los ejes

22 Selecci ó n del modelo y/o algoritmo Capacidad de representaci ó n (III) Redes Neuronales (NN), fronteras no lineales: Mayor capacidad de representaci ó n. Permiten representar conceptos m á s complejos que los á rboles de decisi ó n. Se estudiar á n m á s adelante.

23 Selecci ó n del modelo y/o algoritmo Legibilidad (I) Capacidad de ser le í do e interpretado por un humano. Á rboles de decisi ó n: f á ciles de entender e interpretar: – conjunto de reglas. – en los niveles m á s altos est á n los atributos m á s importantes. Redes neuronales: dif í ciles (o imposibles) de interpretar: - pesos de conexiones entre neuronas.

24 Selecci ó n del modelo y/o algoritmo Legibilidad (II) Un modelo legible puede ofrecer informaci ó n sobre el problema que se estudia (ej. indicar qu é atributos afectan la probabilidad de fallo de una m á quina y c ó mo). Un modelo no legible s ó lo puede ser usado como un clasificador (ej. permite predecir si una m á quina fallar á o no aplicando el modelo).

25 Selecci ó n del modelo y/o algoritmo Tiempo de c ó mputo on-line (I) Es el tiempo necesario para clasificar una instancia: – Á rboles de decisi ó n: tiempo necesario para recorrer el á rbol, evaluando las funciones l ó gicas de cada nodo. – Redes neuronales: tiempo necesario para realizar las operaciones (sumas, productos, sigmoides) incluidas en la red.

26 Selecci ó n del modelo y/o algoritmo Tiempo de c ó mputo on-line (II) Este tiempo se consume cada vez que se debe clasificar una nueva instancia. Algunas aplicaciones requieren clasificar miles de instancias. – Ejemplo: clasificaci ó n de cada uno de los p í xeles de una imagen a é rea de un cultivo, r í o, ruta, etc. – Se requiere clasificar millones de instancias. – El tiempo de c ó mputo es muy importante.

27 Selecci ó n del modelo y/o algoritmo Tiempo de c ó mputo off-line (I) Es el tiempo necesario para construir o ajustar el modelo a partir de los ejemplos de entrenamiento. – Á rboles de decisi ó n: tiempo necesario para elegir la estructura del á rbol, los atributos a situar en cada nodo y la optimizaci ó n mediante la poda. – Redes neuronales: tiempo necesario para ajustar los pesos de las conexiones (puede tomar valores muy grandes).

28 Selecci ó n del modelo y/o algoritmo Tiempo de c ó mputo off-line (II) S ó lo se consume una vez, cuando mediante la utilizaci ó n de los ejemplos de entrenamiento se genera y selecciona el resultado (modelo o hip ó tesis) m á s adecuado. Dependiendo de la aplicaci ó n no es un problema que el tiempo de c ó mputo off-line sea elevado (se deja una computadora procesando uno o tres d í as enteros).

29 Selecci ó n del modelo y/o algoritmo Dificultad de ajuste de par á metros Se prefieren los algoritmos con pocos (o ninguno) par á metros que ajustar. Se prefieren algoritmos con muy poca sensibilidad a la modificaci ó n de sus par á metros. Hay modelos muy dif í ciles de ajustar mediante par á metros (puede ocurrir con redes neuronales).

30 Selecci ó n del modelo y/o algoritmo Robustez ante el ruido Instancia de entrenamiento ruidosa: – etiquetada incorrectamente (ejemplo: una m á quina que no fall ó, etiquetada como que s í fall ó ). – alg ú n atributo no est á valorizado. Algunos algoritmos pueden funcionar adecuadamente aunque haya instancias ruidosas en el conjunto de entrenamiento (ej. á rboles de decisi ó n, redes neuronales). Otros algoritmos no ofrecen buenos resultados (ej. k- vecinos m á s cercanos).

31 Selecci ó n del modelo y/o algoritmo Sobreajuste (overfitting). (I) Problema muy com ú n. El modelo est á demasiado ajustado a las instancias y no funciona adecuadamente con nuevos casos. El modelo no es capaz de generalizar. Normalmente, fronteras de decisi ó n muy complejas producen sobreajuste.

32 Selecci ó n del modelo y/o algoritmo Sobreajuste (overfitting). (I) Ejemplo con dos atributos:

33 Selecci ó n del modelo y/o algoritmo Minimizaci ó n del error Á rboles de decisi ó n Redes neuronales Naive-Bayes con normales Naive-Bayes con histogramas k-primeros vecinos Medias Desviaciones est á ndar Ejemplo: Resultados arrojados para el problema de clasificar los datos de Contraceptive Method Choice (CMC), con diferentes métodos.

34 Selecci ó n del modelo y/o algoritmo ¿ Cu á les de los criterios anteriores se relacionan con la selecci ó n del modelo? ¿ Cu á les de los criterios anteriores se relacionan con la selecci ó n del algoritmo? ¿ Y con ambos? ¿ Cu á les de los criterios anteriores se relacionan entre s í ?

35 Bibliograf í a Machine Learning - Tom Mitchell – McGrawHill Curso de doctorado "Aprendizaje Automatizado y Data Mining" Grupo de Ingeniería de Sistemas y Automática (Universidad Miguel Hernández)


Descargar ppt "Aprendizaje Automatizado. Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: – A partir de ejemplos suministrados."

Presentaciones similares


Anuncios Google