Inteligencia Artificial

Inteligencia Artificial
Parte 5 Aprendizaje

Inteligencia Artificial
5.1 Aprendizaje a partir de la observación

Objetivo Describir agentes capaces de mejorar su comportamiento mediante el estudio de sus propias experiencias.

Introducción La idea fundamental del aprendizaje es que las percepciones deben servir no sólo para actuar, sino también para mejorar la capacidad del agente en el futuro. El aprendizaje se produce como resultado de la interacción entre el agente y el mundo y de la observación por parte del agente de sus propios procesos de toma de decisiones.

Introducción El aprendizaje puede ir desde la trivial memorización de experiencias hasta la creación de teorías científicas.

Un modelo general de agentes con capacidad de aprender
Desempeño estándar Ambiente Crítico Sensores Retro- alimentación Modificaciones Elemento de aprendizaje Elemento de desempeño Conocimiento Metas de aprendizaje Generador de problemas Efectores Agente

Los agentes con capacidad para aprender pueden ser divididos en cuatro componentes conceptuales. La diferencia más importante reside en el elemento de aprendizaje, que tiene a su cargo realizar las mejoras, y el elemento de desempeño, quien debe escoger las acciones externas.

La función del crítico consiste en informar al elemento de aprendizaje su evaluación del desempeño del agente. Utiliza un estándar fijo para juzgar tal desempeño. El generador de problemas tiene a su cargo proponer acciones que permitan obtener experiencias nuevas y que aporten información.

Otra función del elemento de aprendizaje es la mejorar la eficiencia del elemento de ejecución. A lo anterior se le llama aprendizaje acelerado.

El diseño del elemento de aprendizaje se ve influido por cuatro factores principales: El tipo de componentes del elemento de ejecución que van a ser mejorados. El tipo de representación que será utilizado para esos componentes. El tipo de retroalimentación disponible. El tipo de información previa disponible.

Componentes del elemento de desempeño Una correlación directa entre condiciones del estado vigente y acciones. Un procedimiento para inferir características importantes del mundo a partir de la secuencia de percepciones. Información acerca de cómo evoluciona el mundo. Información sobre los resultados de las posibles acciones que aprenda el agente. Información pertinente que indique qué tan deseables son determinados estados del mundo. Información acción-valor para indicar la deseabilidad de acciones particulares en estados particulares. Metas que describan clases de estado cuyo logro permita maximizar la utilidad del agente.

Representación de los componentes Descripciones deterministas Polinomios ponderados lineales usados en programas de juegos. Oraciones propositivas y oraciones lógicas de primer orden Usadas en los agentes lógicos. Descripciones probabilistas Redes bayesianas usadas en los componentes inferenciales de un agente teórico de decisión.

Retroalimentación disponible En algunos casos, la retroalimentación disponible le dice al agente cuál es el resultado correcto. A esto se denomina aprendizaje supervisado. Cuando el agente recibe una evaluación de sus acciones, sin informarle cual seria la acción correcta se le llama aprendizaje por refuerzo. El aprendizaje que se efectúa sin ninguna indicación sobre cuáles son las salidas correctas se le conoce como aprendizaje no supervisado.

Conocimiento previo ¿Es necesario? Buena parte del aprendizaje humano se lleva a cabo contando con una buena cantidad de conocimiento previo. Independientemente de la validez de esta aseveración, no hay duda de que el conocimiento previo es de gran ayuda en el aprendizaje.

Integración de un todo Cada uno de los siete componentes del elemento de desempeño puede representarse matemáticamente cono una función. El aprendizaje en general puede considerarse como el aprendizaje de la representación de una función.

Aprendizaje Inductivo
Un ejemplo es un par (x,f(x)), en donde x es la entrada y f(x) es la salida de la función que se se aplicó a x. El cometido de una inferencia puramente inductiva (o inducción) es: dado un grupo de ejemplificaciones de f, producir una función h que aproxime f. A la función h se le conoce como hipótesis.

Un ejemplo es un par (x, f(x)), en donde x es la entrada y f(x) es la salida de la función que se aplicó a x. El cometido de una inferencia puramente inductiva (o inducción) es: dado un grupo de ejemplificaciones de f, producir una función h que aproxime f. A la función h se le conoce como hipótesis.

(b) (c) (d) En (a) se muestran ejemplos de pares (entrada,salida). En (b), (c) y (d) hay tres hipótesis de funciones desde las cuales podrían haberse obtenido de estos ejemplos.

Cualquier preferencia por una hipótesis, mas allá de la mera consistencia con los ejemplos es conocida como predisposición. Como casi siempre existe una gran cantidad de posibles hipótesis congruentes, en todos los algoritmos siempre está presente algún tipo de preferencia.

Existen variantes del algoritmo de aprendizaje. Por el ejemplo, el agente puede realizar aprendizaje gradual: se concentra en actualizar sus antiguas hipótesis cada vez que surge un nuevo ejemplo.

El saber escoger la representación de la función deseada es posiblemente el problema más importante que debe resolver un diseñador de un agente de aprendizaje. Al igual que con el razonamiento, en el aprendizaje existe un compromiso fundamental entre la expresividad y la eficiencia.

Aprendizaje con árboles de decisión
Esta es una de las modalidades más sencillas y mejores del algoritmo de aprendizaje. Constituye un adecuado medio para el área de aprendizaje inductivo y su implantación es fácil.

Los árboles de decisión como elementos de desempeño Un árbol de decisión toma como entradas objetos o situaciones caracterizados mediante un conjunto de propiedades; el árbol entrega a la salida una “decisión” sí o no. Los nodos internos del árbol corresponden a una prueba de valor de una de las propiedades y las ramas del árbol son identificadas mediante los posibles valores de la prueba. En los nodos hoja del árbol se especifica el valor booleano que hay que producir en caso de llegar a una hoja determinada.

Ejemplo: El problema es decidir si se está dispuesto a esperar a que se le asigne una mesa en un restaurante. El objetivo es aprender una definición del predicado de la meta Esperará: sí/no. Los otros atributos son: Alternativa: sí/no Si algún restaurante cercano ofrece una alternativa adecuada Bar: sí/no Si el restaurante tiene un área de bar donde esperar la asignación de la mesa. Vie/Sáb: sí/no Si es viernes o sábado Hambre: sí/no Si tenemos hambre Clientes: Ninguno, Algunos, Lleno Cuántas personas están en el restaurante

Precio: $, $$, $$$ Rango de precios en el restaurante Lluvia: sí/no Si está lloviendo afuera Reservación: si/no Si se hizo una reservación Tipo: china, italiana, mexicana, hamburguesas El tipo de restaurante TiempoEsperaEstimado: 0-10, 10-30, 30-60, >60 minutos El tiempo de espera estimado por el anfitrión.

r Clientes(r,Lleno)  TiempoEsperaEstimado(r,0-10)  TenerHambre(r,N)  Esperar(r) ¿Clientes? Ninguno Lleno Algunos No Si ¿Esp. Est.? >60 0-10 30-60 10-30 ¿Precio? No ¿Alternativa? ¿Hambre? Si ¿Tipo? No Sí No Sí (Irrelevantes) ¿Reservación? ¿Vie/Sab? Si ¿Alternativa? No Sí No Sí No Sí ¿Bar? Si No Si Si ¿Lluvia? No Sí No Sí No Si No Si

Expresividad de los árboles de decisión El lenguaje del árbol de decisión es en esencia propositivo, y en él toda prueba de atributo es una proposición. No es posible utilizar árboles de decisión para representar pruebas que se refieren a dos o más objetos distintos, como: r2 Cercano(r2,r)  Precio(r,p)  Precio (r2,p2)  MasBarato (p2,p) “Hay un restaurante más barato cerca”

Expresividad de los árboles de decisión Los árboles de decisión resultan totalmente expresivos en la clase de lenguajes propositivos, es decir, cualquier función booleana puede representarse como árbol de decisión. Sin embargo, algunos tipos de funciones representan un difícil problema, como la función de paridad (responde 1 si y sólo si un número par de entradas son 1) y la función de mayoría (produce 1 si más de la mitad de las entradas son 1). Los árboles de decisión son buenos para algunos tipos de funciones y malos para otras.

Cómo inducir árboles de decisión a partir de ejemplos Los ejemplos se caracterizan mediante los valores de los atributos y el valor del predicado meta. Al valor del predicado meta se le denomina clasificación del ejemplo. Si el predicado de meta es válido para cierto ejemplo, se dice que es un ejemplo positivo, en caso contrario, se dice que es un ejemplo negativo.

Ejemplos tomados del dominio del restaurante Conjunto de entrenamiento

Cómo inducir árboles de decisión a partir de ejemplos La desventaja de hacer un árbol trivial que se ajuste perfectamente a los ejemplos es que no es capaz de deducir un patrón a partir de ellos, por lo que no se espera una capacidad de extrapolar en el caso de ejemplos no vistos anteriormente. No se trata de enfocarse a encontrar un árbol de decisión que corresponda a los ejemplos, sino también de encontrar un árbol conciso. El anterior es un ejemplo del principio general de aprendizaje inductivo llamado Navaja de Ockham (Okcham Razor): La hipótesis más probable es aquella que además de ser la más sencilla es congruente con todas las observaciones.

Cómo inducir árboles de decisión a partir de ejemplos Desafortunadamente, aunque el problema de encontrar el más pequeño de los árboles de decisión es inmanejable, con ayuda de una heurística sencilla se pueden obtener buenos resultados. La idea básica del algoritmo del árbol de decisión es someter a prueba el atributo más importante. El atributo “más importante” es aquél que implique la mayor diferenciación en la clasificación de un ejemplo, por lo que se espera que se obtenga la clasificación correcta mediante una cantidad mínima de pruebas, y todas las rutas del árbol sean reducidas y el árbol en conjunto resulte pequeño.

+ R1, R3, R4, R6, R8, R12 - R2, R5, R7, R9, R10, R11 ¿Clientes? ninguno lleno algunos + + R1, R3, R6, R8 + R4, R12 - R7, R11 - - R2, R5, R9, R10 Distribución de ejemplos mediante la prueba de los atributos: Clientes es una buena opción de atributo para someterlo a prueba primero.

+ R1, R3, R4, R6, R8, R12 - R2, R5, R7, R9, R10, R11 ¿Tipo? China Hamburguesas Italiana Mexicana + R1 + R6 + R4, R8 + R3, R12 - R5 - R10 - R2, R11 - R7, R9 Distribución de ejemplos mediante la prueba de los atributos: Tipo no es una buena opción.

Cómo inducir árboles de decisión a partir de ejemplos Supongamos que el atributo más importante es Clientes. Una vez divididos los ejemplos después de la prueba del primer atributo, cada resultado constituye un nuevo problema de aprendizaje de árboles de decisión, con menos ejemplos y un atributo menos.

+ R1, R3, R4, R6, R8, R12 - R2, R5, R7, R9, R10, R11 ¿Clientes? Ninguno Lleno Algunos + + R1, R3, R6, R8 + R4, R12 - R7, R11 - - R2, R5, R9, R10 No Sí ¿Hambre? Sí No + R4, R12 + - R2, R10 - R5, R9 Distribución de ejemplos mediante la prueba de los atributos: TenerHambre es una segunda prueba bastante buena, suponiendo que Clientes es la primera prueba.

Cómo inducir árboles de decisión a partir de ejemplos En estos problemas repetitivos hay cuatro casos: Si hay ejemplos positivos y negativos, para separarlos escoja el mejor atributo. Si los ejemplos restantes son positivos (o todos negativos) no hay problema, podemos responder Sí o No. Si no quedan ejemplos, significa que no se observó un ejemplo tal, por lo que regresamos al valor predefinido calculado a partir de la clasificación de mayoría en el padre del nodo. Si no quedan atributos, pero sí tanto ejemplos positivos y negativos entonces hay problemas. La descripción de estos ejemplos es la misma, pero su clasificación es diferente. Hay ruido en los datos.

Ejemplo de Información nueva descubierta a partir de los ejemplos: “Los clientes sin hambre que van a restaurantes mexicanos llenos en fin de semana, están dispuestos a esperar hasta que se les asigne una mesa” ¿Clientes? Ninguno Lleno Algunos No Yes ¿Hambre? No Sí ¿Tipo? No China Hamburguesas Italiana Mexicana Sí No ¿Vie/Sab? Sí No Sí No Sí El árbol de decisión inducido a partir del conjunto de entrenamiento del dominio del restaurant, mucho más compacto.

Evaluación de la eficiencia de un algoritmo de aprendizaje Se considera que un algoritmo de aprendizaje es bueno si produce hipótesis que permitan predecir satisfactoriamente las clasificaciones de ejemplos no vistos anteriormente.

Evaluación de la eficiencia de un algoritmo de aprendizaje Es preferible adoptar la siguiente metodología Reunir una gran cantidad de ejemplos Dividirla en dos: el conjunto de capacitación y el conjunto de prueba. Emplear un algoritmo de aprendizaje con el conjunto de capacitación como ejemplo de base para producir una hipótesis H. Medir el porcentaje de ejemplos del conjunto de prueba clasificados como H. Repetir los pasos 1 a 4 en conjuntos de capacitación de tamaño diverso y conjuntos de capacitación por cada tamaño escogidos aleatoriamente.

Evaluación de la eficiencia de un algoritmo de aprendizaje Como resultado, se obtiene un conjunto de datos que nos dan la calidad de predicción promedio en función del tamaño del conjunto de capacitación, lo que se llama la curva de aprendizaje.

100 % correcto en el conjunto de prueba 40 100 Tamaño del conjunto de entrenamiento Curva de aprendizaje del algoritmo del árbol de decisión sobre 100 ejemplos producidos aleatoriamente en el dominio del restaurante.

Aplicaciones prácticas del aprendizaje por árbol de decisión Diseño de equipo de plataformas petroleras BP (Sistema experto GASOIL, 1986: de 10 años a 100 días) Para aprender a volar Simulador de Vuelo (Sammut el al, 1992): 3 pilotos, 30 vuelos c/u, 90,000 ejemplos, 20 variables de estado.

Empleo de la teoría de la información
Se utiliza un modelo matemático para escoger el mejor de los atributos. Lo importante es tomar el atributo que favorezca al máximo la exacta clasificación de los ejemplos, con lo que a fin de cuentas se reduce a un mínimo la profundidad del árbol final. Un atributo perfecto divide los ejemplos en conjuntos que son totalmente positivos o negativos. Clientes no es perfecto, pero sí bastante bueno. Tipo es realmente inútil.

Una medida adecuada es la cantidad esperada de información que proporciona el atributo. En la teoría de la información se mide el contenido de la información en bits. Un bit de información basta para responder una pregunta de sí o no, de la cual no se conoce cuál sera la respuesta.

En general, si las posibles respuestas vi tienen probabilidades P(vi) entonces el contenido de información I de la respuesta es: Esto es la cantidad de información promedio de los diversos eventos ponderados mediante las probabilidades de los eventos.

Ejemplo: lanzamiento de una moneda: Se requeriría un solo bit, pero si la moneda está cargada: Nota: log2(x) = log10(x) / log10(2)

Supongamos que en el conjunto de entrenamiento hay p ejemplos positivos y n ejemplos negativos. El estimado de la información contenida en la respuesta es: para el caso del restaurant, p=n=6, por lo tanto necesitamos un bit de información. Para el caso del restaurante, p = n = 6, por lo que se requiere un bit de información.

Para medir que tanta información nos da un tributo, basta con determinar que tanta información necesitamos después de la prueba de atributos. Un atributo A divide el conjunto de entrenamiento E en los subconjuntos E1, ..., Ev, donde A tiene v valores diferentes. Cada Ei tiene pi ejemplos positivos y ni ejemplos negativos por lo que si recorremos esa rama tanto necesitaremos bits adicionales para responder la pregunta.

En promedio, después de probar el atributo A necesitaremos: bits de información para clasificar el ejemplo (donde p y n son la cantidad de ejemplos de una y otra clase, y pi y ni son la cantidad de ejemplos de cada clase donde el atributo A toma el valor i, v es la cantidad de valores diferentes que puede tomar el atributo A.

La ganancia de información de un atributo se define como la diferencia entre el requerimiento original de información y el nuevo requerimiento Y la heurística es siempre elegir el atributo que tiene la ganancia mas grande.

Ejemplos tomados del dominio del restaurante Conjunto de entrenamiento

Para el caso del restaurante: Como puede verse, el atributo Clientes proporciona más información (tiene más entropía) que el atributo Tipo de Restaurante, que no aporta absolutamente nada de información para clasificar o predecir si el cliente se quedará o se irá del restaurant. Por lo tanto, el algoritmo de aprendizaje del árbol de decisión lo escoge como raíz.

Ruido y sobreadaptación Cuando dos ó más ejemplos tienen los mismos valores de atributos pero diferente clasificación, el algoritmo no podrá encontrar un árbol que sea consistente con todos los ejemplos Soluciones: función mayoría (agente lógico) ó una probabilidad estimada en base a las frecuencias (Arbol probabilístico)

Ruido y sobreadaptación La sobreadaptación es cuando se usan atributos irrelevantes para inducir un árbol consistente ejemplo: lanzar un dado día: Lu, Ma, Mi, Ju mes: Ene ó Feb Color; rojo ó azul Mientras no haya dos ejemplos con la misma descripción el algoritmo encontrará una hipótesis consistente

Poda de árboles Evitar probar atributos que no son relevantes
cómo encontramos un atributo no relevante? Aquellos que tengan baja ganancia de información qué tan grande debe ser la ganancia de información de un atributo para efectuar la prueba? Realizar una prueba de hipótesis estadística hipótesis nula: no hay patrón en los datos, hipótesis alterna: sí hay patrón en los datos poda xi-cuadrada

Ampliación de los usos de los árboles de decisión Datos faltantes Atributos multivaluados Nombre del restaurante Atributos que adquieren valores continuamente Altura y peso

Variables Continuas Clasificación: manejo de variables continuas
Discretizar variables Riesgo de perder información

Variables discretas Número de valores que toma una variable discreta
Arboles demasiado ramificados Arboles demasiado profundos

Regla Gini Indice de diversidad de una población
Probabilidad de que dos elementos de de la población escogidos al azar con reemplazo pertenezcan a diferentes clases

Regla Gini pi probabilidad de cada clase i
pi 2 probabilidad de que una clase sea escogida dos veces Indice de diversidad

Regla Gini Supongamos que hay dos clases: 1 y 2 con probabilidades p1 y p2 p1+p2 = 1 El índice de diversidad GINI se puede reducir a:

Regla Gini NOTA La reducción anterior sólo se puede usar cuando la variable de predicción tiene sólo dos valores, es decir, se tienen sólo dos clases. Cuando hay tres o más clases, se debe usar la fórmula original, sin reducir:

¿Cuándo usar árboles de decisión?
Cuando se desee clasificación de registros Cuando se desee estimar el valor de una variable Cuando se requieran reglas entendibles por personas

Inteligencia Artificial

Presentaciones similares

Presentación del tema: "Inteligencia Artificial"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Inteligencia Artificial

Presentaciones similares

Presentación del tema: "Inteligencia Artificial"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback