Inteligencia Artificial

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Introducción a la Estadística
Inteligencia Artificial
Modelo de Colas Simulación.
DISEÑO DE EXPERIMENTOS
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Contraste de Hipótesis
Aprendizaje a partir de observaciones
Instituto tecnológico de Villahermosa
Unidad académica: Ingenierías
Muestreo para la inspección por atributos
Representación en espacio de estado
LA ENSEÑANZA DE CONCEPTOS Y PROCEDIMIENTOS
Estimación por Intervalos de confianza
Conceptos básicos de inferencia
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Problema de la medición en Psicología
MUESTREO DE ACEPTACIÓN DE LOTES POR VARIABLES
Tema 2: Métodos de ajuste
Representación del Conocimiento
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Algoritmo ID3.
Sesión 2: Métodos Probabilísticos Básicos
Unidad VI: PRUEBAS DE HIPOTESIS
Clases 4 Pruebas de Hipótesis
Diseño de la investigación
RÚBRICAS MA. GUADALUPE I. MALAGÓN Y M. NOVIEMBRE 2007.
Representación del conocimiento
Ejemplo de aplicación de las ANN
Unidad V: Estimación de
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
(Organización y Manejo de Archivos)
UNIVERSIDAD NACIONAL INTERCULTURAL DE LA AMAZONIA
Combinación de Clasificadores
Investigación Experimental
Procedimiento para el establecimiento de indicadores de gestión
Unidad V: Estimación de
Tema 2: Parámetros Estadísticos
INVESTIGACION DE OPERACIONES
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Inferencia Estadística
Simular: Representar una cosa, fingiendo o imitando lo que no es.
ESTIMACION POR INTERVALOS
Análisis Cuantitativo de Datos (Básico)
Aprendizaje en Árboles de Decisión
Clase 4a Significancia Estadística y Prueba Z
Planeación de un diseño
ESTADÍSTICA DESCRIPTIVA
Unidad V: Estimación de
Repaso de clase anterior
Capítulo 1. Conceptos básicos de la Estadística
Líneas de Espera: Teoría de Colas
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Diseños Generales. 2 Propósito implícito del diseño experimental El propósito implícito de todo diseño experimental consiste en imponer restricciones.
Medición: Un proceso para la creación de equipo Normas de desempeño
Tomando decisiones sobre las unidades de análisis
2.1 DEFINICIONES CARACTERÍSTICAS Y SUPOSICIONES.
Aplicaciones Estadísticas a las Finanzas Clase 1
Modelo de simulación-optimización para el mejoramiento de políticas de inventario en una empresa del sector plástico Juan Esteban de la Calle Echeverri.
RIESGO, RENDIMIENTO Y VALOR
Aspectos generales de la investigación educativa en el SNIT
Sistemas de Calificaciones Como transformamos la evaluación en una calificación.
Clase N°11 Métodos de reducción de varianza
INFERENCIA ESTADÍSTICA
OPTIMIZACION DEL DESEMPEÑO DE ERROR
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Dudas ME ESTOY BASANDO EN VARIOS LIBROS, SON O NO SUSTENTO? CUANDO NO EXISTE UNA INVESTIGACION PREVIA SOBRE UN TEMA QUÉ SE USA COMO SUSTENTO? PUEDO USAR.
Transcripción de la presentación:

Inteligencia Artificial Parte 5 Aprendizaje

Inteligencia Artificial 5.1 Aprendizaje a partir de la observación

Objetivo Describir agentes capaces de mejorar su comportamiento mediante el estudio de sus propias experiencias.

Introducción La idea fundamental del aprendizaje es que las percepciones deben servir no sólo para actuar, sino también para mejorar la capacidad del agente en el futuro. El aprendizaje se produce como resultado de la interacción entre el agente y el mundo y de la observación por parte del agente de sus propios procesos de toma de decisiones.

Introducción El aprendizaje puede ir desde la trivial memorización de experiencias hasta la creación de teorías científicas.

Un modelo general de agentes con capacidad de aprender Desempeño estándar Ambiente Crítico Sensores Retro- alimentación Modificaciones Elemento de aprendizaje Elemento de desempeño Conocimiento Metas de aprendizaje Generador de problemas Efectores Agente

Un modelo general de agentes con capacidad de aprender Los agentes con capacidad para aprender pueden ser divididos en cuatro componentes conceptuales. La diferencia más importante reside en el elemento de aprendizaje, que tiene a su cargo realizar las mejoras, y el elemento de desempeño, quien debe escoger las acciones externas.

Un modelo general de agentes con capacidad de aprender La función del crítico consiste en informar al elemento de aprendizaje su evaluación del desempeño del agente. Utiliza un estándar fijo para juzgar tal desempeño. El generador de problemas tiene a su cargo proponer acciones que permitan obtener experiencias nuevas y que aporten información.

Un modelo general de agentes con capacidad de aprender Otra función del elemento de aprendizaje es la mejorar la eficiencia del elemento de ejecución. A lo anterior se le llama aprendizaje acelerado.

Un modelo general de agentes con capacidad de aprender El diseño del elemento de aprendizaje se ve influido por cuatro factores principales: El tipo de componentes del elemento de ejecución que van a ser mejorados. El tipo de representación que será utilizado para esos componentes. El tipo de retroalimentación disponible. El tipo de información previa disponible.

Un modelo general de agentes con capacidad de aprender Componentes del elemento de desempeño Una correlación directa entre condiciones del estado vigente y acciones. Un procedimiento para inferir características importantes del mundo a partir de la secuencia de percepciones. Información acerca de cómo evoluciona el mundo. Información sobre los resultados de las posibles acciones que aprenda el agente. Información pertinente que indique qué tan deseables son determinados estados del mundo. Información acción-valor para indicar la deseabilidad de acciones particulares en estados particulares. Metas que describan clases de estado cuyo logro permita maximizar la utilidad del agente.

Un modelo general de agentes con capacidad de aprender Representación de los componentes Descripciones deterministas Polinomios ponderados lineales usados en programas de juegos. Oraciones propositivas y oraciones lógicas de primer orden Usadas en los agentes lógicos. Descripciones probabilistas Redes bayesianas usadas en los componentes inferenciales de un agente teórico de decisión.

Un modelo general de agentes con capacidad de aprender Retroalimentación disponible En algunos casos, la retroalimentación disponible le dice al agente cuál es el resultado correcto. A esto se denomina aprendizaje supervisado. Cuando el agente recibe una evaluación de sus acciones, sin informarle cual seria la acción correcta se le llama aprendizaje por refuerzo. El aprendizaje que se efectúa sin ninguna indicación sobre cuáles son las salidas correctas se le conoce como aprendizaje no supervisado.

Un modelo general de agentes con capacidad de aprender Conocimiento previo ¿Es necesario? Buena parte del aprendizaje humano se lleva a cabo contando con una buena cantidad de conocimiento previo. Independientemente de la validez de esta aseveración, no hay duda de que el conocimiento previo es de gran ayuda en el aprendizaje.

Un modelo general de agentes con capacidad de aprender Integración de un todo Cada uno de los siete componentes del elemento de desempeño puede representarse matemáticamente cono una función. El aprendizaje en general puede considerarse como el aprendizaje de la representación de una función.

Aprendizaje Inductivo Un ejemplo es un par (x,f(x)), en donde x es la entrada y f(x) es la salida de la función que se se aplicó a x. El cometido de una inferencia puramente inductiva (o inducción) es: dado un grupo de ejemplificaciones de f, producir una función h que aproxime f. A la función h se le conoce como hipótesis.

Aprendizaje Inductivo Un ejemplo es un par (x, f(x)), en donde x es la entrada y f(x) es la salida de la función que se aplicó a x. El cometido de una inferencia puramente inductiva (o inducción) es: dado un grupo de ejemplificaciones de f, producir una función h que aproxime f. A la función h se le conoce como hipótesis.

Aprendizaje Inductivo (b) (c) (d) En (a) se muestran ejemplos de pares (entrada,salida). En (b), (c) y (d) hay tres hipótesis de funciones desde las cuales podrían haberse obtenido de estos ejemplos.

Aprendizaje Inductivo Cualquier preferencia por una hipótesis, mas allá de la mera consistencia con los ejemplos es conocida como predisposición. Como casi siempre existe una gran cantidad de posibles hipótesis congruentes, en todos los algoritmos siempre está presente algún tipo de preferencia.

Aprendizaje Inductivo Existen variantes del algoritmo de aprendizaje. Por el ejemplo, el agente puede realizar aprendizaje gradual: se concentra en actualizar sus antiguas hipótesis cada vez que surge un nuevo ejemplo.

Aprendizaje Inductivo El saber escoger la representación de la función deseada es posiblemente el problema más importante que debe resolver un diseñador de un agente de aprendizaje. Al igual que con el razonamiento, en el aprendizaje existe un compromiso fundamental entre la expresividad y la eficiencia.

Aprendizaje con árboles de decisión Esta es una de las modalidades más sencillas y mejores del algoritmo de aprendizaje. Constituye un adecuado medio para el área de aprendizaje inductivo y su implantación es fácil.

Aprendizaje con árboles de decisión Los árboles de decisión como elementos de desempeño Un árbol de decisión toma como entradas objetos o situaciones caracterizados mediante un conjunto de propiedades; el árbol entrega a la salida una “decisión” sí o no. Los nodos internos del árbol corresponden a una prueba de valor de una de las propiedades y las ramas del árbol son identificadas mediante los posibles valores de la prueba. En los nodos hoja del árbol se especifica el valor booleano que hay que producir en caso de llegar a una hoja determinada.

Aprendizaje con árboles de decisión Ejemplo: El problema es decidir si se está dispuesto a esperar a que se le asigne una mesa en un restaurante. El objetivo es aprender una definición del predicado de la meta Esperará: sí/no. Los otros atributos son: Alternativa: sí/no Si algún restaurante cercano ofrece una alternativa adecuada Bar: sí/no Si el restaurante tiene un área de bar donde esperar la asignación de la mesa. Vie/Sáb: sí/no Si es viernes o sábado Hambre: sí/no Si tenemos hambre Clientes: Ninguno, Algunos, Lleno Cuántas personas están en el restaurante

Aprendizaje con árboles de decisión Precio: $, $$, $$$ Rango de precios en el restaurante Lluvia: sí/no Si está lloviendo afuera Reservación: si/no Si se hizo una reservación Tipo: china, italiana, mexicana, hamburguesas El tipo de restaurante TiempoEsperaEstimado: 0-10, 10-30, 30-60, >60 minutos El tiempo de espera estimado por el anfitrión.

Aprendizaje con árboles de decisión r Clientes(r,Lleno)  TiempoEsperaEstimado(r,0-10)  TenerHambre(r,N)  Esperar(r) ¿Clientes? Ninguno Lleno Algunos No Si ¿Esp. Est.? >60 0-10 30-60 10-30 ¿Precio? No ¿Alternativa? ¿Hambre? Si ¿Tipo? No Sí No Sí (Irrelevantes) ¿Reservación? ¿Vie/Sab? Si ¿Alternativa? No Sí No Sí No Sí ¿Bar? Si No Si Si ¿Lluvia? No Sí No Sí No Si No Si

Aprendizaje con árboles de decisión Expresividad de los árboles de decisión El lenguaje del árbol de decisión es en esencia propositivo, y en él toda prueba de atributo es una proposición. No es posible utilizar árboles de decisión para representar pruebas que se refieren a dos o más objetos distintos, como: r2 Cercano(r2,r)  Precio(r,p)  Precio (r2,p2)  MasBarato (p2,p) “Hay un restaurante más barato cerca”

Aprendizaje con árboles de decisión Expresividad de los árboles de decisión Los árboles de decisión resultan totalmente expresivos en la clase de lenguajes propositivos, es decir, cualquier función booleana puede representarse como árbol de decisión. Sin embargo, algunos tipos de funciones representan un difícil problema, como la función de paridad (responde 1 si y sólo si un número par de entradas son 1) y la función de mayoría (produce 1 si más de la mitad de las entradas son 1). Los árboles de decisión son buenos para algunos tipos de funciones y malos para otras.

Aprendizaje con árboles de decisión Cómo inducir árboles de decisión a partir de ejemplos Los ejemplos se caracterizan mediante los valores de los atributos y el valor del predicado meta. Al valor del predicado meta se le denomina clasificación del ejemplo. Si el predicado de meta es válido para cierto ejemplo, se dice que es un ejemplo positivo, en caso contrario, se dice que es un ejemplo negativo.

Aprendizaje con árboles de decisión Ejemplos tomados del dominio del restaurante Conjunto de entrenamiento

Aprendizaje con árboles de decisión Cómo inducir árboles de decisión a partir de ejemplos La desventaja de hacer un árbol trivial que se ajuste perfectamente a los ejemplos es que no es capaz de deducir un patrón a partir de ellos, por lo que no se espera una capacidad de extrapolar en el caso de ejemplos no vistos anteriormente. No se trata de enfocarse a encontrar un árbol de decisión que corresponda a los ejemplos, sino también de encontrar un árbol conciso. El anterior es un ejemplo del principio general de aprendizaje inductivo llamado Navaja de Ockham (Okcham Razor): La hipótesis más probable es aquella que además de ser la más sencilla es congruente con todas las observaciones.

Aprendizaje con árboles de decisión Cómo inducir árboles de decisión a partir de ejemplos Desafortunadamente, aunque el problema de encontrar el más pequeño de los árboles de decisión es inmanejable, con ayuda de una heurística sencilla se pueden obtener buenos resultados. La idea básica del algoritmo del árbol de decisión es someter a prueba el atributo más importante. El atributo “más importante” es aquél que implique la mayor diferenciación en la clasificación de un ejemplo, por lo que se espera que se obtenga la clasificación correcta mediante una cantidad mínima de pruebas, y todas las rutas del árbol sean reducidas y el árbol en conjunto resulte pequeño.

Aprendizaje con árboles de decisión + R1, R3, R4, R6, R8, R12 - R2, R5, R7, R9, R10, R11 ¿Clientes? ninguno lleno algunos + + R1, R3, R6, R8 + R4, R12 - R7, R11 - - R2, R5, R9, R10 Distribución de ejemplos mediante la prueba de los atributos: Clientes es una buena opción de atributo para someterlo a prueba primero.

Aprendizaje con árboles de decisión + R1, R3, R4, R6, R8, R12 - R2, R5, R7, R9, R10, R11 ¿Tipo? China Hamburguesas Italiana Mexicana + R1 + R6 + R4, R8 + R3, R12 - R5 - R10 - R2, R11 - R7, R9 Distribución de ejemplos mediante la prueba de los atributos: Tipo no es una buena opción.

Aprendizaje con árboles de decisión Cómo inducir árboles de decisión a partir de ejemplos Supongamos que el atributo más importante es Clientes. Una vez divididos los ejemplos después de la prueba del primer atributo, cada resultado constituye un nuevo problema de aprendizaje de árboles de decisión, con menos ejemplos y un atributo menos.

Aprendizaje con árboles de decisión + R1, R3, R4, R6, R8, R12 - R2, R5, R7, R9, R10, R11 ¿Clientes? Ninguno Lleno Algunos + + R1, R3, R6, R8 + R4, R12 - R7, R11 - - R2, R5, R9, R10 No Sí ¿Hambre? Sí No + R4, R12 + - R2, R10 - R5, R9 Distribución de ejemplos mediante la prueba de los atributos: TenerHambre es una segunda prueba bastante buena, suponiendo que Clientes es la primera prueba.

Aprendizaje con árboles de decisión Cómo inducir árboles de decisión a partir de ejemplos En estos problemas repetitivos hay cuatro casos: Si hay ejemplos positivos y negativos, para separarlos escoja el mejor atributo. Si los ejemplos restantes son positivos (o todos negativos) no hay problema, podemos responder Sí o No. Si no quedan ejemplos, significa que no se observó un ejemplo tal, por lo que regresamos al valor predefinido calculado a partir de la clasificación de mayoría en el padre del nodo. Si no quedan atributos, pero sí tanto ejemplos positivos y negativos entonces hay problemas. La descripción de estos ejemplos es la misma, pero su clasificación es diferente. Hay ruido en los datos.

Aprendizaje con árboles de decisión Ejemplo de Información nueva descubierta a partir de los ejemplos: “Los clientes sin hambre que van a restaurantes mexicanos llenos en fin de semana, están dispuestos a esperar hasta que se les asigne una mesa” ¿Clientes? Ninguno Lleno Algunos No Yes ¿Hambre? No Sí ¿Tipo? No China Hamburguesas Italiana Mexicana Sí No ¿Vie/Sab? Sí No Sí No Sí El árbol de decisión inducido a partir del conjunto de entrenamiento del dominio del restaurant, mucho más compacto.

Aprendizaje con árboles de decisión Evaluación de la eficiencia de un algoritmo de aprendizaje Se considera que un algoritmo de aprendizaje es bueno si produce hipótesis que permitan predecir satisfactoriamente las clasificaciones de ejemplos no vistos anteriormente.

Aprendizaje con árboles de decisión Evaluación de la eficiencia de un algoritmo de aprendizaje Es preferible adoptar la siguiente metodología Reunir una gran cantidad de ejemplos Dividirla en dos: el conjunto de capacitación y el conjunto de prueba. Emplear un algoritmo de aprendizaje con el conjunto de capacitación como ejemplo de base para producir una hipótesis H. Medir el porcentaje de ejemplos del conjunto de prueba clasificados como H. Repetir los pasos 1 a 4 en conjuntos de capacitación de tamaño diverso y conjuntos de capacitación por cada tamaño escogidos aleatoriamente.

Aprendizaje con árboles de decisión Evaluación de la eficiencia de un algoritmo de aprendizaje Como resultado, se obtiene un conjunto de datos que nos dan la calidad de predicción promedio en función del tamaño del conjunto de capacitación, lo que se llama la curva de aprendizaje.

Aprendizaje con árboles de decisión 100 % correcto en el conjunto de prueba 40 100 Tamaño del conjunto de entrenamiento Curva de aprendizaje del algoritmo del árbol de decisión sobre 100 ejemplos producidos aleatoriamente en el dominio del restaurante.

Aprendizaje con árboles de decisión Aplicaciones prácticas del aprendizaje por árbol de decisión Diseño de equipo de plataformas petroleras BP (Sistema experto GASOIL, 1986: de 10 años a 100 días) Para aprender a volar Simulador de Vuelo (Sammut el al, 1992): 3 pilotos, 30 vuelos c/u, 90,000 ejemplos, 20 variables de estado.

Empleo de la teoría de la información Se utiliza un modelo matemático para escoger el mejor de los atributos. Lo importante es tomar el atributo que favorezca al máximo la exacta clasificación de los ejemplos, con lo que a fin de cuentas se reduce a un mínimo la profundidad del árbol final. Un atributo perfecto divide los ejemplos en conjuntos que son totalmente positivos o negativos. Clientes no es perfecto, pero sí bastante bueno. Tipo es realmente inútil.

Empleo de la teoría de la información Una medida adecuada es la cantidad esperada de información que proporciona el atributo. En la teoría de la información se mide el contenido de la información en bits. Un bit de información basta para responder una pregunta de sí o no, de la cual no se conoce cuál sera la respuesta.

Empleo de la teoría de la información En general, si las posibles respuestas vi tienen probabilidades P(vi) entonces el contenido de información I de la respuesta es: Esto es la cantidad de información promedio de los diversos eventos ponderados mediante las probabilidades de los eventos.

Empleo de la teoría de la información Ejemplo: lanzamiento de una moneda: Se requeriría un solo bit, pero si la moneda está cargada: Nota: log2(x) = log10(x) / log10(2)

Empleo de la teoría de la información Supongamos que en el conjunto de entrenamiento hay p ejemplos positivos y n ejemplos negativos. El estimado de la información contenida en la respuesta es: para el caso del restaurant, p=n=6, por lo tanto necesitamos un bit de información. Para el caso del restaurante, p = n = 6, por lo que se requiere un bit de información.

Empleo de la teoría de la información Para medir que tanta información nos da un tributo, basta con determinar que tanta información necesitamos después de la prueba de atributos. Un atributo A divide el conjunto de entrenamiento E en los subconjuntos E1, ..., Ev, donde A tiene v valores diferentes. Cada Ei tiene pi ejemplos positivos y ni ejemplos negativos por lo que si recorremos esa rama tanto necesitaremos bits adicionales para responder la pregunta.

Empleo de la teoría de la información En promedio, después de probar el atributo A necesitaremos: bits de información para clasificar el ejemplo (donde p y n son la cantidad de ejemplos de una y otra clase, y pi y ni son la cantidad de ejemplos de cada clase donde el atributo A toma el valor i, v es la cantidad de valores diferentes que puede tomar el atributo A.

Empleo de la teoría de la información La ganancia de información de un atributo se define como la diferencia entre el requerimiento original de información y el nuevo requerimiento Y la heurística es siempre elegir el atributo que tiene la ganancia mas grande.

Empleo de la teoría de la información Ejemplos tomados del dominio del restaurante Conjunto de entrenamiento

Empleo de la teoría de la información Para el caso del restaurante: Como puede verse, el atributo Clientes proporciona más información (tiene más entropía) que el atributo Tipo de Restaurante, que no aporta absolutamente nada de información para clasificar o predecir si el cliente se quedará o se irá del restaurant. Por lo tanto, el algoritmo de aprendizaje del árbol de decisión lo escoge como raíz.

Empleo de la teoría de la información Ruido y sobreadaptación Cuando dos ó más ejemplos tienen los mismos valores de atributos pero diferente clasificación, el algoritmo no podrá encontrar un árbol que sea consistente con todos los ejemplos Soluciones: función mayoría (agente lógico) ó una probabilidad estimada en base a las frecuencias (Arbol probabilístico)

Empleo de la teoría de la información Ruido y sobreadaptación La sobreadaptación es cuando se usan atributos irrelevantes para inducir un árbol consistente ejemplo: lanzar un dado día: Lu, Ma, Mi, Ju mes: Ene ó Feb Color; rojo ó azul Mientras no haya dos ejemplos con la misma descripción el algoritmo encontrará una hipótesis consistente

Poda de árboles Evitar probar atributos que no son relevantes cómo encontramos un atributo no relevante? Aquellos que tengan baja ganancia de información qué tan grande debe ser la ganancia de información de un atributo para efectuar la prueba? Realizar una prueba de hipótesis estadística hipótesis nula: no hay patrón en los datos, hipótesis alterna: sí hay patrón en los datos poda xi-cuadrada

Empleo de la teoría de la información Ampliación de los usos de los árboles de decisión Datos faltantes Atributos multivaluados Nombre del restaurante Atributos que adquieren valores continuamente Altura y peso

Variables Continuas Clasificación: manejo de variables continuas Discretizar variables Riesgo de perder información

Variables discretas Número de valores que toma una variable discreta Arboles demasiado ramificados Arboles demasiado profundos

Regla Gini Indice de diversidad de una población Probabilidad de que dos elementos de de la población escogidos al azar con reemplazo pertenezcan a diferentes clases

Regla Gini pi probabilidad de cada clase i pi 2 probabilidad de que una clase sea escogida dos veces Indice de diversidad

Regla Gini Supongamos que hay dos clases: 1 y 2 con probabilidades p1 y p2 p1+p2 = 1 El índice de diversidad GINI se puede reducir a:

Regla Gini NOTA La reducción anterior sólo se puede usar cuando la variable de predicción tiene sólo dos valores, es decir, se tienen sólo dos clases. Cuando hay tres o más clases, se debe usar la fórmula original, sin reducir:

¿Cuándo usar árboles de decisión? Cuando se desee clasificación de registros Cuando se desee estimar el valor de una variable Cuando se requieran reglas entendibles por personas