Programación Dinámica

Programación Dinámica

Programación Dinámica (PD)
Técnica cuantitativa de toma de decisiones desarrollada por Bellman y Dantzig en 1957 Se basa en una estructura de optimalidad que tiene un conjunto de subproblemas: una política óptima consiste de subpolíticas óptimas. (Recursividad). PD: Técnica matemática que resuelve una serie de decisiones secuenciales, cada una de las cuales afecta las decisiones futuras.

Agenda Problema de la Diligencia
Características de la Programación Dinámica Elementos Básicos Programación Dinámica Determinística Programación Dinámica Probabilística

Problema de la Diligencia
Un vendedor mítico de los EEUU debe viajar hacia el oeste a través de tierras hostiles, utilizando como medio de transporte una diligencia. Aún cuando su punto de partida y destino son fijos, tiene un número considerable de opciones para elegir qué estados recorrer en su ruta. El vendedor ofrece seguros de vida a los pasajeros de las diligencias. El vendedor necesita determinar cual será la ruta más segura para disminuir sus costos de póliza de seguro. Los territorios y costos de póliza en cada recorrido se observan en la figura a continuación.

Costo del recorrido Estado ¿Cuál ruta (conjunto de caminos) minimiza el costo total de la póliza?

Sacrificando un poco en una etapa es posible obtener ahorros mayores de allí en adelante. 1-4-6 es globalmente más barata que 1-2-6 pero Solución 1: seleccionar el camino más barato ofrecido en cada etapa sucesiva > Costo total de 13 pero El número de rutas es muy grande (1x3x3x2x1=18) Solución 2: por tanteos.

Solución 3: PROGRAMACIÓN DINÁMICA De Atrás hacia delante: Etapa 4 resolver primero Parte de una pequeña porción del problema y encuentra la solución óptima para ese problema más pequeño. Entonces gradualmente agranda el problema, hallando la solución óptima en curso a partir de la anterior, hasta que se resuelve por completo el problema original

Método de Solución n Etapa, subproblema que estamos resolviendo (n=1,2,3,4) . Variable de decisión, estado inmediato en la etapa n s Función Recursiva: Estado Costo del estado S a Xn Costo total de la mejor política global para las etapas restantes, dado que el vendedor se encuentra en el nodo S (listo para inicial la etapa n) y se selecciona a Xn como destino inmediato.

Método de Solución ETAPA 4 ; n = 4 ETAPA 3 ; n = 3

Método de Solución ETAPA 2 ; n = 2 El problema de la diligencia es un diseño conceptual, para dar una interpretación física literal de los problemas de PD. ETAPA 1 ; n = 1

Características de PD Característica fundamental: Procesos multietapa de toma de decisiones. Propiedades: Sólo un número reducido de variables se debe conocer en cualquier etapa con el fin de describir al problema. El resultado de una decisión en cualquier etapa altera los valores numéricos de un número reducido de variables relevantes al problema.

Elementos básicos de PD
El problema puede dividirse en etapas, con una decisión de la política requerida en cada etapa. Cada etapa tiene un cierto número de estados asociados a ella. En general los estados son de diversas condiciones posibles, en las que el sistema podría estar en esa etapa del problema. Puede ser finito o infinito. El valor asociado al estado no pude depender de decisiones de la misma etapa no de futuras decisiones. El estado representa una foto del sistema. Una evaluación en un instante de tiempo.

La decisión debe corresponder a la política del estado vigente y no del futuro. El efecto de la decisión de una política en cada etapa es: “ transformar el estado actual en un estado asociado con la etapa siguiente “. El estado resultante podría ser probable distribución. Dado el estado actual, una política optima para las etapas restantes es independiente de la política adoptada en las etapas previas. (n-1, n, n+1) El procedimiento de resolución empieza por hallar la política optima para cada estado de la última etapa

Se dispone de una “relación recursiva” que identifica la política óptima para cada estado en la etapa n, dada la política óptima para cada estado en la etapa (n+1). Usando esta relación recursiva, el procedimiento de resolución se mueve “hacia atrás”, etapa por etapa - hallando en cada ocasión la política óptima para cada estado de esa etapa - hasta que se encuentra la política óptima cuando se parte de la etapa inicial. Resultado de la política óptima en la etapa siguiente (n+1) … .. Estado posible de la etapa Actual (n)

Programación Dinámica Determinística
Ejercicio 1: distribución de fresas Nº de cargas Tienda 1 2 3 5 6 4 9 11 14 15 13 17 19 18 21 22 20 Un propietario de una cadena de tres supermercados compró cinco cargas de fresas frescas. La distribución de probabilidad estimada para las ventas potenciales de las fresas antes de que se echen a perder difiere entre los tres supermercados. El propietario quiere saber cómo debe asignar las cinco cargas a las tiendas para maximizar la ganancia esperada. Por razones administrativas, no quiere dividir las cargas entre las tiendas. Sin embargo, está de acuerdo en asignar cero cargas a cualquiera de ellas. La siguiente tabla proporciona la ganancia estimada en cada tienda al asignar distintas cantidades de cargas:

Ejercicio 1: Nº de cargas Tienda 1 2 3 5 6 4 9 11 14 15 13 17 19 18 21 22 20

Ejercicio 1: Etapas: supermercados a abastecer n=(1,2,3) xn: número de cargas asignadas a la etapa n, xn(0,1,2,3,4,5) Estado: numero de cargas disponibles para el supermercado n sn+1= sn - xn Decisiones: cantidad de cargas asignadas al supermercado n Función recursiva: * *

Ejercicio 1: Etapa 3, n=3, s4=0 s3 x3 1 4 2 9 3 13 18 5 20 *

Ejercicio 1: Etapa 2, n=2 s2/x2 1 2 3 4 5 f*2(s) x*2 0+4=4 6+0=6 6 0+9=9 6+4=10 11+0=11 11 0+13=13 6+9=15 11+4=15 15+0=15 15 1ó2ó3 0+18=18 6+13=19 11+9=20 15+4=19 19+0=19 20 0+20=20 6+18=24 11+13=24 15+9=24 19+4=23 22+0=22 24

Ejercicio 1: Etapa 1, n=1 s1/x1 1 2 3 4 5 f1*(s1) x*1 0+24=24 5+20=25 9+15=24 14+11=25 17+6=23 21+0=21 25 1ó3 Super 1 Super 2 Super 3 xn 1 2 xn 3 2 2 alternativas

Programación Dinámica Deterministica
Ejercicio 2: Inventario revisión periódica Una compañía sabe que la demanda durante cada uno de los próximos cuatro meses es como se indica: mes 1, 1 unidad; mes 2, 3 unidades; mes 3, 2 unidades; mes 4, 4 unidades. Durante un mes en el cual se producen algunas unidades, se incurre en un costo preliminar de 3US$. Además, hay un costo variable de 1 dólar por cada unidad que se fabrica. Al final de cada mes, se genera un costo de almacenamiento de 50 centavos por cada unidad disponible. Las limitaciones en la capacidad permiten producir durante cada mes un máximo de 5 unidades. Las dimensiones de la bodega de la compañía restringen el inventario final de cada mes a 4 unidades, cuando mucho. Suponga que se dispone de 0 unidades al principio del primer mes. La empresa desea determinar un plan de producción que cumpla con toda la demanda a tiempo y minimice la suma del costo de producción y del costo de almacenamiento durante los cuatro meses.

Ejercicio 2 Etapa: meses a satisfacer, n={1,2,3,4,5} xn: cantdad a producir en el mes n, xn{0,1,2,3,4,5} Estado: stock inicial en el mes n sn: stock inicial en el mes n, sn{0,1,2,3,4} Decisión: cantidad de unidades a producir en el mes n dn: demanda del mes n, dn={1,3,2,4} s1=0 s5=0 sn+1=sn+xn-dn Función recursiva: *

Ejercicio 2 Etapa 4, n=4, d4=4, s5=0 s5=s4+x4-d4 s4+x4 = 4 * * s4\ x4 1 2 3 4 5 7 6 * s4 f4(s4) x4 7 4 1 6 3 2 5

* s4 f4(s4) x4 7 4 1 6 3 2 5 Ejercicio 2 Etapa 3, n=3, d3=2 s4= s3+x3-d3 0<s4<4 * f3*(s3) x*3 s3\x3 1 2 3 4 5 5+7 =12 6.5+6=12.5 8+5=13 9.5+4=13.5 12 4+7=11 5.5+6=11.5 7+5=12 8.5+4=12.5 10+0=10 10 0+7=7 4.5+6=10.5 6+5=11 7.5+4=11.5 9+0=9 7 0.5+6=6.5 5+5=10 6.5+4=10.5 8+0=8 6.5 1+5=6 5.5+4=9.5 7+0=7 6

Ejercicio 2 Etapa 2, n=2, d2=3 s3=s2+x2-d2 0<s3<4 f*2(s2) x*2 s2\x2 1 2 3 4 5 6+12=18 7.5+10=17.5 9+7=16 16 5+12=17 =16.5 8+7=15 =16 15 4+12=16 5.5+10=15.5 7+7 = 14 =15 10+6=16 14 0+12=12 4.5+10=14.5 6+7=13 =14 9+6=15 12 0.5+10=10.5 5+7=12 =13 8+6=14 10.5 *

Ejercicio 2 Etapa 1, n=1, d1=1, s1=0 s2=s1+x1-d1 0<s2<4 * f*1(s1) x*1 s1\x1 1 2 3 4 5 4+16=20 5.5+15=20.5 7+14=21 8.5+12=20.5 =20.5 20

Ejercicio 2 Mes 1 Mes 2 Mes 3 Mes 4 xn 1 5 4 dn 1 3 2 4 sn 2

Ejercicio 3: preparando exámenes Días Puntos de Calificación Estimados Cursos 1 2 3 4 5 6 7 9 8 Una estudiante universitaria cuenta con siete días para preparar los exámenes finales de cuatro cursos y quiere asignar su tiempo de estudio de la manera más eficiente posible. Necesita por lo menos un día para cada curso y quiere concentrarse sólo en un curso cada día por lo que quiere asignar uno, dos, tres o cuatro días a cada curso. Como hace poco tomó un curso de investigación de operaciones, decide aplicar programación dinámica para hacer estas asignaciones que maximicen el total de puntos obtenidos en los cuatro cursos. Estima que las distintas opciones en días de estudio le significaran puntos de calificación según la siguiente tabla:

Ejercicio 3: preparando exámenes Días Puntos de Calificación Estimados Cursos 1 2 3 4 5 6 7 9 8

Ejercicio 3: Etapas: cursos n=(1,2,3,4) xn: días estudiando para el curso n, xn(1,2,3,4) Estado: días de estudio disponibles sn+1=sn-xn Decisiones: cantidad de días de estudio para el curso n Función recursiva: * *

Ejercicio 3: Etapa 4, n=4, s5=0 s4 x4 1 6 2 7 3 9 4 *

Ejercicio 3: Etapa 3, n=3 s/x3 1 2 3 4 f3(s) x3 2+6=8 8 2+7=9 4+6=10 10 2+9=11 4+7=11 7+6=13 13 5 4+9=13 7+7=14 8+6=14 14 3ó4

Ejercicio 3: Etapa 2, n=2 S/X2 1 2 3 4 f2(s) x2 5+8=13 13 5+10=15 15 5 5+13=18 6+8=14 18 6 5+14=19 6+10=16 9+8=17 19

Ejercicio 3: Etapa 1, n=1 S/X1 1 2 3 4 f1*(s) X1 7 3+19=22 5+18=23 6+15=21 7+13=20 23 Curso 1 Curso 2 Curso 3 Curso 4 xn 2 1 3

Ejercicio 4: consejo mundial de la salud Nº de Equipos Médicos Miles de años de vida adicional del hombre País 1 2 3 45 20 50 70 90 75 80 4 105 110 100 5 120 150 130 El consejo mundial de la salud se dedica a mejorar el cuidado de la salud en los países subdesarrollados del mundo. Ahora cuenta con cinco equipos médicos para asignar entre tres de esos países a fin de mejorar su cuidado médico, su educación sanitaria y sus programas de entrenamiento. Por consiguiente el consejo necesita determinar cuántos equipos ( si resulta conveniente) asignar a cada uno de estos países para maximizar la efectividad total de los cinco equipos. La medida de efectividad que se está usando es : “los años de vida adicionales del hombre“. ( Para un país en particular, esta medida es igual a la esperanza incrementada de vida del país, en años, multiplicada por su población). ¿ Qué es lo que cambia de una etapa a la siguiente ? dado que se han tomado las decisiones en las etapas previas. ¿ Cómo puede describirse la condición de la situación en la etapa actual ? ¿ Qué información acerca del estado actual de las cosas se necesita para determinar la política óptima de aquí en adelante ?

Ejercicio 4: Nº de Equipos Médicos Miles de años de vida adicional del hombre País 1 2 3 45 20 50 70 90 75 80 4 105 110 100 5 120 150 130 Etapa = País; n = 1,2,3 Variable: Xn = Equipos médicos asignados en la etapa o país Estado: S = Equipos médicos aun por asignar Años de vida adicionales del hombre en la etapa (país) n si decide asignar Xn equipos médicos en este país. No es un modelo en nuestra actual notación; debemos aproximarnos

Ejercicio 4:

Ejercicio 4: Nº de Equipos Médicos Miles de años de vida adicional del hombre País 1 2 3 45 20 50 70 90 75 80 4 105 110 100 5 120 150 130 Etapa = País; n = 1,2,3 Variable: Xn = Equipos médicos asignados en la etapa o país Estado: S = Equipos médicos aun por asignar Años de vida adicionales del hombre en la etapa (país) n si decide asignar Xn equipos médicos en este país. No es un modelo en nuestra actual notación; debemos aproximarnos

Ejercicio 4: Años de vida adicionales totales, considerando la mejor política para las etapas restantes y que en la etapa n, el estado es S y la decisión tomada fue Xn. La relación recursiva

Ejercicio 4: Nº de Equipos Médicos Miles de años de vida adicional del hombre País 1 2 3 45 20 50 70 90 75 80 4 105 110 100 5 120 150 130 1 50 2 70 3 80 4 100 5 130

Ejercicio 4: 1 2 3 4 5 0+0=0 0+50=50 20+0=20 50 0+70=70 20+50=70 45+0=45 70 0ó1 0+80=80 20+70=90 45+50=95 75+0=75 95 0+100=100 20+80=100 45+70=115 75+50=125 110+0=110 125 0+130=130 20+100=120 45+80=125 75+70=145 110+50=160 150+0=150 160

Ejercicio 4: 1 2 3 4 5 0+160=160 45+125=170 70+95=165 90+70=160 105+50=155 120+0=120 170 País 1 País 2 País 3 xn 1 3

Ejercicio 5: Volar con seguridad a Marte Un equipo especial del gobierno está conduciendo la investigación sobre cierto problema de ingeniería que debe resolverse antes de que el hombre pueda volar con seguridad a Marte. Tres equipos de investigadores están tratando actualmente tres procedimientos diferentes para resolver este problema. Se ha hecho la estimación de que bajo las circunstancias presentes, la probabilidad de que los equipos respectivos - llamémoslos 1, 2 y 3 - no tengan éxito es 0.40, 0.60 y 0.80 respectivamente. Por tanto, la probabilidad actual que los tres equipos fallen es (0.40)(0.60)(0.80)= (19.2%). Dado que el objetivo es minimizar esta probabilidad, se ha tomado la decisión de asignar dos científicos destacados más entre los tres equipos para disminuirlas tanto como sea posible. Nº de Científicos Nuevos Probabilidad de Falla Equipo de Investigación 1 2 3 0,40 0,60 0,80 0,20 0,50 0,15 0,30 Probabilidad de falla del equipo n si decide asignar Xn científicos

Ejercicio 5: Volar con seguridad a Marte Probabilidad de falla del equipo n , n+1,..3, considerando la mejor política para las etapas restantes y S, Xn para la etapa n.

Ejercicio 5: Volar con seguridad a Marte Nº de Científicos Nuevos Probabilidad de Falla Equipo de Investigación 1 2 3 0,40 0,60 0,80 0,20 0,50 0,15 0,30 0.8 1 0.5 2 0.3 1 2 0.6*0.8=0.48 0.48 0.6*0.5=0.3 0.4*0.8=0.32 0.3 0.6*0.3=0.18 0.4*0.5=0.2 0.2*0.8=0.16 0.16

Ejercicio 5: Volar con seguridad a Marte Nº de Científicos Nuevos Probabilidad de Falla Equipo de Investigación 1 2 3 0,40 0,60 0,80 0,20 0,50 0,15 0,30 1 2 0.4*0.16=0.064 0.2*0.3=0.06 0.15*0.48=0.072 0.06 Equipo 1 Equipo 2 Equipo 3 xn 1

Ejercicio 6: Presupuesto Vacacional (dos variables de estado) La familia de la señora “Susana Oria” va a salir de vacaciones desde su ciudad natal Antofagasta. La familia desea visitar K ciudades y dispone de un total de M días para hacerlo, con M ≥ K. La familia desea saber cuantos días permanecer en cada ciudad de modo de maximizar la satisfacción total de sus vacaciones sabiendo que para cada ciudad n existe una función de satisfacción gn que es función del número de días de permanencia. Además, la familia dispone de un presupuesto P para el total de sus vacaciones, sabiendo que por cada día de permanencia en la ciudad n gastarán Cn. 1.- Plantee un modelo de programación dinámica para resolver la planificación de las vacaciones de la familia. 2.- Resuelva y especifique con cuánto dinero termina la familia, suponiendo que K=3, M=5, presupuesto P=US$ 1200, costos de estadía por ciudad c1=$ 200, c2=$ 300, c3=$ 100 y que las funciones de beneficio gn(xn) vienen dadas por:

: Número de ciudad (n=1,2…K).
1.- Formulación: : Número de ciudad (n=1,2…K). : Cantidad de días en la ciudad n. : Dinero que le queda a la familia antes de ir a la ciudad n. : Días que le quedan antes de ir a la ciudad n. : Costo diario de permanencia en la ciudad n. : Beneficio en la ciudad n al permanecer Xn días. Variables de Estado

S1 = P H1 = M fK+1 = 0 Hn+1 > 0 Sn+1 > 0 Función Objetivo:
* Actualización del estado: Condiciones : S1 = P H1 = M fK+1 = 0 Hn+1 > 0 Sn+1 > 0

2.- (S3;H3) * 1 2 3 4 5 (0-99; 0-5) (100-1200; 0) - (100-199; 1-5)
1 2 3 4 5 (0-99; 0-5) ( ; 0) - ( ; 1-5) ( ; 1) ( ; 2-5) ( ; 2) ( ; 3-5) ( ; 3) 2ó3 ( ; 4-5) ( ; 4) ( ; 5) (S3;H3)

Observamos que Si S3 < 100 o H3 = 0 1
1 Si (100 < S3 < 200 y H3 > 1) o (S3 >100 y H3 = 1) f3*(S3,H3) = 3 De otra manera

* 1 2 3 4 5 200 - 400 0+1=1 1+0=1 0ó1 600 0+3=3 1+1=2 4+0=4 800 1+3=4 4+1=5 1000 4+3=7 6+1=7 7 2ó3 1200 6+3=9 8+0=8 9

Solución (días en cada ciudad) Ciu1 Ciu2 Ciu3 0 3 2
1 2 3 4 5 1200 0+9=9 1+7=8 2+5=7 3+4=7 4+1=5 5+0=5 9 * Solución (días en cada ciudad) Ciu1 Ciu2 Ciu3 La familia queda con presupuesto final: 0*US *US *US 100 = US1.100

Programación Dinámica Probabilística Estado y Resultado Indeterminado
El estado de la etapa siguiente no queda totalmente determinado por el estado y la decisión en la etapa actual. En su lugar existe una distribución de probabilidades para lo que será el estado siguiente. A veces el estado queda determinado, sin embargo el resultado no y solo está asociado a una distribución de probabilidades.

Programación Dinámica Probabilística
Estado Indeterminado

Estado Indeterminado Ejercicio 1: Producción artículo particular La Cía. Industrial Hir - And - Miss ha recibido un pedido para surtir un articulo de tipo particular. Sin embargo el cliente ha especificado requerimientos de calidad tan rigurosos que es posible que el fabricante tenga que producir más de un articulo para obtener uno aceptable. El fabricante estima que cada articulo de este tipo que produce será aceptable con probabilidad de ½ y será defectuoso (sin probabilidad de reparación), con probabilidad de ½. Así, el número de artículos aceptables producidos en un lote de tamaño L tendrá una distribución binomial; es decir, la probabilidad de producir cero artículos aceptable en ese lote es de (½)L.

Estado Indeterminado Ejercicio 1: Producción artículo particular (seguida) Se estima que los CMg (costos marginales) de producción son de $ 100 por artículo (incluso si es defectuoso) y los artículos en exceso no tienen valor. Además, debe incurrirse en un costo de preparación de $ 300, siempre que se monte el proceso de producción para este producto. El fabricante sólo tiene tiempo para hacer no más de tres series de producción. Si no se ha obtenido un articulo aceptable al final de la tercera serie de producción, el costo para el fabricante por ventas perdidas y en costos de penalización sería de $ 1600. El objetivo es determinar la política referente al tamaño del lote para la serie, o series de producción requeridos que minimice el costo total esperado para el fabricante.

O bien, K(xn) = 3*min(1,xn)

Para n=3 Para n=2

Para n=1 2 Entonces, la política óptima es producir dos artículos en la primera corrida de producción; si ninguno es aceptable, deberán producirse dos o tres artículos en la segunda corrida; si ninguno es aceptable, tendrán que producirse tres o cuatro artículos en la tercera corrida. El costo total esperado si se sigue esta política es de $675.

Estado Indeterminado Ejercicio 2: Juego popular en las Vegas Un emprendedor estadístico joven ha desarrollado un sistema para ganar en un juego popular de las vegas. Sus colegas no creen que esto sea posible, de modo que hacen una gran apuesta con el que, empezando con tres fichas, no tendrá cinco fichas después de tres jugadas. Cada jugada comprende la apuesta de cualquier número de fichas. El estadístico cree que su sistema le dará una probabilidad de 2/3 de ganar cada jugada. Suponiendo que el estadístico está en lo correcto, determínese su política optima de cuantas fichas apostar ( de apostar alguna ) en cada una de las tres jugadas. La decisión de cada jugada debe tomar en cuenta los resultados de las jugadas anteriores. El objetivo es maximizar la probabilidad de ganar las apuestas a sus colegas.

Formulación: Etapas: n-ésima jugada del juego (n=1,2,3)
V.E : Fichas que se tienen al inicio de la etapa n. V.D : Cantidad de fichas que se apuestan en la etapa n. Probabilidad de terminar las tres jugadas con cinco fichas o más.

Procedimiento de solución:
Por la relación recursiva se conducen todos los resultados.

n=1 Resultado del problema: Esta política óptima da al joven una probabilidad de 20/27 de ganar la apuesta a sus colegas.

Costos inciertos, estado conocido etapa siguiente Ejercicio 3: Safeco La cadena de supermercados Safeco compra a una lechería local, a un precio de 1 dólar/galón, 6 galones de leche. Cada galón se vende en las tres tiendas de la cadena a 2 dólares/galón. La lechería recoge de los supermercados la leche sobrante a 50¢ de dólar/galón al término del día. Desafortunadamente para Safeco, es incierta la demanda en cada una de las tres tiendas. Los datos acumulados indican que la demanda diaria en cada tienda es como se muestra en la tabla 1. Safeco desea asignar los 6 galones de leche a las tres tiendas para maximizar la ganancia diaria (ingresos menos costos) que da la leche. Mediante la programación dinámica determine cómo debe asignar Safeco los 6 galones de leche entre sus tiendas. Demanda diaria Tiendas Galones Probabilidad Tienda 1 1 0,60 2 3 0,40 Tienda 2 0,50 0,10 Tienda 3 0,30

Formulación

Formulación 𝑟 3 0 =0 𝑟 2 0 =0 𝑟 1 0 =0 𝑟 3 1 =$2 𝑟 2 1 =$2 𝑟 1 1 =$2
𝑟 3 0 =0 𝑟 2 0 =0 𝑟 1 0 =0 𝑟 3 1 =$2 𝑟 2 1 =$2 𝑟 1 1 =$2 𝑟 3 2 =$3.4 𝑟 2 2 =$3.25 𝑟 1 2 =$3.1 𝑟 3 3 =$4.35 𝑟 2 3 =$4.35 𝑟 1 3 =$4.2

Procedimiento de solución
Etapa 3: S3 X*3 f*3 1 2 3.4 >=3 3 4.35 S2\x2 1 2 3 x*2 f*2 - 0ó1 3.4 4 3.25 4.35 5.4 5.25 6.35 6.65 5 7.6 7.75 6 8.7 Etapa 2:

Etapa 1: S1\x1 1 2 3 x*1 f*1 6 8.7 9.75 9.45 1 o 2 Por lo tanto, tenemos 2 combinaciones optimas con las cuales podemos maximizar nuestras ganancias, las cuales se resumen a continuación, Tienda 1 Tienda 2 Tienda 3 Caso 1 Caso 2

Tres posibles salidas del evento aleatorio Ejercicio 4: Safeco Una empresa tiene $2 millones para invertir en los próximos tres años. La empresa está analizando una inversión que se descompone en tres etapas, una etapa por cada año. Se puede lograr uno de los tres resultados siguientes en cada etapa: A) Doblar el monto invertido B) Recuperar el monto invertido C) Perder el monto invertido La probabilidad del resultado A es de 30%; del B es de 30%; del C es de 40%. En cada etapa se puede invertir un número entero de millón de dólares, es decir $0, $1 millón, $2 millones, etc. Al comienzo del primer año se permite invertir hasta $2 millones. Luego, en las siguientes etapas, se puede invertir lo que quede de los $2 millones más cualquier dinero adicional que se haya ganado en las etapas anteriores. Utilice programación dinámica para determinar la política que maximice la probabilidad de tener al menos $4 millones al fin del tercer año. Siguiendo la política óptima, ¿Cuál es la probabilidad de lograr el objetivo de $ 4 millones?

Mes 3: S3 X*3 f*3 0 - 1 - 2 0,3 3 2 o 3 >=4 1 Mes 2: S2\x2 1 2 3 x*2 f*2 - (0,3)(0,3) 0,09 (0,3)(0,3)+(0,3)(0,3) (0,3)+(0,3)(0,3) 0,39 0,3 (0,3)+(0,3)(0,3)+(0,4)(0,3) 0,51 >=4

Mes 1: S1\x1 1 2 x*1 f*1 0,39 (0,3)(0,51)+(0,3)(0,39)+(0,4)(0,09) (0,3)+(0,3)(0,39) 0,417 X1 = 2 X2 = 2 X3 = 2 Ganado Perdido Política: Probabilidad de lograr el objetivo es de 41,7%

Programación Dinámica

Presentaciones similares

Presentación del tema: "Programación Dinámica"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Programación Dinámica

Presentaciones similares

Presentación del tema: "Programación Dinámica"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback