"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "# **Aprendizaje por refuerzo 1**\n",
"\n",
"El **aprendizaje por refuerzo** agrupa al conjunto de métodos del **aprendizaje automático** en el que un **agente** aprende a tomar decisiones sobre las **acciones** a ejecutar en un **entorno** que lo llevan a maximizar una **recompensa**. Lo hace mediante la **exploración** de nuevas vías y soluciones y la **explotación** del conocimiento que adquiere mediante repetidas pruebas.\n",
"\n",
- "\n",
+ "
\n",
+ " \n",
+ "
\n",
"\n",
"Se asume que el comportamiento del sistema es discreto, es decir, que está formado por una secuencia de pasos. El caso continuo se trataría con intervalos temporales. Cada paso consiste en estudiar el estado $s$ del entorno y seleccionar una acción $a$. El entorno responde con un nuevo estado $s'$ y una recompensa $r$. El comportamiento del entorno es, en general, desconocido y puede ser estocástico, es decir, que la evolución del entorno y la recompensa generada pueden obedecer a una cierta función de probabilidad.\n",
"\n",
@@ -21,11 +32,13 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "## Q-Learning\n",
+ "## **Q-Learning**\n",
"\n",
"Supongamos que tenemos un robot cuyo objetivo es aprender a salir de una casa, como la que muestra el plano de la figura siguiente. Para ello, va a realizar una serie de múltiples intentos, obteniendo **recompensa** únicamente cuando consiga salir. En cada intento el robot partirá desde alguna habitación aleatoria. A estos \"intentos\" le daremos el nombre de \"episodios\". Denominaremos **episodio** al conjunto de **acciones** que el robot toma desde que parte inicialmente de una habitación hasta que consigue salir.\n",
"\n",
- ""
+ "
\n",
+ " \n",
+ "
"
]
},
{
@@ -34,110 +47,340 @@
"source": [
"Las puertas que dan directamente al exterior tienen una recompensa de 100. El resto de puertas no tienen recompensa. El plano de la casa puede ser visto como un grafo (figura siguiente). Cuando el robot llega al **estado** número 5 del grafo el **episodio** finaliza.\n",
"\n",
- ""
+ "
\n",
+ " \n",
+ "
"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
- "Este grafo puede ser representado también por una matriz donde las filas representan los **estados** y las columnas las **acciones** que se pueden tomar. En este caso en particular, las acciones corresponden a los estados a los que se puede ir. Así que, en este caso, la matriz es cuadrada.\n",
- "Vamos a llamar a esta matriz $R$, **matriz de recompensas**. En este caso, vamos a denotar con el valor $-1$ a una acción que no es posible ejecutar para un determinado estado. Ojo, en otro tipo de problemas el valor $-1$ puede corresponder con una recompensa negativa (o castigo).\n",
- "\n",
+ "Este grafo puede ser representado también por una tabla donde las filas representan los **estados** y las columnas las **acciones** que se pueden tomar. Vamos a llamar a esta tabla $R$, **tabla de recompensas**. En este caso, vamos a denotar con el valor $-1$ a una acción que no es posible ejecutar para un determinado estado. Ojo, en otro tipo de problemas el valor $-1$ puede corresponder con una recompensa negativa (o castigo).\n",
+ "\n",
+ "\n",
+ "
\n",
"\n",
"\n",
"A medida que el robot vaya deambulando por la casa y completando episodios irá acumulando recompensas. \n",
"\n",
- "Supongamos que el robot parte de la habitación (estado) 1. En ese momento, el robot no tiene ningún tipo de conocimiento de la casa, no sabe qué puerta elegir para llegar antes a la salida. Por supuesto, no tiene acceso a la matriz de recompensas. En esas condiciones, el robot solo puede hacer una elección aleatoria de una de las dos puertas, supongamos que elige la inferior (véase el plano de la casa). Es decir, elige la acción “ir al estado 3”. \n",
+ "Supongamos que el robot parte de la habitación (estado) 1. En ese momento, el robot no tiene ningún tipo de conocimiento de la casa, no sabe qué puerta elegir para llegar antes a la salida. Por supuesto, no tiene acceso a la matriz de recompensas. En esas condiciones, el robot solo puede hacer una elección aleatoria de una de las dos puertas, supongamos que elige la inferior (véase el plano de la casa). Es decir, elige la acción “Down”. \n",
"\n",
- "Una vez en la habitación 3 descubre que no recibe ninguna recompensa y que vuelve a encontrarse en la misma situación, ¿qué puerta elegir? Todas, incluso ir de nuevo al estado 1, son para el robot elecciones aceptables, puesto que todas le proporcionan la misma incertidumbre. De nuevo, mediante una selección totalmente aleatoria, elige la puerta izquierda, “ir al estado 4”.\n",
+ "Una vez en la habitación 3 descubre que no recibe ninguna recompensa y que vuelve a encontrarse en la misma situación, ¿qué puerta elegir? Todas, incluso ir de nuevo al estado 1, son para el robot elecciones aceptables, puesto que todas le proporcionan la misma incertidumbre. De nuevo, mediante una selección totalmente aleatoria, elige la puerta izquierda, acción “Left”.\n",
"\n",
- "Ya en el estado 4 la situación se repite. De nuevo, no recibe ninguna recompensa. Otra vez de forma aleatoria, elige la puerta inferior “ir al estado 5”.\n",
+ "Ya en el estado 4 la situación se repite. De nuevo, no recibe ninguna recompensa. Otra vez de forma aleatoria, elige la puerta inferior, acción “Down”.\n",
"\n",
- "Llegado al estado 5, el robot descubre que recibe 100 puntos (puntos, dinero, gallifantes... cualquier cosa vale) de recompensa. En ese momento el robot actualizará su tabla $Q$, dado que hay algo de información nueva. Actualizará, por tanto, la entrada $(4,5)$ con el valor $100$. Démonos cuenta de que $4$ representa el estado en el que se encontraba el robot y $5$ es la acción que tomó (\"ir al estado 5\"). En otras palabras significaría que debemos apuntar en una libreta que si estamos en la habitación 4 y vamos por la puerta inferior obtendremos 100 puntos de recompensa. La próxima vez que estemos en la habitación $4$, ya sabremos qué puerta elegir para obtener alguna recompensa. Ten en cuenta que no hemos explorado otras puertas de la habitación 4, luego no sabemos si esas otras puertas nos llevan a recompensas mayores.\n",
+ "Llegado al estado 5, el robot descubre que recibe 100 puntos (puntos, dinero, gallifantes... cualquier cosa vale) de recompensa. En ese momento el robot actualizará su tabla $Q$, dado que hay algo de información nueva. Actualizará, por tanto, la entrada $(4, Down)$ con el valor $100$. Démonos cuenta de que $4$ representa el estado en el que se encontraba el robot y $Down$ es la acción que tomó. En otras palabras significaría que debemos apuntar en una libreta que si estamos en la habitación 4 y vamos por la puerta inferior obtendremos 100 puntos de recompensa. La próxima vez que estemos en la habitación $4$, ya sabremos qué puerta elegir para obtener alguna recompensa. Ten en cuenta que no hemos explorado otras puertas de la habitación 4, luego no sabemos si esas otras puertas nos llevan a recompensas mayores.\n",
"\n",
"\n",
"Finalmente, como el robot ya ha salida de la casa, el episodio termina.\n",
"\n",
"La tabla $Q$ actualizada será:\n",
"\n",
- "$$Q = \\begin{pmatrix}\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 100 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0\n",
- "\\end{pmatrix}$$\n",
- "\n",
- "\n",
- "\n",
- "Empezamos, por tanto, un nuevo episodio. Supongamos que, por una cuestión aleatoria, el robot parte de la habitación 3. Y, de nuevo, el azar nos lleva a seleccionar la puerta de la izquierda, (ir al estado 4).\n",
- "Tengo que confesarte que, por simplificar, en el episodio anterior no expliqué completamente cómo se actualiza la tabla $Q$. Ahora sí que la vamos a ir actualizando correctamente. Para ello, vamos a hacer uso de esta fórmula, denominada **ecuación de Bellman**:\n",
+ "
\n",
+ " \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
Q
\n",
+ "
Up
\n",
+ "
Right
\n",
+ "
Down
\n",
+ "
Left
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
1
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
2
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
3
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
4
\n",
+ "
0
\n",
+ "
0
\n",
+ "
100
\n",
+ "
0
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "Matriz Q\n",
+ "
\n",
+ "\n",
+ "\n",
+ "\n",
+ "Empezamos, por tanto, un nuevo episodio. Supongamos que, por una cuestión aleatoria, el robot parte de la habitación 3. Y, de nuevo, el azar nos lleva a seleccionar la puerta de la izquierda.\n",
+ "\n",
+ "Por simplificar, en el episodio anterior no se explicó con detalle cómo se actualiza la tabla $Q$. Ahora sí que lo vamos a explicar. Para ello, vamos a hacer uso de esta fórmula, denominada **ecuación de Bellman**:\n",
"\n",
"$$Q(s,a) = R(s,a) + \\gamma max[Q(s',a')]$$\n",
"\n",
- "Significa lo siguiente, cuando el robot se encuentra en el estado $s$ y toma la acción $a$ pasa al estado $s’$. Una vez en el estado $s’$ podemos consultar la tabla $Q$ para ver qué acción $a’$ es la que tiene la recompensa máxima, $max[Q(s’,a’)]$. Por tanto, la actualización de $Q(s,a)$ se compone de dos partes. En primer lugar, la recompensa directa por haber pasado de $s$ a $s’$ mediante la acción $a$, que en este caso es $R(3,4) = 0$. Y, en segundo lugar, la recompensa máxima que se puede obtener desde $s’$ tomando la acción $a’$ adecuada. El factor $\\gamma$ debe tener un valor mayor que $0$ y menor que $1$, pongámosle $0.8$. Su cometido es rebajar proporcionalmente la recompensa que está dos pasos más allá del estado $s$. Por tanto, la nueva actualización de $Q(3,4)$ será:\n",
+ "Significa lo siguiente, cuando el robot se encuentra en el estado $s$ y toma la acción $a$ pasa al estado $s’$. Una vez en el estado $s’$ podemos consultar la tabla $Q$ para ver qué acción $a’$ es la que tiene la recompensa máxima, $max[Q(s’,a’)]$. Por tanto, la actualización de $Q(s,a)$ se compone de dos partes. En primer lugar, la recompensa directa por haber pasado de $s$ a $s’$ mediante la acción $a$, que en este caso es $R(3, Left) = 0$. Y, en segundo lugar, la recompensa máxima que se puede obtener desde $s’$ tomando la acción $a’$ adecuada. El factor $\\gamma$ debe tener un valor mayor que $0$ y menor que $1$, pongámosle $0.8$. Su cometido es rebajar proporcionalmente la recompensa que está dos pasos más allá del estado $s$. Por tanto, la nueva actualización de $Q(3, Left)$ será:\n",
"\n",
- "$$Q(3,4) = R(3,4) + \\gamma \\cdot max[Q(4,0),Q(4,3),Q(4,5)]$$\n",
+ "$$Q(3, Left) = R(3, Left) + \\gamma \\cdot max[Q(4, Up),Q(4, Right),Q(4, Down)]$$\n",
"\n",
"Que es:\n",
"\n",
- "$$Q(3,4) = 0 + 0.8 \\cdot max[0, 0, 100]$$\n",
+ "$$Q(3, Left) = 0 + 0.8 \\cdot max[0, 0, 100]$$\n",
"\n",
"Los nuevos valores de $Q$ serán:\n",
"\n",
- "$$Q = \\begin{pmatrix}\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 80 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 100 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0\n",
- "\\end{pmatrix}$$\n",
+ "
\n",
+ " \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
Q
\n",
+ "
Up
\n",
+ "
Right
\n",
+ "
Down
\n",
+ "
Left
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
1
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
2
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
3
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
80
\n",
+ "
\n",
+ "
\n",
+ "
4
\n",
+ "
0
\n",
+ "
0
\n",
+ "
100
\n",
+ "
0
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "Matriz Q\n",
+ "
\n",
"\n",
"Por tanto, ¿qué almacena la tabla $Q$? Almacena la recompensa que podría obtenerse a partir de cada estado, pero disminuida exponencialmente en función de la lejanía a la que la recompensa se encuentra. Desde un determinado estado podríamos tener dos opciones con el mismo valor de Q, yendo por un camino podríamos conseguir una recompensa pequeña pero cercana, mientras que por el otro podríamos conseguir una recompensa mucho mayor pero nos obligaría a dar muchos pasos intermedios.\n",
"\n",
- "Aún no hemos terminado este segundo episodio. Nos encontramos en el estado 4. Si el robot consulta la tabla $Q$ puede ver que si elige la acción “ir al estado 5” obtendrá mayor recompensa que si toma cualquiera de las otras opciones, que, por el momento, están a $0$. Supongamos que elige “ir al estado 5” y el episodio termina.\n",
+ "Aún no hemos terminado este segundo episodio. Nos encontramos en el estado 4. Si el robot consulta la tabla $Q$ puede ver que si elige la acción “Down” obtendrá mayor recompensa que si toma cualquiera de las otras opciones, que, por el momento, están a $0$. Supongamos que elige “Down” y el episodio termina.\n",
"\n",
- "Comencemos con el tercer episodio. El robot parte de la habitación 1 (por azar). Si escoge la acción “ir al estado 3” deberá actualizar la tabla $Q$ de la siguiente forma:\n",
+ "Comencemos con el tercer episodio. El robot parte de la habitación 1 (por azar). Si escoge la acción “Down” deberá actualizar la tabla $Q$ de la siguiente forma:\n",
"\n",
- "$$Q(1,3) = R(1,3) + \\gamma \\cdot max[Q(3,1), Q(3,2), Q(3,4)]$$\n",
+ "$$Q(1, Down) = R(1, Down) + \\gamma \\cdot max[Q(3, Up), Q(3, Right), Q(3, Left)]$$\n",
"\n",
"Lo cual es:\n",
"\n",
- "$$Q(1,3) = 64 = 0 + 0.8 \\cdot max[0, 0, 80] $$\n",
+ "$$Q(1, Down) = 64 = 0 + 0.8 \\cdot max[0, 0, 80] $$\n",
"\n",
"Con lo que la tabla $Q$ quedaría:\n",
"\n",
- "$$Q = \\begin{pmatrix}\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 64 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 80 & 0 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 100 \\\\\n",
- "0 & 0 & 0 & 0 & 0 & 0\n",
- "\\end{pmatrix}$$\n",
+ "
\n",
+ " \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
Q
\n",
+ "
Up
\n",
+ "
Right
\n",
+ "
Down
\n",
+ "
Left
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
1
\n",
+ "
0
\n",
+ "
0
\n",
+ "
64
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
2
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
3
\n",
+ "
0
\n",
+ "
0
\n",
+ "
0
\n",
+ "
80
\n",
+ "
\n",
+ "
\n",
+ "
4
\n",
+ "
0
\n",
+ "
0
\n",
+ "
100
\n",
+ "
0
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "Matriz Q\n",
+ "
\n",
"\n",
"A partir de aquí el robot podría ir utilizando la información de la tabla $Q$ para guiar su toma de decisiones, pasando del estado $3$ al $4$ y del $4$ al $5$, finalizando el tercer episodio.\n",
"\n",
@@ -147,161 +390,113 @@
"\n",
"\n",
"\n",
- "### Explotación vs. exploración\n",
+ "### **Explotación vs. exploración**\n",
"\n",
"El algoritmo Q-Learning debe acompasar una estrategia que combine cierta **explotación** con cierta **exploración**. Al principio, es evidente que lo único que se puede hacer es explorar, puesto que nuestra tabla $Q$ está vacía, no hay información. Pero, a medida que vamos completando episodios, debemos explotar esta información para obtener recompensas seguras.\n",
"\n",
"La forma de combinar exploración y explotación es lo que se denomina **política**.\n",
"\n",
- "### Convergencia\n",
+ "### **Convergencia**\n",
"\n",
"¿Cuándo termina el algoritmo Q-Learning? La primera respuesta sería: cuando la tabla $Q$ converja. Esto significa que cuando hayamos hecho los suficientes episodios, la tabla $Q$ ya no modificará más sus valores, a esta tabla la llamaremos $Q^*$. Esto ocurre fácilmente en casos como el de nuestro ejemplo. Pero en casos complejos, la tabla puede ser muy grande y sería necesario mucho tiempo (más del disponible) para que la tabla llegue a converger. Por tanto, la segunda respuesta es que no termina nunca. Siempre se estará ejecutando una determinada política que alterne, de la manera más eficiente posible, explotación y exploración.\n",
"\n",
- "### Implementación del algoritmo\n",
+ "### **Implementación del algoritmo**\n",
"\n",
"Establecemos los parámetros del algoritmo"
]
},
{
"cell_type": "code",
- "execution_count": 1,
- "metadata": {},
- "outputs": [],
- "source": [
- "import random\n",
- "\n",
- "discount = 0.8 # gamma\n",
- "final_state = 5"
- ]
- },
- {
- "cell_type": "markdown",
- "metadata": {},
- "source": [
- "Inicializamos la tabla de recompensas"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 2,
- "metadata": {},
- "outputs": [],
- "source": [
- "rewards = [[-1., -1., -1., -1., 0., -1.],\n",
- " [-1., -1., -1., 0., -1., 100.],\n",
- " [-1., -1., -1., 0., -1., -1.],\n",
- " [-1., 0., 0., -1., 0., -1.],\n",
- " [0., -1., -1., 0., -1., 100.],\n",
- " [-1., 0., -1., -1., 0., 100.]]"
- ]
- },
- {
- "cell_type": "markdown",
- "metadata": {},
- "source": [
- "Inicializamos la tabla $Q$ a cero."
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 3,
+ "execution_count": 15,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
- "+---+---+---+---+---+---+\n",
- "| 0 | 0 | 0 | 0 | 0 | 0 |\n",
- "+---+---+---+---+---+---+\n",
- "| 0 | 0 | 0 | 0 | 0 | 0 |\n",
- "+---+---+---+---+---+---+\n",
- "| 0 | 0 | 0 | 0 | 0 | 0 |\n",
- "+---+---+---+---+---+---+\n",
- "| 0 | 0 | 0 | 0 | 0 | 0 |\n",
- "+---+---+---+---+---+---+\n",
- "| 0 | 0 | 0 | 0 | 0 | 0 |\n",
- "+---+---+---+---+---+---+\n",
- "| 0 | 0 | 0 | 0 | 0 | 0 |\n",
- "+---+---+---+---+---+---+\n"
+ "Tabla Q:\n",
+ "[0.0, 0.0, 80.0, 0.0]\n",
+ "[100, 0.0, 64.0, 0.0]\n",
+ "[0.0, 0.0, 0.0, 64.0]\n",
+ "[80.0, 51.2, 0.0, 80.0]\n",
+ "[64.0, 64.0, 100, 0.0]\n"
]
}
],
"source": [
- "Q = [[0., 0., 0., 0., 0., 0.],\n",
- " [0., 0., 0., 0., 0., 0.],\n",
- " [0., 0., 0., 0., 0., 0.],\n",
- " [0., 0., 0., 0., 0., 0.],\n",
- " [0., 0., 0., 0., 0., 0.],\n",
- " [0., 0., 0., 0., 0., 0.]]\n",
- "\n",
"import random\n",
+ "\n",
+ "# Definimos las transiciones de estados basadas en las acciones\n",
+ "state_transitions = {\n",
+ " 0: {\"Down\": 4}, # Estado 0\n",
+ " 1: {\"Up\": 5, \"Down\": 3}, # Estado 1\n",
+ " 2: {\"Left\": 3}, # Estado 2\n",
+ " 3: {\"Up\": 1, \"Right\": 2, \"Left\": 4}, # Estado 3\n",
+ " 4: {\"Up\": 0, \"Right\": 3, \"Down\": 5}, # Estado 4\n",
+ "}\n",
+ "\n",
+ "Q_rows = {\"Up\": 0, \"Right\": 1, \"Down\": 2, \"Left\": 3} # Codificación numérica de las acciones\n",
+ "\n",
+ "# Establecemos las recompensas de cada estado\n",
+ "rewards = [[-1, -1, 0, -1],\n",
+ " [100, -1, 0, -1],\n",
+ " [-1, -1, -1, 0],\n",
+ " [0, 0, -1, 0],\n",
+ " [0, 0, 100, -1]]\n",
+ "\n",
+ "# Definimos e inicializamos la tabla Q\n",
+ "Q = [[0., 0., 0., 0.],\n",
+ " [0., 0., 0., 0.],\n",
+ " [0., 0., 0., 0.],\n",
+ " [0., 0., 0., 0.],\n",
+ " [0., 0., 0., 0.]]\n",
+ "\n",
+ "# Definimos el factor de descuento\n",
+ "gamma = 0.8\n",
+ "\n",
+ "# Definimos el número de episodios\n",
+ "num_episodes = 100\n",
+ "\n",
+ "# Definimos la función Q-Learning\n",
+ "def Q_learning(state, action):\n",
+ " next_state = state_transitions[state][action]\n",
+ " if next_state == 5:\n",
+ " Q[state][Q_rows[action]] = rewards[state][Q_rows[action]]\n",
+ " else:\n",
+ " Q[state][Q_rows[action]] = rewards[state][Q_rows[action]] + gamma * max(Q[next_state])\n",
+ " return\n",
+ "\n",
+ "# Ejecutamos el algoritmo Q-Learning\n",
+ "for i in range(num_episodes):\n",
+ " state = random.randint(0, 4)\n",
+ " action, next_state = random.choice(list(state_transitions[state].items()))\n",
+ " while True:\n",
+ " Q_learning(state, action)\n",
+ " if next_state == 5:\n",
+ " break\n",
+ " else:\n",
+ " state = next_state\n",
+ " action, next_state = random.choice(list(state_transitions[state].items()))\n",
" \n",
- "from tabulate import tabulate\n",
- "print(tabulate(Q, tablefmt=\"grid\"))"
+ "\n",
+ "# Mostramos la tabla Q\n",
+ "print(\"Tabla Q:\")\n",
+ "for i in range(5):\n",
+ " print(Q[i])"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
- "Fórmula de actualización de la matriz $Q$ \n",
+ "### **Algoritmo Q-Learning con tasa de aprendizaje**\n",
"\n",
- "$$Q(s,a) = R(s,a) + \\gamma max[Q(s',a')]$$"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 5,
- "metadata": {},
- "outputs": [],
- "source": [
- "def qlearning(s, a):\n",
- " Q[s][a] = rewards[s][a] + discount * max(Q[a])\n",
- " return"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 8,
- "metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "+----+----+------+----+----+-----+\n",
- "| 0 | 0 | 0 | 0 | 80 | 0 |\n",
- "+----+----+------+----+----+-----+\n",
- "| 0 | 0 | 0 | 64 | 0 | 100 |\n",
- "+----+----+------+----+----+-----+\n",
- "| 0 | 0 | 0 | 64 | 0 | 0 |\n",
- "+----+----+------+----+----+-----+\n",
- "| 0 | 80 | 51.2 | 0 | 80 | 0 |\n",
- "+----+----+------+----+----+-----+\n",
- "| 64 | 0 | 0 | 64 | 0 | 100 |\n",
- "+----+----+------+----+----+-----+\n",
- "| 0 | 0 | 0 | 0 | 0 | 0 |\n",
- "+----+----+------+----+----+-----+\n"
- ]
- }
- ],
- "source": [
- "for _ in range(100):\n",
- "\n",
- " s = random.randint(0, 4)\n",
- " \n",
- " keep = True\n",
- " while keep:\n",
- " a = random.randint(0, 5)\n",
- " while rewards[s][a] == -1:\n",
- " a = random.randint(0, 5)\n",
- " qlearning(s, a)\n",
- " s = a\n",
- " if s == final_state:\n",
- " keep = False \n",
- " \n",
- "print(tabulate(Q, tablefmt=\"grid\"))"
+ "El algoritmo Q-Learning con tasa de aprendizaje es una variante del algoritmo Q-Learning básico. La diferencia radica en que se introduce un factor de aprendizaje $\\alpha$ que modula la actualización de la tabla $Q$. La fórmula de actualización de la tabla $Q$ es:\n",
+ "\n",
+ "$$Q(s,a) = (1-\\alpha) Q(s,a) + \\alpha[R(s,a) + \\gamma max[Q(s',a')]]$$\n",
+ "\n",
+ "donde $\\alpha$ es la tasa de aprendizaje. La utilidad de la tasa de aprendizaje es que permite que la tabla $Q$ se actualice de forma más suave, evitando oscilaciones bruscas en los valores de la tabla. Además, permite que el entorno pueda cambiar y que el agente pueda adaptarse a esos cambios.\n",
+ "\n"
]
},
{
@@ -310,7 +505,7 @@
"collapsed": true
},
"source": [
- "### Ejercicios prácticos"
+ "### **Ejercicios prácticos**"
]
},
{
@@ -327,20 +522,11 @@
"\n",
"* ¿Qué pasaría si el factor $\\gamma$ fuera $1$?\n"
]
- },
- {
- "cell_type": "code",
- "execution_count": null,
- "metadata": {
- "collapsed": true
- },
- "outputs": [],
- "source": []
}
],
"metadata": {
"kernelspec": {
- "display_name": "Python 3 (ipykernel)",
+ "display_name": "env",
"language": "python",
"name": "python3"
},
diff --git a/ia/nbpy/rl-02.ipynb b/ia/nbpy/rl-02.ipynb
index 3deb1c61..401d7082 100644
--- a/ia/nbpy/rl-02.ipynb
+++ b/ia/nbpy/rl-02.ipynb
@@ -4,7 +4,16 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "# Aprendizaje por refuerzo\n",
+ "
\n",
+ " \n",
+ "
"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "# **Aprendizaje por refuerzo 2**\n",
"\n",
"Hemos visto ya cómo funciona el algoritmo **Q-Learning** en su versión simplificada. Ahora dotaremos de mayor formalismo al aprendizaje por refuerzo. Comenzaremos estudiando lo que significa que un sistema tenga la **propiedad de Markov**. Esto nos permitirá modelar un problema de aprendizaje por refuerzo como un conjunto de estados y transiciones probabilísticas entre estados por donde un agente va a transitar.\n",
"\n",
@@ -19,7 +28,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "## Propiedad de Markov\n",
+ "## **Propiedad de Markov**\n",
"\n",
"Consiste en que la evolución de un sistema dependa exclusivamente de su estado y de la acción realizada. Es decir, su evolución no depende de los estados anteriores ni de las acciones anteriores. Se dice que el sistema \"no tiene memoria\". Matemáticamente se expresaría así:\n",
"\n",
@@ -44,7 +53,7 @@
"Esto puede generar cadenas de estados, como por ejemplo \"$soleado \\rightarrow nublado \\rightarrow nublado \\rightarrow lluvioso$\" con una cierta probabilidad de ocurrencia. A estas cadenas las denominamos **cadenas de Markov**.\n",
"\n",
"\n",
- "## Recompensa y retorno\n",
+ "## **Recompensa y retorno**\n",
"\n",
"Las recompensas son los valores numéricos que recibe el agente al realizar alguna acción en algunos estados del entorno. El valor numérico puede ser positivo o negativo en función de las acciones del agente. En el aprendizaje por refuerzo nos preocupamos por maximizar la recompensa acumulada (todas las recompensas que el agente recibe del entorno) en lugar de las recompensas que recibe en el estado actual (también llamada recompensa inmediata). Esta suma total de recompensas que el agente recibe del entorno lo denominaremos **retorno**.\n",
"\n",
@@ -55,7 +64,7 @@
"donde $r_{t+1}$ es la recompensa que recibirá el agente en $t$ al realizar la acción $a$. $T$ es el instante final. El objetivo del aprendizaje por refuerzo es maximizar el retorno esperado.\n",
"\n",
"\n",
- "### Retorno con descuento\n",
+ "### **Retorno con descuento**\n",
"\n",
"El **factor de descuento $\\gamma$** determina cuánta importancia se debe dar a la recompensa inmediata y cuánta a las recompensas futuras. Básicamente, esto nos ayuda a evitar un valor de retorno infinito en tareas continuas. El factor $\\gamma$ debe tener un valor mayor que 0 y menor que 1. Un valor cercano al 0 significa que se le da más importancia a la recompensa inmediata y un valor cercano a 1 significa que se le da más importancia a las recompensas futuras. Por lo tanto, los valores comunes para el factor de descuento se encuentran entre 0.2 y 0.8. Por tanto, definimos el **retorno** con **factor de descuento** como: \n",
"\n",
@@ -74,26 +83,24 @@
},
{
"cell_type": "code",
- "execution_count": 939,
+ "execution_count": 2,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
- "Retorno: 134.98205542205693\n"
+ "Retorno: 134.9820554220569\n"
]
},
{
"data": {
- "image/png": "\n",
+ "image/png": "",
"text/plain": [
- ""
+ ""
]
},
- "metadata": {
- "needs_background": "light"
- },
+ "metadata": {},
"output_type": "display_data"
}
],
@@ -140,7 +147,7 @@
"$$ G = \\frac{27}{0.2} = 135 $$\n",
"\n",
"\n",
- "### Proceso de recompensa de Markov (MRP)\n",
+ "### **Proceso de recompensa de Markov (MRP)**\n",
"\n",
"La siguiente figura muestra un grafo con varias transiciones entre estados y sus probabilidades de ocurrencia. \n",
"\n",
@@ -177,17 +184,17 @@
},
{
"cell_type": "code",
- "execution_count": 905,
+ "execution_count": 4,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
- "Retorno medio para el estado 0 : 90.95110629090061\n",
- "Retorno medio para el estado 1 : 108.20844548983852\n",
- "Retorno medio para el estado 2 : 57.60614596515345\n",
- "Retorno medio para el estado 3 : 57.74389486364507\n"
+ "Retorno medio para el estado 0 : 90.99582369994424\n",
+ "Retorno medio para el estado 1 : 107.93998665924593\n",
+ "Retorno medio para el estado 2 : 57.21597346531888\n",
+ "Retorno medio para el estado 3 : 57.900204444056364\n"
]
}
],
@@ -225,17 +232,17 @@
" hist.append(GE/(episode+1))\n",
"\n",
" print(\"Retorno medio para el estado\",s,\":\", hist[-1])\n",
- " #plt.plot(hist)\n",
- " #plt.xlabel(\"Número de episodios\")\n",
- " #plt.ylabel(\"Retorno medio\")\n",
- " #plt.show()"
+ " # plt.plot(hist)\n",
+ " # plt.xlabel(\"Número de episodios\")\n",
+ " # plt.ylabel(\"Retorno medio\")\n",
+ " # plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
- "### Problemas episódicos y problemas continuos\n",
+ "### **Problemas episódicos y problemas continuos**\n",
"\n",
"Un problema **episódido** es aquel en el que existe un estado final. Por ejemplo, un juego en el que se gana o se pierde. Un **episodio** consiste en una secuencia de pasos desde un estado inicial a un estado final.\n",
"\n",
@@ -248,7 +255,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "## Ecuaciones de Bellman\n",
+ "## **Ecuaciones de Bellman**\n",
"\n",
"Podemos llegar a otra forma de calcular lo anterior mediante las ecuaciones de Bellman. Para esto, calcularemos una función de valor $V(s)$ que nos dará para cada estado $s \\in S$ el retorno esperado.\n",
"\n",
@@ -276,14 +283,14 @@
},
{
"cell_type": "code",
- "execution_count": 909,
+ "execution_count": 17,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
- "V = [ 90.80343965 108.29467228 57.40289979 58.02570534]\n"
+ "V = [ 90.7298298 108.20152879 57.32091389 57.94255022]\n"
]
}
],
@@ -308,10 +315,10 @@
"\n",
"while True:\n",
" V_new = R + gamma * np.dot(P,V) # np.dot(P,V) es la multiplicación de la matriz P por el vector V\n",
- " conv = np.abs(V - V_new).sum()\n",
+ " conv = ((V - V_new)**2).sum()\n",
" # print(\"Convergencia:\", conv)\n",
" V = V_new\n",
- " if conv < 0.1:\n",
+ " if conv < 0.01:\n",
" break\n",
"\n",
"print(\"V =\", V)"
@@ -345,7 +352,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "#### Matriz de recompensas\n",
+ "#### **Matriz de recompensas**\n",
"\n",
"Hasta ahora hemos utilizado el vector de recompensas $R$, lo cual indica que llegados a un estado $s$ obtendremos la recompensa $R(s)$. A partir de ahora generalizaremos las recompensas con la matriz $R^a_{s,s'}$ que indica que la recompensa vendrá dada por el estado $s$ del que se parte, por la acción $a$ que se tome y por el estado $s'$ al que llegue\n"
]
@@ -354,7 +361,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "### Función $V$ y función $Q$\n",
+ "### **Función $V$ y función $Q$**\n",
"\n",
"Hemos introducido la función $V$, que denominaremos **función de valor de estado**. Introduciremos ahora la función $Q$ que llamaremos **función de valor de estado-acción**. Como ya hemos visto, $V(s)$ representa el retorno esperado que tendríamos a partir de un estado $s$. $Q(s,a)$ es el retorno esperado que tendríamos a partir del estado $s$ si ejecutamos la acción $a$. Por tanto:\n",
"\n",
@@ -401,7 +408,7 @@
"$$ \n",
"\n",
"\n",
- "#### Transiciones no deterministas\n",
+ "#### **Transiciones no deterministas**\n",
"\n",
"Hasta ahora hemos supuesto que al estar en el estado $s$ y ejecutar la acción $a$ nos vamos al estado $s’$. Pero esto no siempre tiene por qué ser así. Si estamos programando un agente para que aprenda a jugar al ajedrez y le decimos que ejecute la acción “mover el peón ‘x’ una casilla hacia adelante”, pasaremos de un estado del juego a otro de una forma totalmente determinista. Pero si estamos enseñando al agente a jugar al parchís y ejecutamos la acción “tirar el dado” podemos irnos a seis estados distintos de una manera estocástica. Por lo tanto, en muchos contextos distintos, ejecutar la acción $a$ no nos garantiza llegar al estado $s’$, sino solo una probabilidad de llegar a ese estado.\n",
"\n",
@@ -423,7 +430,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "## Value Iteration\n",
+ "## **Value Iteration**\n",
"\n",
"Ha llegado el momento de concretar nuestra política $\\pi$. ¿Cómo vamos a seleccionar las acciones a realizar para que el retorno sea máximo desde cada estado? Teniendo presente lo que acabamos de ver sobre las transiciones no deterministas, volvamos a retomar, por sencillez, la funcion $V$ y $Q$ con transiciones deterministas.\n",
"\n",
@@ -457,7 +464,7 @@
"\n",
"\n",
"\n",
- "## Policy Iteration\n",
+ "## **Policy Iteration**\n",
"\n",
"El método **value iteration** termina cuando los valores de $V$ convergen. En ese momento, la tabla $Q$ actuará como política y podrá guiar las acciones del agente de manera óptima. Sin embargo, podríamos obtener una política óptima incluso antes de que la tabla $V$ converja. Esto es lo que intenta hacer el método **policy iteration**.\n",
"\n",
@@ -564,18 +571,11 @@
"\n",
"En la mayoría de las ocasiones, **policy iteration** llega a una política correcta antes que **value iteration** ya que no es necesario que la tabla $V$ converja completamente.\n"
]
- },
- {
- "cell_type": "code",
- "execution_count": null,
- "metadata": {},
- "outputs": [],
- "source": []
}
],
"metadata": {
"kernelspec": {
- "display_name": "Python 3 (ipykernel)",
+ "display_name": "env",
"language": "python",
"name": "python3"
},
diff --git a/ia/nbpy/rl-03.ipynb b/ia/nbpy/rl-03.ipynb
index 7692f8fb..671ae9ad 100644
--- a/ia/nbpy/rl-03.ipynb
+++ b/ia/nbpy/rl-03.ipynb
@@ -4,7 +4,16 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "# Aprendizaje por refuerzo\n",
+ "
\n",
+ " \n",
+ "
"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "# **Aprendizaje por refuerzo 3**\n",
"\n",
"Todo lo que hemos visto en los apuntes anteriores corresponden a soluciones basadas en [programación dinámica]( https://es.wikipedia.org/wiki/Programación_dinámica). Su principal característica es que son solamente aplicables cuando se conoce *a priori* todo el entorno en el que el agente se va a desenvolver. Es decir, conocemos cuáles son las recompensas en cada estado y las probabilidades de transición entre estados. Como imaginarás, esto no es siempre posible en situaciones reales, por tanto, necesitamos desarrollar métodos que busquen políticas óptimas mediante la exploración y la exploración. Veremos los métodos basados en estrategias de Monte Carlo y basadas en diferencias temporales."
]
@@ -13,7 +22,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "## Monte Carlo\n",
+ "## **Monte Carlo**\n",
"\n",
"La **Programación Dinámica** exige un conocimiento *a priori* del comportamiento del entorno $P_{s,s'}^a$ y $R_{s,s'}^a$ para poder evaluar y actualizar las políticas. Pero, ¿qué ocurre cuando el comportamiento del entorno es desconocido? Los métodos de **Monte Carlo** consisten en evaluar una política estudiando las recompensas obtenidas por el agente al actuar sobre el entorno. Para eso es necesario realizar numerosos episodios partiendo de diferentes estados iniciales, lo que permite obtener una estimación del retorno esperado a partir de los diferentes estados.\n",
"\n",
@@ -44,7 +53,7 @@
"- Para evitar lo segundo, se utilizan políticas con carácter exploratorio, como $\\epsilon$*-greedy*.\n",
"\n",
"\n",
- "#### Algoritmo\n",
+ "#### **Algoritmo**\n",
"\n",
"El algoritmo para estimar la función acción-valor es el siguiente:\n",
"\n",
@@ -76,7 +85,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "## Diferencias temporales\n",
+ "## **Diferencias temporales**\n",
"\n",
"Los métodos de **Monte Carlo** permiten aprender la política óptima sin necesidad de conocer el comportamiento del entorno, pero requiere realizar episodios completos para poder actualizar la estimación de $V(s)$ o de $Q(s,a)$. La **programación dinámica** permite actualizar los valores de $V(s)$ o de $Q(s,a)$ estudiando los estados vecinos, sin necesidad de realizar episodios completos, pero necesita conocer el comportamiento del entorno.\n",
"\n",
@@ -108,19 +117,25 @@
"Este algoritmo se conoce como **TD(0)**. El factor $\\alpha$ garantiza, además, que el agente se adapte a entornos no estacionarios, es decir, entornos en los que $P_{s,s'}^a$ y $R_{s,s'}^a$ varíen en el tiempo.\n",
"\n",
"\n",
- "#### Algoritmo\n",
+ "#### **Algoritmo**\n",
"\n",
- "```python\n",
- "while noConvergencia:\n",
- " Inicializar episodio\n",
- " while duraEpisodio:\n",
- " a = Π(s) # Acción elegida por la política en el estado s\n",
- " r, s’ = EjecutarAcción(a) # Recompensa y estado tras la transición\n",
- " V[s] = V[s] + alpha * ( r + gamma * V(s’) – V(s) )\n",
- " s = s’\n",
+ "```raw\n",
+ "Inicializar el valor de los estados V(s) arbitrariamente para todos los estados s\n",
+ "Repetir para cada episodio:\n",
+ " Inicializar el estado s\n",
+ " \n",
+ " Mientras el estado s no sea terminal:\n",
+ " Seleccionar una acción a basada en la política actual π(s)\n",
+ " Tomar la acción a y observar la recompensa r y el nuevo estado s'\n",
+ " Actualizar el valor del estado V(s):\n",
+ " V(s) = V(s) + α * [r + γ * V(s') - V(s)]\n",
+ " s = s' # Moverse al nuevo estado\n",
+ "\n",
+ "Fin del episodio\n",
"```\n",
"\n",
- "### Sarsa: State–action–reward–state–action \n",
+ "\n",
+ "### **Sarsa: State–action–reward–state–action**\n",
"\n",
"Este algoritmo es similar al anterior, pero haciendo uso de la **función acción-valor** $Q(s,a)$ en lugar de la **función valor** $V(s)$. Para ello, actualizamos $Q$ de la siguiente forma:\n",
"\n",
@@ -129,22 +144,28 @@
"$$\n",
"\n",
"\n",
- "#### Algoritmo\n",
+ "#### **Algoritmo**\n",
+ "\n",
+ "```raw\n",
+ "Inicializar la tabla Q(s, a) arbitrariamente\n",
+ "Repetir para cada episodio:\n",
+ " Inicializar el estado s\n",
+ " Seleccionar una acción a usando la política derivada de Q (por ejemplo, ϵ-greedy)\n",
+ "\n",
+ " Mientras el estado s no sea terminal:\n",
+ " Tomar la acción a y observar la recompensa r y el nuevo estado s'\n",
+ " Seleccionar una acción a' en el nuevo estado s' usando la política derivada de Q (por ejemplo, ϵ-greedy)\n",
+ " Actualizar Q(s, a):\n",
+ " Q(s, a) = Q(s, a) + α [r + γ * Q(s', a') - Q(s, a)]\n",
+ " s = s' # Moverse al nuevo estado\n",
+ " a = a' # Moverse a la nueva acción seleccionada\n",
+ "\n",
+ "Fin del episodio\n",
"\n",
- "```python\n",
- "while noConvergencia:\n",
- " Inicializar episodio\n",
- " a = Π(s) # Acción elegida por la política en el estado s\n",
- " while duraEpisodio:\n",
- " r, s’ = EjecutarAcción(a) # Recompensa y estado tras la transición\n",
- " a’ = Π(s’) # Acción elegida por la política en el estado s’\n",
- " Q[s,a] = Q[s,a] + alpha * ( r + gamma * Q(s’,a’) – Q(s,a) )\n",
- " s = s’\n",
- " a = a’\n",
"```\n",
"\n",
"\n",
- "### Q-learning\n",
+ "### **Q-learning**\n",
"\n",
"El algoritmo Q-learning se basa en no tomar directamente el valor de $Q(s’,a’)$ dada por la política $\\pi$ (como en *Sarsa*), sino escoger el máximo valor de $Q$ en es el estado $s’$.\n",
"\n",
@@ -154,19 +175,25 @@
"$$\n",
"\n",
"\n",
- "#### Algoritmo\n",
+ "#### **Algoritmo**\n",
+ "\n",
+ "```raw\n",
+ "Inicializar la tabla Q(s, a) arbitrariamente\n",
+ "Repetir para cada episodio:\n",
+ " Inicializar el estado s\n",
+ "\n",
+ " Mientras el estado s no sea terminal:\n",
+ " Seleccionar una acción a usando la política derivada de Q (por ejemplo, ϵ-greedy)\n",
+ " Tomar la acción a y observar la recompensa r y el nuevo estado s'\n",
+ " Actualizar Q(s, a):\n",
+ " Q(s, a) = Q(s, a) + α [r + γ * max(Q(s', a')) - Q(s, a)]\n",
+ " s = s' # Moverse al nuevo estado\n",
+ "\n",
+ "Fin del episodio\n",
"\n",
- "```python\n",
- "while noConvergencia:\n",
- " Inicializar episodio\n",
- " while duraEpisodio:\n",
- " a = Π(s) # Elegir acción utilizando una política (p.e. ε-greedy)\n",
- " (r, s’) = EjecutarAcción(a) # Recompensa y estado tras la transición\n",
- " Q(s,a) = Q(s,a) + α · [ r + γ · maxa’( Q(s’,a’)) – Q(s,a) ]\n",
- " s = s’\n",
"```\n",
"\n",
- "### TD(1), TD(2),...\n",
+ "### **TD(1), TD(2),...**\n",
"\n",
"Los algoritmos TD(0), Sarsa y Q-learning realizan una estimación del retorno esperado $R_t$ de un estado en un único paso:\n",
"\n",
@@ -198,7 +225,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "### Métodos on-policy y off-policy\n",
+ "### **Métodos on-policy y off-policy**\n",
"\n",
"La filosofía de TD(0) y *Sarsa* es desarrollar muchos episodios para evaluar una política. Una vez evaluada correctamente se actualiza la política y se vuelve a evaluar. Para generar los nuevos episodios se utiliza la política a evaluar. Esto se conoce como métodos **on-policy**. Por el contrario, se denominan métodos **off-policy** a aquellos en los que la actualización de los valores no se basa en la política a evaluar sino en una búsqueda directa de la política óptima, como, por ejemplo, el método *Q-Learning*.\n",
"\n",
@@ -220,6 +247,11 @@
"La diferencia está en que el algoritmo *Q-Learning* ha actualizado $Q$ haciendo uso de la acción $a’$ sobre $s’$ que mayor valor le ofrece. Por tanto, la acción $a’$ no ha venido seleccionada por la política $\\pi$, (*off-policy*). Sin embargo, en el algoritmo *Sarsa* la actualización se lleva a cabo por $Q(s’,a’)$ en donde $a’$ sí ha venido dada por la política $\\pi$, (*on-policy*).\n",
"\n"
]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": []
}
],
"metadata": {
diff --git a/ia/rl/.DS_Store b/ia/rl/.DS_Store
index 9e2267a4..5d7c638c 100644
Binary files a/ia/rl/.DS_Store and b/ia/rl/.DS_Store differ