Aprendizaje Por Refuerzo
Existen algunas formas de aprendizaje de los agentes inteligentes, el aprendizaje entra en juego cuando el agente observa sus iteraciones con el mundo y sus procesos de tomade decisiones. Existen tres formas de aprendizaje: Aprendizaje supervisado, no supervisado y el aprendizaje por refuerzo.
El aprendizaje por refuerzo consiste en aprender a decidir, ante unasituación determinada, que acción es la más adecuad para lograr un objetivo. Consta de dos componentes. Componente selectiva que involucra la selección de la mejor acción a ejecutar de entre varias opciones yla componente asociativa, en el sentido de que las alternativas encontradas se asocian a situaciones particulares en que se tomaron.
El aprendizaje por refuerzo es adecuado cuando no existe unconocimiento “a priori” del entorno o este es demasiado complejo como para utilizar otros métodos.
MODELO DE APRENDIZAJE POR REFUERZO
Un agente hardware y software está conectado a su entorno víapercepción y acción. En cada instante el agente recibe desde l entorno a través de sensores el estado en el que se encuentra, s; entonces el agente decide ejecutar una acción, a , que genera como salida.Esta salida cambia el estado del entorno a s’, que es transmitido al agente junto a una señal de refuerzo r. esta señal informa al agente de la utilidad de ejecutar la acción a, desde el estado s paralograr un objetivo concreto. Este modelo se ilustra en la siguiente figura:
Figura1. Modelo de Aprendizaje por Refuerzo
El aprendizaje puede ser pasivo y activo.
En el aprendizaje pasivo lapolítica del agente está fijada y la tarea es aprender las utilidades de los estados (o parejas estado acción) mientras que el aprendizaje activo el agente debe aprender también que hacer. El esfuerzo activoademás de recoger información del entorno utilizará ésta para tomar decisiones sobre la siguiente acción a realizar.
El objeto del aprendizaje mediante el refuerzo es un comportamiento que...
Regístrate para leer el documento completo.