Reforzamiento para el aprendizaje

Solo disponible en BuenasTareas
  • Páginas : 5 (1194 palabras )
  • Descarga(s) : 0
  • Publicado : 8 de junio de 2011
Leer documento completo
Vista previa del texto
REFORZADORES SECUNDARIOS EN EL CONDICIONAMIENTO OPERANTE
Seguramente se habrá dado cuenta de que el condicionamiento clásico y el operante obran a veces de manera conjunta. En concreto, podemos usar los principios del condicionamiento clásico para explicar porque el aprendizaje operante es especial al humano no se limita a reforzadores como la comida ni al estimulo punitivos dolorosos.
Algunosreforzadores como la comida y el agua y el sexo son intrisicantemante satisfactorio.
Y se le llama reforzadores primitivos no se requiere aprendizaje previo para que refuerce la conducta otros no posee valor intrínseco pero adquieren el valor y el sentido de recompensa asociándose con los primarios. Se llama reforzadores secundarios no porque sean menores importantes sino porque se requiere unaprendizaje o condicionamiento previo para que fusioné como tales.
El dinero es excelente ejemplo como reforzador secundario. Auque no se mas que papel o metal, sea a convertido en potente reforzador porque puede cambiarse por comida por ropa y otros reforzadores primarios.
PROGRAMA DE REFORZAMIENTO:
En el condicionamiento aparente se refiere a la regla con que se determina cuando con quefrecuencia se entregara los reforzadores.
REFORAZAMIENTO CONTINUO:
Es cuando recibimos una respuesta o recompensa cada voz que hacemos algo.
REFORZAMIENTO PARCIAL O INTERMITENTE:
Es cuando se recibe una respuesta o recompensa, esporádicamente.
Se aprende a no esperarlo en todas sus respuestas por lo tanto siguen respondiendo con la esperanza de obtener finalmente la recompensa deseada.REFORZAMIENTO O CASTIGO VICARIOS:
Reforzamientos o castigo experimentados por ciertos modelos, dicho reforzamiento influye en la disposición del observador para realizar las conductas que aprendió viendo a los modelos.
Aprendizaje por reforzamiento
Define la manera de comportarse de un agente a un tiempo dado en un tiempo exacto. Puede verse como un mapeo entre los estados del ambiente que elagente percibe y las acciones que toma, cuando se encuentra en esos estados. Corresponde a lo que en psicología se conoce como reglas estimulo-respuesta o asociaciones. Este elemento es central ya que por si sólo es suficiente para determinar el comportamiento.
Función de reforzamiento
Define la meta en un problema de RL, al mapear cada percepción del agente (estado del ambiente o par estado, acción)a un número (recompensa) que indica que tan deseable es ese estado. El objetivo del agente es maximizar la recompensa recibida a largo plazo. De esta forma, la función define qué eventos son buenos y malos para el agente, por lo que la función es necesariamente inalterable por las acciones del agente. Debe, sin embargo, servir como base para alterar la política, por ej., si una acción elegida porla política recibe una recompensa muy baja, la política debe cambiarse para elegir una acción diferente en esa situación. Una función de reforzamiento por lo general es estocástica. Es un fortalecimiento del ser humano para poder comprender de la mejor manera cualquier lectura.
Función de evaluación
Mientras que la función de reforzamiento indica lo que es bueno en lo inmediato, la función deevaluación lo hace a largo plazo. Puede verse como la cantidad total de recompensa que el agente espera recibir en el tiempo, partiendo de un estado en particular. La recompensa determina la bondad inmediata de un estado, el val también sirve mucho leer poquito por or representa la bondad a largo plazo del mismo, tomando en cuenta los estados a los que podría conducir. La mayoría de los algoritmosRL operan estimando la función de valuación, aunque los algoritmos genéticos, la programación genética, y el recocido simulado, pueden resolver problemas de RL sin considerar valores, buscando directamente en el espacio de políticas. Observen que en éstos métodos evolutivos operan bajo un concepto diferente de interacción dado por el valor de adaptación.
Modelo del ambiente
Los modelos...
tracking img