Domjan - Tema 6

1

Programas de reforzamiento y conducta de elección

Domjan, Capítulo 6

Programas de reforzamiento

En la vida real, no siempre que damos una respuesta aparecerá el reforzador.

El programa de reforzamiento determina cuándo la ocurrencia de la respuesta va a ir seguida de un reforzador.

n1, n2, n3...

2


Programa de reforzamiento continuo: Cada respuesta correcta es reforzada.

Ej: Interruptor de la luz, botón del mando a distancia…

R Ref R Ref R Ref


Programa de reforzamiento continuo: Cada respuesta correcta es reforzada.

Programa de reforzamiento parcial o intermitente:No todas las respuestas correctas son reforzadas.

Y estos pueden ser de varios

tipos...

3


Programas de RAZÓN:El reforzador se otorga en función del número de respuestas.

Razón Fija: El número de respuestas necesarias para obtener un reforzador es siempre el mismo.Ej: RF5 = Cada 5 respuestas, me dan un premio.El programa de RF1 es un programa de reforzamiento continuo.Produce pausas post-reforzamiento.

Razón Variable: El número de respuestas necesarias para obtener un reforzador va variando.Ej: RV5 = Cada 5 respuestas de media, me dan un premio.


Res

pues

t as

Tiempo

Pausas post-reforzamiento

RF10RV10

Carrera de razón: el animal mantiene una tasa de respuesta alta y estable hasta que lo refuerzan.

Tensión de la razón: Si la razón aumenta mucho de golpe, el animal puede dejar de responder. Estaba acostumbrado a responder X por un reforzador, y cuando le pedimos mucho más, desiste.

4

00:05


Programas de INTERVALO:El reforzador se otorga en función del tiempo que ha transcurrido desde el último reforzador (Pero todavía hay que responder al menos 1 vez para obtener el reforzador).

00:0400:0300:0200:0100:00

RReforzadorReforzador


Programas de INTERVALO:El reforzador se otorga en función del tiempo que ha transcurrido desde el último reforzador (Pero todavía hay que responder al menos 1 vez para obtener el reforzador).

Intervalo Fijo: El tiempo que pasa entre dos reforzamientos es siempre el mismo.Ej: IF5 = Cada 5 segundos, el reforzador está disponible(cada 5 segundos, si respondo me dan un premio).Produce pausas post-reforzamiento y aceleración pre-reforzamiento (Patrón “festoneado”).Intervalo Variable: El tiempo que pasa entre dos reforzadores va variando.Ej: IV5 = Cada 5 segundos de media, el reforzador está disponible.

5


Res

pues

t as

Tiempo

IF10

IV10

Patrón “festoneado”

Pone a prueba la capacidad de “contar el tiempo”.

Aceleración de la Respuesta


Pregunta:Los exámenes de la universidad, ¿qué tipo de programa de reforzamiento serían?

Solución:Un programa de Intervalo Fijo. La conducta es la esperada en este tipo de programas: se responde sólo al final del intervalo, y de forma acelerada.

6


Pregunta:Las máquinas tragaperras ¿Qué programa de reforzamiento utilizan?

Solución:Un programa de Razón Variable. Por eso son tan adictivas, producen una tasa de respuesta estable y persistente.


Pregunta:Un vendedor de frutos secos que saca un beneficio por cada bolsa de pipas vendida. ¿Qué programa de reforzamiento sería?

Solución:Un programa de Razón Fija, de hecho es un programa de reforzamiento continuo.

7


Tiempo

RV

IF

IV RF


¿Cuál produce más respuesta?Los programas que más respuestas producen son los de razón (porque en los de intervalo el reforzador se obtiene por esperar al momento idóneo, no por dar un número determinado de respuestas).

8


¿Cuál produce más respuesta?

Los programas fijos producen menos respuestas que los variables porque son más predecibles. Además son más fáciles de extinguir (tema 9).

De modo que el programa más efectivo para crear respuesta es el de razón variable (ej: máquina tragaperras, por eso son tan “adictivas” y peligrosas).


Además de las respuestas independientes, también podemos reforzar la tasa de respuesta (la velocidad a la que se dan las respuestas).

Ejemplo: quiero que un animal dé, como mínimo, 12 respuestas por minuto. Entonces, le doy el reforzador sólo si produce una respuesta en los 5 segundos siguientes a la anterior respuesta. Si responde cada 5 segundos o menos, tiene una tasa de 12 respuestas por minuto, lo que yo quería.Si tarda más de 5 segundos en responder, no es reforzado aunque responda. Eso hará que se vuelva más rápido en el futuro.

9

Programas concurrentes

Ahora queremos investigar la conducta de elección.

Si te dejan elegir, ¿qué prefieres hacer?

En los programas concurrentes se deja elegir al animal entre dos programas de reforzamiento.

A B

Programa A:IV 60 seg.

Programa B:RF 10.

¿?


A B


Programa B:RF 10.

¿?

Para saber qué programa prefiere seguir la paloma, recurrimos a la tasa relativa de respuesta.

Tasa relativa de respuesta de la tecla A =

Si la paloma no tiene ninguna preferencia en especial, la tasa relativa se queda en 0,5.

RARA+RB

10


A B


Programa B:RF 10.

¿?

Para saber qué programa administra más reforzadores a la paloma, recurrimos a la tasa relativa de reforzamiento.

Tasa relativa de reforzamiento de la tecla A =

Si la paloma recibe reforzadores con la misma frecuencia en cada lado, la tasa relativa se queda en 0,5.

rArA+rB


Ley de la igualación (Herrnstein)La tasa de respuesta = tasa de reforzamiento.

O sea, que la paloma responde más en el programa que más reforzadores le proporciona.

Si te dejan escoger entre pasar una tarde en el cine o paseando con un amigo, escogerás probablemente la actividad más reforzante.

rArA+rB

RARA+RB

11


Infraigualación, supraigualación y sesgo de respuestaA veces la ley de la igualación no se cumple, y en esos casos se cumple esta norma:

= b( )sRARB

rArB

El parámetro s es la sensibilidad de la conducta de elección a las tasas de reforzamiento (“cuánto me afecta la tasa de reforzamiento de este programa”). Una buena comida es reforzante, pero si no me gustan los pescados a lo mejor no eligiría ese menú (sensibilidad).

El parámetro b es el sesgo (bias) de respuesta. Es una preferencia por uno de los dos programas en particular, incluso aunque proporcione la misma tasa de reforzamiento que el otro (por ejemplo, la respuesta en sí puede ser más cómoda).Ir al gimnasio podría ser más reforzante que ver la televisión (porque produce un beneficio a largo plazo), pero como la respuesta es costosa, puede que prefiramos quedarnos en casa (sesgo de respuesta).


Infraigualación, supraigualación y sesgo de respuesta

= b( )s

Infraigualación: El animal tiene una tasa de respuesta menor que la tasa de reforzamiento (recibe muchos reforzadores, pero no responde mucho), es como si los reforzadores obtenidos no produjeran mucho efecto en su elección. El parámetro sensibilidad (s) es < 1.

Supraigualación: El animal responde más de lo que le correspondería en función de su tasa de reforzamiento La sensibilidad es >1.

En realidad, en estas relaciones influyen tanto la cantidad como la calidad del reforzador: si es un reforzador valioso, unos poquitos bastan para que el animal prefiera ese programa a otro.

RARB

rArB

12


En el “deporte” del zappingtenemos un ejemplo de programas concurrentes.


Abuelita A Abuelita B

h

s

BA

A

BA

A

rrr

bRR

R)(

+=

+

13


Abuelita A Abuelita B

s

BA

A

BA

A

rrr

bRR

R)(

+=

+


La ley de la igualación también puede aplicarse a programas sencillos de reforzamiento (no a la elección en programas concurrentes):

Realizar cualquier conducta supone una elección (elegimos realizar esa conducta en vez de hacer cualquier otra cosa). Si una conducta no me “refuerza” más que cualquier otra alternativa, si no es atractiva, es poco probable que la realice.

14


¿Qué determina los cambios de un programa a otro?

-Teorías de la maximización molecular: El animal hace un cambio de programa para obtener un reforzador determinado.

-Teorías de la maximización molar: El animal hace los cambios precisos para obtener el máximo de reforzadores a la larga.

-Teoría del mejoramiento: El animal cambia para obtener una tasa local de reforzamiento mejor que la actual.

Tasa local de reforzamiento en el programa A: Número de reforzadores obtenidos durante el tiempo que se ha dedicado al programa A.

La alternancia de programas continúa hasta que las tasas locales se igualan.


Mecanismo del Mejoramiento

Programa A: IV1min

Programa B: IV3min

En una sesión de 30 min, entre los 2 programas hay un máximo de 40 reforzadores posibles (30+10).Si la paloma se queda sólo en el programa A, no obtiene más que 30 reforzadores.

1. La paloma empieza con el programa A, porque ofrece la mayor tasa de reforzamiento (30/30).

2. Prueba por azar a responder un par de veces en la tecla B, y como las respuestas están espaciadas consigue reforzadores.

3. Eso eleva mucho la tasa local de reforzamiento en B: le ha dedicado poco tiempo y ha obtenido muchos reforzadores. Por eso cambia a B.

4. El proceso se repite hasta que las tasas locales de A y B se igualan. Ya no hay un programa mejor que otro.(Esto es la ley de la igualación).

15


Elección con compromiso: Una vez tomada una decisión, no se puede cambiar.

Programas concurrentes encadenados:

A

B

1

A

A

2

Programa de reforzamiento 1

Programa de reforzamiento 2Eslabón de elección

Eslabón terminal


Programas concurrentes encadenados:

Si le damos a escoger así entre un programa de RF y otro de RV, la paloma se queda en el de RV, incluso aunque tenga que dar más respuestas.

En realidad lo que se refuerza es la respuesta en el eslabón inicial (A vs B), y es un reforzamiento condicionado.

A

B

1

A

A

2

16

Autocontrol

Autocontrol:Normalmente, es una decisión entre una recompensa importante demorada o una más pequeña pero inmediata.

Mañana Hoy

Autocontrol

A

Autocontrol:Rachlin y Green (1972)

BRecompensa grande y demorada

Recompensa pequeña e inmediata Programa concurrente:

la paloma prefiere el beneficio inmediato.

17

Autcontrol

A

Autocontrol:Rachlin y Green (1972)

B

A

A

A

BRecompensa grande y demorada

Recompensa pequeña e inmediata

Programa concurrente encadenado: la paloma “se controla”.Ya puestos a esperar…

Autocontrol

Autocontrol:

El valor del reforzador se reduce cuanto más hay que esperar para obtenerlo.Función descontadora del valor:

V=M/(1+KD)V = Valor del reforzador.M = Magnitud de la recompensa.D = Demora.K = Tasa descontadora (cuánto se devalúa el reforzador por cada unidad de tiempo que nos separa de él). Indica el grado de “impulsividad”.

Ejemplo de los heroinómanos (pág. 186 del libro).

Entrenamiento del autocontrol: Usando demoras largas para el reforzamiento.

18

Autocontrol

Tiempo

Val

or d

e la

reco

mpe

nsa

Recompensa pequeña inmediata

Recompensa mayor

demorada

Si la demora es más larga, entonces el valor de la recompensa grande es mayor.

Si la demora es corta, entonces el valor de la recompensa pequeña e inmediata es mayor.

Y esto se acabó, ¡Muchas gracias!

Diapositivas de Fernando Blanco

http://www.labpsico.com/pers/blanco/FernandoBlanco.htm

Domjan - Tema 6

Documents

Transcript of Domjan - Tema 6