Tema 5 Aprendizaje

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014

1

TEMA 5 P: PROGRAMAS Y TEORIAS DEL REFORZAMIENTO

I PROGRAMAS DE REFORZAMIENTO

A PROGRAMAS BASICOS DE REFORZAMIENTO

Cada programa => regla que especifica condiciones de reforzamiento.

REFORZAMIENTO PARCIAL: aprendizaje ms duradero y con mayor resistencia a la extincin que

REFORZAMIENTO CONTINUO.

RAZON INTERVALO

FIJA VARIABLE FIJO VARIABLE

Mismo num de respuestas requerido para conseguir reforzador

Num de respuestas requerido varia de manera irregular alrededor de promedio

Mismo tiempo transcurrido requerido para conseguir reforzador

Tiempo transcurrido variable alrededor de promedio

RF RV IF IV

Desarrollo rapido si razon pequea Break and Run

Altas, constantes, se aproximan a limites cap Perseverancia elevada

Tasa mayor cerca del final del intervalo, aumenta progresivament Festoneado

Constantes pero < RV Perseverancia elevada

Registrador acumulativo: se puede medir

Numero de respuestas (pluma hacia arriba)

Numero de pausas (pluma no se mueve)

Tiempo Entre Respuestas (TER)

Tiempo total en responder o en estar sin responder

Perseverancia (responder/estar sin responder)

Ocurrencia de otros sucesos ambientales

Ventajas frente a otras tcnicas:

Medir respuestas que ocurren muy rpidamente

Registrar estructuras complejas de comportamiento sin perder detalles

de cambios pequeos

Medicin no contaminada

En los programas RF, si razn elevada, se observa una pausa post-reforzamiento que se sigue de una transicin casi

instantnea a una tasa alta de respuesta posterior (carrera de la razn)

Si el requisito de la razn es muy alto, se puede dejar de responder por completo: tensin de la razn

En los programas de IF, proceso de discriminacin temporal, responden cuando subjetivamente consideran que es

altamente probable la consecucin del reforzador.

Aparece una pausa tras cada reforzamiento en los programas FIJOS.

RF => se pausa de la pausa a una tasa alta y estable

IF => se pausa de la pausa a una aceleracin gradual

En un programa de INTERVALO, la disponibilidad del reforzador suele estar limitada en el tiempo => DURACION LIMITADA.


2

La duracin de la pausa post reforzamiento en los RF se incrementa sistemticamente a medida que aumenta el requisito de la razn. Igualmente, a mayor duracin del intervalo, mayor pausa.

Segn Killeen, en RF depende ms de la frecuencia de reforzamiento (determinada por intervalo) En programas de razn, pausa ms determinada por el programa que se va a completar que por el ocurrido

antes. Ej: pausas ms largas en transiciones L-L y C-L. En programas de intervalo, pausa se ajusta proporcional y rpidamente a los cambios en la frecuencia del reforzamiento.

Las variables de control sobre la longitud de la pausa post-reforzamiento no son tan diferentes entre I y R.

1 PROGRAMAS DE RAZON FRENTE A DE INTERVALO: FUNCIONES DE RETROALIMENTACION

A iguales tasas y patrones de reforzamiento, tasa de respuesta mayor en programas de razn.

Para igualar, usan como base el tiempo necesario para dar todas las respuestas en el programa de razn, y

as se equiparan los programas en cuento al nmero de reforzadores y su distribucin.

En PI, tasa respuesta no influye directamente sobre frecuencia admin # PR. PI tienden a reforzar TER largos (mero paso tiempo aumenta proba reforzamiento) lo que reduce tasa respuesta. PR no refuerzan diferencialmente unos TER (aunque con tendencia a resp en rfagas, + proba de reforzar TER

cortos)

Baum: Explicacin MOLECULAR: un acontecimiento es suficiente para producir un efecto. Meca explicativo:

variaciones momento a momento en la contigidad respuesta-reforzador. Reforzamiento diferencial TER

Explicacin MOLAR: en RV hay una correlacin directa entre tasa respuesta y reforzamiento # IV. Meca explicativo: variables explicativas son fenmenos temporalmente extensos, nfasis en correlacin. Funciones de retroalimentacin que relacionan la conducta con el reforzador.

FUNCION DE RETROALIMENTACION: descripcin de la forma en que acta el ambiente en funcin de algn aspecto de la ejecucin conductual. Asume que la conducta afectar a algn aspecto del ambiente pero no necesariamente es una relacin causal (correlacin).

En programa R => R = B/N (N = num de respuestas requeridas por reforzador, R = tasa de reforzamiento y B = tasa de respuesta emitida) Cuanto ms rpido se responda, mayor R.

En programa I => ms difcil calcular. Funcin hiperblica.

Cambios tasa baja => afecta mucho reforzamiento pero cambios tasa alta => no afecta (efecto techo)

Cuanto ms corto el intervalo ms es cierto (IV 30 # IV 240).

reas aplanadas hiprbola => control diferencial bastante dbil lo que explica la mayor variabilidad entre sujetos.

Ej. De funcin de retroalimentacin plana: experimento de supersticin (no contingencia).

B PROGRAMAS DE REFORZAMIENTO DIFERENCIAL DE TIEMPOS ENTRE

RESPUESTAS

Reforzamiento diferencial de tasas bajas de respuesta (RDB): reforzar nicamente los TER superiores a

tiempo determinado.

Diferencia con IF: en RDB solo se refuerza la respuesta si ha transcurrido cierto tiempo desde ultima

respuesta, mientras que en IF se refuerza si ha transcurrido cierto tiempo desde anterior reforzador.

Contingencia de castigo para respuestas que ocurren antes del tiempo especificado, pero la respuesta

criterio sigue siendo necesaria (# entrenamiento de omisin).

Ms difcil que RDA (se puede deber a induccin de respuestas por reforzamiento espaciado /

degradacin valor reforzador por encontrarse demorado)

Reforzamiento diferencial de tasas altas de respuesta (RDA): reforzar nicamente los TER inferiores a

tiempo determinado.

Castigo diferencial de las respuestas que ocurren despus del tiempo (reinicializa intervalo).

1 TEORIA DE REFORZAMIENTO DIFERENCIAL DE LOS TER

En todos los programas de CO se refuerzan especficamente TER de una duracin determinada.

RV e IV Tasa de respuesta muy constante, TER homogneos, reforzamiento diferencial TER (ms largos en IV)

RF e IF No constancia, pausas largas. TER cortos deberan ser reforzados, pero no debera darse pausa. Otros meca


3

Meca de discriminacin temporal: competicin entre respuestas en funcin del momento en el intervalo. Tanno y Silberberg: influencia del TER en la tasa de respuesta depende de manera exponencial a su

distancia relativamente a la ocurrencia del reforzador (TER ms alejados pesan menos). Mayor sensibilidad de emparejamientos locales respuesta-reforzador.

C PROGRAMAS COMPUESTOS DE REFORZAMIENTO

1 PROGRAMAS ALTERNANTES Y SECUENCIALES: EL CONTROL POR ESTIMULO Y

REFORZAMIENTO CONDICIONADO

Mixto: se presentan dos o ms programas bsicos alternndose al azar. Cambio de uno al otro depende de tiempo preestablecido.

Mltiple: igual pero con seales de cada programa. Tndem: al menos dos programas simples que se presentan siempre en el mismo orden. Los sujetos deben

completar el primero para acceder al secundo, al final del cual consiguen el reforzador.

Encadenado: igual pero con seales de cada programa.

2 PROGRAMAS SIMULTANEOS: PROGRAMAS CONCURRENTES Y PROGRAMAS COMBINADOS

Concurrentes: disponer simultneamente de al menos dos programas bsicos del mismo tipo. Se puede cambiar

de uno al otro libremente. Los sujetos tienen que elegir.

Alternativo: disponer simultneamente de al menos dos programas bsicos de tipo distinto (I y R). Se refuerza

cuando se cumple con el requisito de cada programa de manera independiente.

Conjuntivo: igual pero se refuerza respuesta cuando se cumple al mismo tiempo con requisito de R e I, es decir,

dar un numero de respuestas en un tiempo determinado.

Entrelazado: la disposicin de uno de los programas se altera por el desarrollo del otro, es decir, cumplir con un

criterio repartido entre tiempo y numero de respuestas (no los dos a la vez)

Mixtos y Multiples Tandem y Encadenado Concurrentes

Estudio control estimular Estudio reforzamiento condicionado Estudio conducta eleccin

II CONDUCTA DE ELECCION Ra y Rb = tasas de respuestas en a y b. = Tasas relativa de respuesta

Eleccin de Premios concurrentes: usados antes. Se elige entre 2 RO diferentes (correr o beber por ej.) No es el mas adecuado

Eleccin de Respuestas Instrumentales concurrentes: se elige entre 2 RO idnticas pero que pueden llevar a # premios.

A LA LEY DE IGUALACION

Herrnstein: programa concurrente donde alternativas diferan en la frecuencia de reforzamiento, programa

independiente de IV.

Ley de igualacin: la tasa relativa de respuestas entre dos alternativas concurrentes es igual a la frecuencia

relativa de reforzamiento asociada con cada alternativa.

Fa y Fb = frecuencias de reforzamiento de a y b.

Relacin LINEAL

Tambien se iguala con otros parmetros: Ma y Mb = magnitud reforzador

Da y Db = demora reforzador


4

B MAXIMIZACION: ELECCION ENTRE PROGRAMAS CONCURRENTES DE

RAZON

En programas concurrentes de razn: se tiende a elegir la alternativa que tiene la razn ms baja

Comportamiento adaptativo

nico componente que cumple con la ley de igualacin en un programa concurrente de razn (tasa relativa

respuesta = 1 y tasa relativa reforzamiento = 1).

En programas concurrentes de ambos tipos: se tiende a preferir alternativa programa razn pero preferencia no es

tan marcada como se esperara (dedicacin extra al programa de intervalo).

C IGUALACION TEMPORAL

Se iguala el tiempo de estancia en las alternativas de respuesta con la tasa relativa de reforzamiento.

Findley: variante programa concurrente intervalo (parecido a mltiple).

Una misma tecla para los dos programas

Una tecla de cambio

Permite distincin entre respuesta de cambio y respuesta instrumental.

Brownstein y Pliskoff: programa tipo Findley sin la tecla de RI. A mayor permanencia, mayor preferencia.

Igualacin temporal: Ta y Tb = tiempos de permanencia en a y b.

Se encuentra en procedimientos concurrentes con o sin RI,

D LEY GENERALIZADA DE LA IGUALACION

Influencias no deseables:

Comportamiento de alternancia: cambio intermitente de una alternativa a otra sin que guarde relacin

con reforzadores asociados a cada alternativa. Tendencia natural en animales. Reforzamiento accidental

en los programas de I que fortalece este comportamiento.

DEMORA POR EL CAMBIO: introducir breve periodo despus de la primera respuesta para que pueda entrar

en funcionamiento el programa asociado. Sujetos abandonan conducta alternancia. DPC garantiza

independencia de operantes de respuesta.

Sesgos: disposicin espacial de las alternativas, color, iluminacin fuerza requerida para responder

Igualacin factores secundarios no siempre posible

Baum: mtodo para corregir influencia sesgos (Sa y Sb)

1. Equiparar factores de reforzamiento entre alternativas

2. Medir preferencias relativas sujetos (si desviacin => contribucin sesgo)

3. Una vez conocido el valor de los sesgos relativos, se varian los factores de reforzamiento

4. Se deber observar una desviacin paralela a la igualacin en direccin del sesgo.

Idea de que calculo auto en cerebro => los ajustes tan exactos como predichos no se cumplen.

Sobreigualacin: cuando mejor alternativa valorada por encima (cuando DPC larga o

cambio muy costoso)

Infraigualacin: cuando mejor alternativa valorada por debajo (ms comn)

Siempre se habla de la tasa de respuesta en la alternativa ms favorable

Ampliacin de la ecuacin:

k = sesgos relativos

s = exponente de sensibilidad hacia programas del reforzamiento

s < 1 = infraigualacion

s > 1 = sobreigualacion

s = 0 tasas de respuestas siempre iguales (insensibilidad a contingencias total).


5

E TEORIAS DE LA IGUALACION

Aproximacin molecular: cambio de una alternativa a otra cuando PROBA MOMENTANEA DE

REFORZAMIENTO sea mayor en la otra alternativa. Se elige la que proporciona mayor proba relativa de

reforzamiento.

Explica bastante bien distribucin en programas concurrentes de intervalo

Explica preferencia reforzadores variables: se aumenta proba de mayor contigidad entre respuesta y consecucin

reforzador

Aproximacin molar: se distribuyen las respuestas de acuerdo con un clculo GLOBAL DE TASAS

RELATIVAS DE REFORZAMIENTO entre las dos alternativas. Se elige la que proporciona mayor frecuencia

de reforzamiento.

Problemas para explicar no preferencia casi exclusiva por programa de razn en RV-IV, el por qu los animales

prefieren reforzadores variables a fijos

Aproximacin del mejoramiento: sntesis. Eligen entre 2 alternativas de manera que se IGUALEN TASAS

LOCALES DE REFORZAMIENTO. Alcance a ms largo plazo pero en trminos de tasa local. Con la

igualacin temporal, las tasas locales de respuesta y reforzamiento sern muy parecidas (consecuencia de elegir

alternativa que presente mejor tasa local de reforzamiento)

Cuidado: tasa de respuesta/reforzamiento = nmero de respuestas o reforzadores por tiempo de estancia en la alternativa

F IMPULSIVIDAD Y AUTOCONTROL: LA ELECCION CON COMPROMISO

Cadenas concurrentes de respuesta: se mide la eleccin entre diferentes fuentes de premios.

Procedimiento que permite que los sujetos sean ms consecuentes al decidir sus respuestas de eleccin.

Permite separar aprendizaje de responder / aprendizaje

de eleccin

Los sujetos igualan la tasa relativa de respuesta en

eslabones terminales con la tasa relativa de reforzamiento

Tambin igualan tasa relativa de respuesta en eslabn

inicial con tasa relativa de reforzamiento en eslabones terminales.

Los programas CONCURRENTES encadenados se

parecen ms a la realidad.

Trabajo de Rachlin y Green:

Dos opciones: recompensa pequea inmediata o

recompensa mayor demorada.

Eleccin directa (programa concurrente simple): se

prefiere la opcin de recompensa pequea aunque no es mas ventajosa

Eleccin en programa concurrente encadenado: tiempo

constante de esperar para poder acceder al refuerzo => se prefiere la opcin de recompensa mayor.

La fuerza de la inmediatez del reforzador se debilit y eleccin guida por magnitud

IMPULSIVIDAD = preferencia por recompensa pequea inmediata

AUTOCONTROL = preferencia por recompensa mayor demorada

As, los diferentes factores del reforzador no influyen todos de la misma manera!

Extensin de la ley generalizada de igualacin (incorporando frecuencia y

magnitud)

G LA NOCION DE VALOR DE LOS REFORZADORES

Valor de la alternativa: aumenta con la magnitud y disminuye con la demora del reforzador.

V = M / D (V = valor, M = magnitud, D = demora)

Ej.: IV-30 / IV-20 con magnitud doble en IV-30 y IV-40 / IV-15 con magnitud doble en IV-40

V de IV-30 = 2/30 = 0.07 y V de IV-20 = 2/20 = 0.05 => muestran comportamiento autocontrolado

V de IV-40 = 2/40 = 0.05 y V de IV-15 = 1/15 = 0.07 => muestran comportamiento de impulsividad


6

Aadir un retraso constante a la entrega de los dos reforzadores vuelve un comportamiento impulsivo en

autocontrolado.

Explicacin de Mazur:

Funcin hiperblica

Va = valor reforzador a, Ma = magnitud, Da = demora, k = tasa de descuento demora (que

indica a qu punto se aprecian los reforzadores demorados, depende del indiv y situacin)

Cuando reforzador grande y otro peque son demorados, aunque el primero lo sea mas, el valor

del grande ser superior. Ej: Va = 5 / 1 + 50 = 0.1 y Vb = 2 / 1 + 30 =0.06

El valor del pequeo ser mayor cuando la espera para el pequeo sea relativamente pequea. Ej:

Va = 5 / 1 + 30 = 0.16 y Vb = 2 / 1+5 = 0.33

Valor castigo tambin cambio segn funcin semejante Si muy demorados: incide ms la diferencia de magnitud (se prefiere castigo pequeo inmediato) Si menos intenso inmediato: incide ms la demora (se prefiere castigo grande demorado)

H LA TASA DE RESPUESTA EN RELACION A LA LEY DE IGUALACION

Herrnstein: considera que cualquier situacin implica eleccin. Pero tambin existen recompensas implcitas, as, el reforzamiento total es la suma de los reforzadores

programados y de los no programados

con Ro = tasa de otras actividades, Ra = tasa de respuestas operantes, Fa = frecuencia de reforzamiento explicito programado y Fo = frecuencia de reforzamiento intrnseco otras actividades.

Tasa total (Ra + Ro) debera ser una constante puesto que al cambiar una se redistribuye entre las alternativas disponibles

con k = Ra + Ro As la tasa absoluta de respuesta (Ra) est en funcin de la tasa relativa de reforzamiento de esa conducta

en relacin con otras.

Par aumentar Ra, podemos aumentar Fa o disminuir Fo. Cuantificacin de la ley del efecto de Thorndike.

III LA NATURALEZA DE LA ASOCIACION EN EL APRENDIZAJE

INSTRUMENTAL Cmo se desarrolla fuerza respuesta? Respuesta asociativa.

THORNDIKE E-R Asociaciones E-R dependen propia consecuencia accin. Ley terica del efecto.

Reemplaz principio de Spencer-Bain (accin espontnea seguida placer ms probable q vuelva a occurir) e inaugur investigacin expe en condicionamiento instrumental.

GUTHRIE E-R Reforzador facilita formacin asociacin.

Distingui entre actos y movimientos

Guthrie y Horton => cada gato escapaba de una forma diferente

HULL E-R Refuerzo E-R debido a reduccin impulso

Introduce concepto motivacin e incentivo

Psi hipottico deductivo y neoconductista

H = fuerza habito, D = impulso, I = incentivo, E = ejecucin

TOLMAN E-E Expe con ratas nadando en laberinto: consiguen escapar corriendo.

Aprenden un mapa cognitivo (resultado opuesto a E-R)

Cambios en conducta resultados de procesos como expectativa recompensa

Distinguir entre aprendizaje y ejecucin

IV REGLAS DE EJECUCION OPERANTE Herederas del planteamiento conceptual de Ley emprica del efecto o ley del refuerzo. Skinner.


7

Los reforzadores seleccionan la respuesta, no otorga papel necesario a la formacin de ningn tipo de

asociacin concreta, los estmulos ambientales son sealizadores

A TEORIA DE LA PROBABILIDAD DIFERENCIAL

: las respuestas que acompaan a estmulos reforzadores son altamente probables Premarck

La razn de que una respuesta se convierta en reforzadora depende de su proba de ocurrencia en lnea de base

La respuesta ms probable reforzar a la menos probable, pero la menos probable no

reforzar a la mas probable

: reforzadores derivan su efecto de las disposiciones PRINCIPIO DEL REFORZAMIENTO

experimentales en forma de relaciones de contingencia y cualquier evento puede convertirse en un

reforzador eficaz.

Actividad debe ser preferida en (donde conductas libremente disponibles sin limitacin) lnea de base

Proba de ocurrencia de actividad preferida debe restringirse y ocurrir de forma contingente

con la realizacin de actividad menos preferida

La actividad menos preferida se convierte en instrumental

Es lo que ocurre normalmente en los experimentos de CO.

Ej. Expe de : si beber es ms probable que correr (por privacin de bebida), entonces beber puede reforzar conducta de Premarck

correr / si correr es ms probable que beber (condicin sin privacin) entonces correr puede reforzar conducta de beber.

Ej. Expe con nios: segn preferencia de comer golosinas o jugar a maquinitas del milln y segn las contingencias, comer golosinas

puede reforzar el juego o al revs.

: una actividad de baja proba puede castigar una de alta proba si se PRINCIPIO DEL CASTIGOaumenta su proba de ocurrencia y suceda en contingencia con la de alta proba.

Esta concepcin siempre estar limitada por no saber el por qu se tiene preferencia por una actividad. Problema de medir la probabilidad: (solo si respuestas parecidas topogrficamente) => considerar frecuencia de ocurrencia respuesta

proba en (tiempo dedicado a una actividad / tiempo total) y medir (varan con el tiempo) una dimensin temporal proba momentnea

B TEORIA DE LA PRIVACION DE RESPUESTA

No basta con la proba diferencial, la eficacia del reforzador depende de que de estn limitadas las posibilidades

ejecutar la respuesta ( ). restriccin

=> los programas de reforzamiento Eisenberger, Karpman y Trattner de la incrementarn la frecuencia de ocurrencia

respuesta operante por encima de su lnea base dichos programas . privan al individuo de realizar la resp

=> Timberlake y Allison : para que actividad sea HIPOTESIS DE LA PRIVACION DE RESPUESTA

reforzador eficaz solo es necesario restringir la realizacin de dicha actividad en relacin con su ocurrencia en el

punto de bienestar. No es necesario que sea preferida # . Premarck

I/R > Oi / Or (I = Resp Instrumental, R = Reforzador, Oi = actividad que ser instrumental, Or = actividad que ser reforzadora)

La frecuencia de la resp se estabiliza en el punto en que el coste de incrementos mayores sobrepase el beneficio de obtener el reforzador lo ms cerca posible del nivel alcanzado en la lnea de base. Minimiza la distancia al punto de bienestar cumpliendo con la contingencia.

Cuando la actividad se restringe, es la reforzadora. Esta hiptesis predice tasa de reforzamiento y de respuesta se relacionan en forma de (bitonica) U invertida

A medida que el requerimiento del programa sea mayor, el nmero de respuestas debe aumentar inicialmente porque el beneficio de obtener el reforzador compensa el coste, pero llega un punto en el que ya no compensa ms.

Funcin lineal o bitonica depende de la longitud de

(contingencias sesin expese separan ms a medida que se aumente num de reforzadores)

Tema 5 Aprendizaje

Documents

Transcript of Tema 5 Aprendizaje