Schedule Combinations and Choice: Experiment and Theory

Staddon, J. E. R.; FESI

Artículos de revistas

Combinaciones de programas y elección: experimentos y teoría

Registro en:

http://ojs.unam.mx/index.php/rmac/article/view/25423

10.5514/rmac.v21.i1.ESP.25423

http://repositorioslatinoamericanos.uchile.cl/handle/2250/1200858

Autor

Staddon, J. E. R.; FESI

Institución

Universidad Nacional Autónoma de México

Resumen

This chapter has been about implicit and explicit choice. Implicit choice refers to the processes that determine the proportions of time that animals spend on different activities, the factor s that maintain that distribution, and the effects of disturbing 'it by blocking activities or making access to one activity contingent on the performance of another. Explicit choice refers to special experimental procedures that pit two similar responses, such as pecking Left and pecking Right, against one another. The first part of the chapter discussed temporal and stimulus control in the context of explicit choice between complex concurrent (choice) schedules. The first section showed how temporal control (in the form of proportional or scalar timing) and stimulus control combine in well-trained animal s to produce the effect known as conditioned reinforcement on chain schedules. 1 also showed how conditioned reinforcers act as aids to memory when animals learn to respond on delayed reinforcernent schedules and how memory limitations may underlie the effects of second order schedules. Proportional timing seems to determine performance even on ratio schedules. 1 discussed in some detail a variety of experimental results on simple and concurrent chain procedures. The discussion showed that most, perhaps all, the concurrent effects do not represent choice in the usual sense at ll. The animals do not seem to be comparing alternatives, but rather seem to treat each alternative as if it occurred in isolation. 1 was able to derive quite complex patterns of apparent preference and preference shift from an "ideal pigeon" who behaves according to proportional timing. 1 also showed how this analysis relates to the optimal policy on chain schedules, i.e., the pattern of responding that maximizes food rate: it turns out that proportional timing almost always produces a close-to-optimal pattern of choice. 1 also showed the similarities between the optimal policy for animals on chain reinforcement schedules and the optimal foraging theory predictions about diet selection. The last part of this section discussed the self-control problem preference for small-immediate vs. large-delayed rewards and showed how the same proportional-timing rule applies here also. The last half of the chapter discussed implicit choice, the factors that determines the distribution on activities under free conditions. We saw that under many conditions the activity distribution is stable, and the organism resists in various ways perturbations that threaten to change the distribution from its paired-baseline level. The first attempt to understand these effects was made by David Premack, who concluded that higher-probability activities always reinforce lower-probability activities. This molar principle was extended first by the qualitative principle of response deprivation and then by a variety of quantitative optimality and economic analyses. The first of these, the minimum-distance model gave a special status to the paired-baseline levels or bliss point. Optimality analysis is a general tool that can be applied to any adaptive system. It has allowed us to see common principles underlying implicit choice and explicit choice. Robust experimental findings such as the matching law turn out to be generally consistent with optimality models. Similar adaptive principles-diminishing marginal utility of reward frequency and amount-seem to underlie both the situations studied by Premack and more conventional schedules of operant reinforcement. Despite their many successes, all optimality models fail under sorne conditions, because they are functional models, not models of mechanism. Animals and people are rarely, if ever, literal optimizers, systematically comparing the long-term payoffs associated with different policies. Thus, while matching on concurrent VI VI schedules fits in with a number of optimal policies, matching on concurrent VI VR does not. 1 described a number of other experiments in which animals clearly behave nonoptimally. The last pan of the chapter therefore looked at the mechanisms of choice and behavioral allocation. The first conclusion was that marginal changes in molar variables probably do not have any direct effect on behavior, underlining the conclusion that even good optimality models, particularly molar optimality models, only describe what animals achieve, not how they achieve i1. The last part of the chapter therefore focused on molecular mechanisms of behavioral allocation. 1 discussed three, momentary maximizing, amelioration, and linear waiting. The first and the last make very similar predictions in choice situations, but linear waiting promises to be more general. Quite apart from the quantitative details, it Is cear that the expected time to the reinforcer, assessed through a memory-constrained timing mechanism, plays a dominant role in all the complex patterns of behavior generated by a variety of reinforcement schedules.

En este capítulo se analizó la elección implícita y explícita. La elección implícita se refiere al proceso que determina las proporciones de tiempo que los animales pasan en diferentes actividades, los factores que mantienen esa distribución y los efectos de distribuirla, bloqueando actividades o haciendo el acceso a una actividad contingente sobre la ejecución en otra. La elección explícita se refiere a procedimientos experimentales especiales que confrontan dos respuestas similares, tales como picar a la izquierda y picar a la derecha, una contra la otra. En la primera parte del capítulo se discutió el control temporal y de estímulos en el contexto de la elección explícita entre programas concurrentes complejos (elección). En la primera sección se mostró como el control temporal (en la forma de estimación del tiempo proporcional o escalar) y el control de estímulos se combinan, en animales bien entrenados, para producir el efecto conocido como reforzamiento condicionado en los programas encadenados. También se mostró como los reforzadores condicionados actúan como facilitadores de la memoria, cuando los animales aprenden a responder en programas de reforzamiento demorado y como las limitaciones de memoria pueden subyacer a los efectos de los programas de segundo orden. Parece que la estimación del tiempo proporcional determina la ejecución aún en los programas de razón. Se discutió con algún detalle una variedad de resultados experimentales en procedimientos encadenados simples y concurrentes. La discusión mostró que la mayoría, quizás todos, los efectos concurrentes no representan elección en el sentido usual, en lo absoluto. Los animales no parecen estar comparando alternativas, sino más bien parecen tratar cada alternativa como si ocurriera en aislado. Se derivaron patrones bastante complejos de preferencia aparente y cambio de preferencia de un "pichón ideal", que se comporta de acuerdo a la estimación del tiempo proporcional. También se mostró como este análisis se relaciona con el principio de optimización en los programas encadenados, por ejemplo, el patrón de respuestas que maximiza la tasa de comida: resulta que la estimación del tiempo proporcional casi siempre produce un patrón de elección cercano al óptimo. Se mostraron las similitudes entre el principio de optimización, para los animales en los programas de reforzamiento encadenados y las predicciones de la teoría de forrajeo óptimo acerca de la selección de dieta. En la última parte de esta sección se discutió el problema del auto-control -la preferencia por recompensas pequeñas pero inmediatas versus grandes pero demoradas -y se mostró como también se aplica aquí la misma regla de estimación del tiempo proporcional. En la última mitad del capítulo se discutió la elección implícita, los factores que determinan la distribución de actividades bajo condiciones libres. Se vio que bajo muchas condiciones la distribución de actividad es estable y el organismo se resiste, de varias maneras, a las perturbaciones que tratan de cambiar la distribución de su nivel de línea base apareada. David Premack, hizo el primer intento por entender estos efectos y concluyó que las actividades con mayor probabilidad siempre refuerzan a las actividades con menor probabilidad. Este principio molar se extendió primero con el principio cualitativo de la privación de respuesta y después con una variedad de análisis cuantitativos de optimización y economía. El primero de estos, el modelo de distancia mínima dio un estatus especial a los niveles de línea base apareada o punto de satisfacción. El análisis de optimización es una herramienta general que se puede aplicar a cualquier sistema adaptativo. Nos ha permitido ver principios comunes subyacentes a la elección implícita y explícita. Hallazgos experimentales robustos tales como la ley de igualación son generalmente consistentes con los modelos de optimización.Principios adaptativos similares -disminución de la utilidad marginal de la frecuencia y cantidad de la recompensa -parecen subyacer a las situaciones estudiadas por Premack y los programas más convencionales del reforzamiento operante. A pesar de todos sus éxitos, todos los modelos de optimización fallan bajo al gunas condiciones, porque son modelos funcionales, no modelos de mecanismos.Los animales y la gente rara vez, son literales optimizadores, sistemáticamente comparando los pagos a largo plazo asociados con diferentes principios. Así, mientras que la igualación en los programas concurrentes IV IV se ajusta con un número de principios de optimización, la igualación en los concurrentes IV RV no lo hace. Describí otros experimentos donde los animales claramente se comportan de una forma no óptima. En la última parte del capítulo, por lo tanto, se revisaron los mecanismos de la elección y la distribución conductual. La primera conclusión fue que los cambios marginales y las variables molares probablemente no tienen ningún efecto directo sobre la conducta, subrayando la conclusión de que aún los buenos modelos de optimización, particularmente los modelos de optimización molares, solo describen lo que los animales logran, no como lo logran. La última parte del capítulo, por lo tanto, se enfocó en los meoanismos moleculares de la distribución conductual. Discutí tres, la maximización momentánea, el mejoramiento y la espera lineal. El primero y el último hacen predicciones muy similares en las situaciones de elección, pero la espera lineal promete ser más general. Muy aparte de los detalles cuantitativos, es claro que el tiempo estimado para el reforzador, evaluado a través de un mecanismo de estimación del tiempo de memoria restringido, juega un papel dominante en todos los patrones complejos de conducta generados por una variedad de programas de reforzamiento.

Materias

explicit choice, implicit choice, conditioned reinforcement, chain schedules, delayed reinforcement, behavioral allocation, behavioral economics

elección explícita, elección implícita, reforzamiento condicionado, programas encadenados, reforzamiento demorado, distribución conductual, economía conductual

Mostrar el registro completo del ítem