Оперантное поведение (operant behavior)

Давно известно, что на поведение влияют его последствия. Мы награждаем или наказываем людей, напр., чтобы они вели себя по-другому.

При оперантном обусловливании на поведение тж влияют его последствия, но этот процесс не является научением по методу проб и ошибок. Его лучше всего объяснить на примере. Голодную крысу помещают в частично изолированную от звуков камеру. На протяжении неск. дней при помощи специальной автоматической кормушки ей периодически подаются в лоток шарики пищи. Вскоре крыса бежит к лотку, как только услышит звук работающей кормушки. Из стены камеры выступает небольшой горизонтальный рычаг, к-рый при нажатии фиксируется в крайнем нижнем положении, но сейчас он слегка приподнят для того, чтобы при прикосновении к нему крысы он мог двигаться вниз. При этом замыкается электрическая цепь устройства, управляющего подачей пищи. Сразу после того как крыса съедает полученную т. обр. пищу, она начинает быстро нажимать на рычаг. В этом примере поведение усилилось, или подкрепилось, посредством лишь одного последствия. Крыса не «пытается» что-нибудь делать в тот момент, когда она впервые касается рычага, и не учится на к.-л. «ошибках».

Для голодной крысы естественным подкреплением служит пища, но подкреплением в приведенном примере является звук автоматической кормушки, к-рый был обусловлен в качестве подкрепления тем, что он постоянно сопровождал подачу пищи еще до того, как крыса нажала на рычаг. В действительности звук работающей кормушки вызвал бы наблюдаемый эффект даже при отсутствии подаваемой пищи. Если дальнейшее нажатие рычага больше не будет сопровождаться подачей пищи, крыса перестанет на него нажимать. О таком поведении говорят, что оно было угашено.

Оперант может возникать под управляющим воздействием к.-л. стимула. Если нажатия на рычаг подкреплять при включенном свете и не подкреплять при выключенном, реакции будут осуществляться при свете и чрезвычайно редко, если вообще будут, происходить в темноте. Крыса сформировала различение, или дискриминацию, света и темноты. Когда включается свет, это вызывает ее реакцию, однако такая реакция не является рефлекторной.

Рычаг можно нажимать с различной степенью усилий, и если подкреплять только сильные реакции, крыса станет нажимать на него все сильнее и сильнее. Если подкреплять только слабые реакции, это приведет в конечном итоге к тому, что она станет реагировать лишь очень слабыми нажатиями. Такой процесс называется дифференциацией.

До того как реакция начинает подкрепляться и становится оперантом, она может возникать в первый раз по др. причинам. Если необходимо выработать путем подкрепления к.-л. очень сложную реакцию, к-рая никогда не возникнет самостоятельно, ее можно сформировать путем выделения ее составных частей и подкрепления их по отдельности, с тем чтобы в конечном итоге объединить их в сложный оперант. Подкрепление операнта не только формирует топографию поведения, оно сохраняет это поведение и после того, как был сформирован оперант. В сохранении поведения важную роль играют режимы подкрепления. Если реакция подкрепляется в течение определенного времени, напр., через каждые 5 минут, крыса не станет реагировать сразу после подкрепления, но будет все быстрее и быстрее реагировать по мере приближения следующего подкрепления (режим подкрепления с фиксированным интервалом). Если реакцию подкреплять в среднем каждые 5 минут, но непредсказуемым образом, крыса будет реагировать с определенной степенью постоянства (подкрепление с изменяющимся интервалом). Если такой средний интервал оказывается коротким, темп реагирования будет высоким; если он оказывается длинным, темп реагирования будет низким.

Если реакция подкрепляется после возникновения определенного числа реакций, крыса будет все быстрее и быстрее реагировать по мере приближения к требуемому числу реакций (режим подкрепления с фиксированной пропорцией). Это число может достигать чрезвычайно высоких значений: крыса будет продолжать реагировать, даже несмотря на то, что ее реакции подкрепляются крайне редко. Когда подкрепление осуществляется после нек-рого среднего числа реакций, но непредсказуемым образом, такой режим подкрепления называется режимом с изменяющейся пропорцией. Он знаком нам по игровым автоматам и системам, к-рые созданы по принципу появляющихся время от времени, но непредсказуемых вознаграждений. Необходимое число реакций можно легко увеличивать, и в индустрии азартных игр усредненная пропорция устанавливается т. обр., что противоположная сторона — игрок — в конечном итоге всегда проигрывает.

Подкрепления могут быть положительными или отрицательными. Когда подается положительное подкрепление, оно усиливает («подкрепляет») реакцию; отрицательное подкрепление «подкрепляет» реакцию, когда оно отменяется. Отрицательное подкрепление не является наказанием. Все виды подкрепления всегда усиливают поведение, что передается значением самого слова «подкрепление». Наказание используется для подавления нежелательного поведения. Оно состоит в отмене положительного подкрепления или подаче отрицательного. Наказание осн. на процедуре обусловливания отрицательными подкреплениями. Наказанный чел. действует теми способами, к-рые снижают угрозу наказания, а тж теми, к-рые не связаны с наказуемым поведением.

Отличительная особенность чел. как биолог. вида заключается в том, что его голосовые реакции могут легко обусловливаться в качестве оперантов. У чел. существуют множество разновидностей вербальных оперантов, поскольку его поведение подкрепляется при посредничестве др. людей, к-рые делают множество различных вещей. Такие способы подкрепления, практикуемые в определенной отдельно взятой культуре, составляют вместе то, что принято называть языком. Люди, однако, говорят друг другу то, что им надлежит делать. Мы овладеваем большей частью нашего поведения благодаря помощи такого рода. Мы прибегаем к советам, прислушиваемся к предостережениям, следуем правилам и подчиняемся законам, и наше поведение тем самым осуществляется под контролем последствий, к-рый в иных случаях не оказывался бы столь эффективным. Большая часть нашего поведения оказывается слишком сложной, чтобы происходить с самого начала без такой вербальной помощи. Обращаясь за советом и следуя правилам, мы приобретаем гораздо более обширный репертуар, чем это было бы возможно лишь за счет непосредственного контакта с физ. окружением.

Реагирование в рез-те подкрепления последствиями весьма отличается от реагирования в рез-те полученного совета, следования правилам или подчинения законам. Мы не обращаемся за советом из-за того, что вслед за этим наступит к.-л. конкретное последствие: мы прибегаем к нему лишь в тех случаях, когда выполнение др. совета, полученного из сходных источников, уже имело для нас подкрепляющие последствия. В целом, мы более склонны делать то, что имело бы немедленные подкрепляющие последствия, чем то, что нам просто посоветовали делать.

Врожденное поведение, изучаемое этологами, формируется и сохраняется в силу его значения для выживания индивида и вида. О. п. формируется и сохраняется в силу его последствий для индивида. В отношении особенностей обоих процессов остается немало спорных вопросов. Однако ни в одном из них, по-видимому, не находится места для предварительного плана или цели. В обоих творчество заменяется отбором.

Может создаваться впечатление, что личная свобода также находится в угрожаемом положении. Однако существует лишь чувство свободы, к-рое, в свою очередь, тж зависит от подкреплений. Те, кто реагирует в силу того, что его поведение имело положительные подкрепляющие последствия, обычно чувствуют себя свободными. Им кажется, что они делают то, что им хочется делать. Те, кто реагирует в силу того, что подкрепление оказалось отрицательным, и кто поэтому, избегая или опасаясь наказания, делает то, что должен делать, не испытывают такого чувства. Эти различия никак не связаны с самим фактом свободы.

Эксперим. анализ О. п. привел к разраб. технологии, к-рую часто называют модификацией поведения. Она заключается в изменении последствий поведения — удалении последствий, — к-рые вызвали проблемы, или выработке новых последствий для усиления желаемого поведения. Исторически челов. поведение регулировалось преимущественно на основе отрицательного подкрепления, т. е. людей наказывали, когда они не делали того, что имело подкрепляющие последствия для тех, кто мог их наказать. Положительное подкрепление использовалось гораздо реже, отчасти потому, что его рез-ты оказываются неск. отсроченными во времени по сравнению с наказанием, хотя оно может быть столь же эффективным, как и отрицательное подкрепление, и к тому же вызывает гораздо меньше нежелательных побочных эффектов.

См. также Модификация поведения, Классическое обусловливание, Законы научения Торндайка

Б. Ф. Скиннер

Источник: Психологическая энциклопедия на Gufo.me