Коэффициенты и режимы подкрепления — почему и когда

 

Одной из самых горячих тем для обсуждения в нашей рассылке последние 60 дней была проблема подкрепления: его режимы, переменные коэффициенты (ПК), вариативные режимы подкрепления (ВРП) против стопроцентного подкрепления (СП). Эта тема всплывала всё то время, что мы получаем и отправляем емейлы, и даже раньше — в старые добрые времена, когда мы дрессировали животных и обучали дрессировщиков в Animal Behavior Enterprises. Так что давайте вначале посмотрим, что можно прояснить по этому вопросу, а потом мы расскажем о своей философии, практике и дадим советы насчёт режимов подкрепления.

 

Кстати, мне кажется, что большинство корреспондентов используют термины ПК и ВРП одинаково, в обоих случаях подразумевая вариативное подкрепление. Эта статья — дистиллят нескольких емейл-дискуссий. Переписка, которую мы имеем в виду, касается режимов подкрепления. Проще говоря, режим подкрепления — это любой план или система предъявления подкрепления за определённую реакцию в соответствии с любым интервалом, например, подкрепление действия каждые две минуты (так создаётся интервальный режим) или любой позиции в ряду действий  — подкрепление каждого второго действия, то есть «два к одному», или ФП 2:1 (фиксированное подкрепление двух действий на одно подкрепление), каждого третьего действия, или ФП 3:1, каждого десятого (ФП 10:1), сотого (ФП 100:1), и так далее, ответа. Если вы варьируете интервал, то пользуетесь вариативным коэффициентом — он чаще всего используется для тренировки почти любого поведения и является одним из самых полезных.

Простейший режим — и с него стоит начинать всем дрессировщикам при выработке любого навыка — это подкрепление каждого желаемого действия. Это коэффициент «1 действие на 1 поощрение», 1:1 или стопроцентное подкрепление (не «постоянное подкрепление», чтобы аббревиатуру (СП) не путать с ПП — положительным подкреплением).

Любой режим, преследующий другие цели, нежели СП, мы называем дифференцированным подкреплением — когда поощряются лишь некоторые действия, и никакие другие. Дифференцированное подкрепление также используется для формирования дискриминаций, например, запаховых, когда дрессировщик подкрепляет выбор определённого запаха и никакого другого; это также часть шейпинга, при котором дрессировщик подкрепляет реакции, соответствующие его/её критериям — то есть реакция должна быть прямой, быстрой, правильной — и гасит реакции, не соответствующие критериям.

Третий тип — другие режимы, которые специфически задействуют время. Ими пользуются реже, но они полезны на своём месте. Например, режим фиксированной или переменной продолжительности, когда дрессировщик просит собаку повторять или продолжать действие в течение какого-то времени — например, просит собаку удерживать позицию сидя или лёжа («место») в течение 30 секунд. Это также режимы фиксированного или вариативного интервала.

Мы не многое можем сказать о временных режимах. Их бывает трудно внедрить. Введение времени как переменной может дать животному делать другие вещи, а не те, которых вы от него ожидаете, но всё-таки отвечая временным спецификациям. Предположим, вы попросили собаку, в соответствии с режимом ФИ в 5 минут, прыгать на мишень на стене каждые 5 минут.  Этот режим означает, что вы поощряете каждое первое действие по окончании интервала. А теперь просто подумайте обо всём том аде, который собака способна сотворить за пять минут! По истечении этого времени собака должна всё ещё прыгать, чтобы получить поощрение, но она может сделать множество других действий, каждое из которых достигнет некоторой силы после последнего подкрепления за прыжок. Хорошо, довольно о временных режимах. Ими нечасто пользуются в дрессировке.

Список режимов можно продолжать и продолжать. Например, вы можете также пользоваться режимом дифференцированного подкрепления быстрого действия, сокращённо ДПБ, когда дрессировщик подкрепляет лишь мгновенные реакции. Вы можете справедливо решить, что последние описанные нами режимы то же самое, что и режимы шейпинга. Учёные посвятили целые карьеры, изучая режимы и их влияние на обучение и поведение.

Давайте мы с самого начала сформулируем свою философию относительно стопроцентного vs вариабельного поощрения. Она очень проста: если вам не нужен режим, не пользуйтесь им. Или другими словами, продолжайте применять СП, пока не появится хорошая причина перейти на режимное подкрепление.

Думаем, большинство из вас примет тот факт, что мы сформировали множество навыков [у животных]. Большинство из них мы получили и применяли не прибегая к режимам поощрения. За десятилетие и больше многие животные работали на стопроцентном поощрении. Наша выгода состояла в том, что мы не теряли времени на установлении режимов, когда это не было нужно. Поэтому мы рекомендуем вам попробовать.

Итак, каковы относительные преимущества стопроцентного поощрения (СП), вариабельного (ФП или ВП) или интервального (ФИ или ВИ) режимов? Зачем и когда стоит пользоваться ими? Каковы преимущества СП? Когда и зачем стоит подкреплять каждое действие определённого типа, допустим, правильную усадку? Прежде всего, единственный способ удостовериться, что каждая реакция будет «правильной», то есть будет соответствовать вашим критериям, это подкреплять  каждую реакцию — правильную с вашей точки зрения. Если каждая правильная реакция не подкрепляется и вы начинаете с режима, пусть даже 2:1, то будете склонны позволять несовершенным реакциям набрать силу после подкрепления каждого второго действия.

Скажем, вы решили попробовать режим 2:1. Просите собаку сесть — первая попытка её немного корява, вторая — ОК. Вы кликаете и поощряете. Что поощрили? Кривое действие в связке с правильным. Плохая усадка автоматически подкрепилась после поощрения второй попытки. Итак, наше правило №1: если вам не нужен режим, не пользуйтесь им. Если вы решили, что режим нужен, тогда вот наше правило №2: пользуйтесь СП, пока навык не станет в точности таким, как вы хотите: по команде, с хорошим откликом (малой задержкой) и пока не сделаете много повторений идеальной усадки — не пять и не десять, а десятки, десятки раз. Не спешите переходить к режимному поощрению. Вам также надо закрепить навык во множестве различных условий, локаций, аудиторий при различных отвлечениях — всё на СФ. Тогда вы сможете сказать, что ваша усадка настолько хороша, насколько должна быть, собака знает, что это такое и как быстро нужно выполнять команду, навык усвоен надёжно.

В том, что касается режима 2:1 и других, мы не хотим, чтобы выглядело так, будто мы принижаем советы опытных инструкторов по дрессировке, и мы точно не хотим, чтобы кто-то принял наши комментарии на свой счёт. Есть, как мы отметим ниже, причины того, что эта практика легко вошла в список советов и учебники по дрессировке. Мы просто хотим поделиться с читателями своим опытом, который таков: в большинстве ситуаций, когда собак дрессируют как домашних любимцев, почти никогда не появляется серьёзная нужда в вариабельном подкреплении. Однако, насколько мы можем судить по советам для новичков, применение режимов стало хорошим тоном в дрессировке.

Можно сказать, что «ритуал» режима 2:1 широко распространён. Он неизбежно входит в практику и литературу от многих хороших тренеров, потому что считается необходимым шагом для быстрого прогресса и надёжности навыка. Например, в последнем выпуске Clicker Journal очень уважаемый тренер рекомендует научить навыку и затем, прежде чем переходить к новым локациям и другим упражнениям для его закрепления, начать с режима 2:1!  В видеозаписях, в современных руководствах — почти везде 2:1! Ранний переход к вариабельному подкреплению стал почти что догмой. Да, наверное, иногда нужно давать подобные непререкаемые советы кликер-новичкам, которые могут быть склонны не подкреплять поведение достаточное количество раз, мешая ему окрепнуть. Однако как опытные инструкторы внимательно относитесь к тому, что делаете, и взвесьте недостатки от потери точности и времени. Как всегда выбор за вами. Просто убедитесь, что он у вас есть.

Итак, когда стоит пользоваться режимным коэффициентом? Вспомните наше первое правило: режимы — только при необходимости. Если вы решили, что нуждаетесь в них, то ответ следующий:

А) когда навык насколько идеален, насколько вам хочется или насколько вы способны сделать его таковым и

Б) если вы хотите сделать поведение устойчивым, например, если вы планируете пользоваться навыком и в каких-то случаях не сможете подкрепить,

В) если вы хотите, чтобы навык повторялся в быстром темпе (режим отклика в единицу времени) без подкрепления или, вероятно,

Г) если вы подкрепляете собаку едой и не хотите, чтобы она слишком быстро наедалась.

Вариабельное подкрепление без вопросов является лучшим, когда вам нужно или хочется очень надёжного поведения без подкрепления. Просто посмотрите, сколько времени проводит на рыбалке заядлый рыбак, прежде чем переведёт приманку без какого бы то ни было поощрения. И, как отметил один из наших email-корреспондентов, «согласно Скиннеру, компульсивный гемблинг возникает частично потому, что люди попадают на крючок вариабельного подкрепления. Следующий же выигрыш может окупить всё сторицей, независимо от того, когда был предыдущий, так что игроман продолжает играть».

Вполне правдиво. Но как часто в своей жизни вы с собакой попадаете в условия а), б), в) и г)? Конечно, вам хочется определённой устойчивости навыка и, конечно, достаточно хорошего отклика. И в самом деле «этот режим (вариабельного подкрепления) обеспечивает сильнейшее желание продолжать реагировать [на команду] сразу после получения подкрепления, чем фиксированный режим».

Пожалуй, один из лучших примеров, когда можно использовать ВРП, это случай Хэма, шимпанзе-астронавта, воспитанного группой Джо Брэдиса для НАСА. Хэма отправили в космос в начале 1960-х гг., ещё до группы Mercury [Seven]. Хэма научили выбору и сложным реакциям на определённые стимулы, такие как мигающие огоньки и специальные звуки. Было опасение, что в невесомости выдающая пищу кормушка не будет правильно работать. Из этих и некоторых других соображений было решено построить реакции Хэма таким образом, чтобы он всю миссию проработал без поощрения. Его тренировали так, что на одно поощрение приходились тысячи повторов. Если он получал поощрение после сотни повторов, то в следующий раз — после тысячи. Вот это, друзья мои, и есть режим!

Если вы собираетесь отправить свою собаку в космос и хотите убедиться, что она и там продолжит работать, ВРП — это определённо то что нужно. Мы использовали ТВП (таблицу вариативной продолжительности) при автоматизации танцев цыплят. Когда человек вставлял четвертак (пятицентовик в 1950-х гг.) в монетоприёмник, открывалась дверцы и на площадке появлялся цыплёнок. Он подходил к бутафорскому музыкальному автомату, тянул за верёвочку, и начинала звучать музыка; затем цыплёнок ступал на платформу, в центре которой находился фотоэлемент. Когда птица, попав на фотоэлемент, заслоняла луч света, запускался таймер (мы использовали переключатель цепи, заряжавшей конденсатор, если кого-то интересуют технические подробности). И так как цыплёнку по природе надо было что-то делать, а не стоять столбом, то большинство из них начинало царапать платформу, что выглядело как танец. Царапая, птица двигалась внутри и вне светового луча довольно непредсказуемо. Это продолжалось какое-то время (всегда разное), пока оборудование не говорило: «довольно» — и выстреливало электрическую кормушку.  Дополнительно на всякий случай мы поместили в цепь устройство (переключатель на конденсаторе — для тех, кто разбирается в электронике), которое более или менее случайным образом меняло критерии для срабатывания кормушки. Итак, у нас было два метода определения ТВП — один зависел от поведения цыплёнка, второй — не зависел. В результате этой системы цыплёнок танцевал от 8 до 22 секунд.

Как вы можете увидеть, когда мы говорим вариабельный, то имеем в виду только это. Наш номер с играющей на пианино (как вариант — на гитаре) уткой был основан на ВРП. Утка нажимала на клавиши, а внутри системы были микропереключатели, реагировавшие на «горячие» клавиши. Давным-давно мы пользовались шаговыми переключателями, а позднее перешли на твердотельные счётчики, чтобы посчитать, сколько клавиш было нажато. Затем мы разными способами устанавливали более или менее случайный выбор числа нажатий клавиш, чтобы кормушка сработала (обычно использовался кольцевой счётчик или что-то похожее). Утка останавливалась где-то после нажатия 13-25 «горячих»  клавиш. То, что слышала публика, было «Twinkle, Twinkle, Little Star», потому что мы также запрограммировали вывод узнаваемого мотива. Некоторые люди действительно считали, что утка играла мелодию. Неудивительно, что кое-кто способен продать столько недвижимости на берегу океана в Аризоне (нет там никакого океана, только горы, плато и пустыни — прим. пер.).

Насколько важны режимы поощрения? Большинство временных режимов, особенно в дрессировке домашних питомцев, не так уж важны. Это не значит, что они малозначительны в дрессировке животных. Мы делали номер (наверное, самый известный) под названием «Птичий мозг». Это была игра в крестики-нолики. Человек имел возможность поверить своё мастерство в игре против птицы (которая получала немного помощи). Когда мы создали схему управления «Птичьим мозгом», то позволили подкреплению появляться в конце игры, а это означало, что цыплёнок обычно играл бы три, четыре или пять партий, а лишь потом кормушка срабатывала. Мы знали, что обычно никогда не будет шанса, что первый ход птицы будет подкреплён. Мы также по опыту знали, что какая-то часть птиц (предположительно, около 25%, или каждая четвёртая) будет иметь трудности с началом игры, потому что первый клевок, или первый ход, никогда не поощрялся. Предвосхищая эту проблему, мы встроили так называемый переключатель кормушки первого цикла, чтобы поощрять птиц после первого, начального, клевка. Ну, мы оказались почти правы: каждая третья птица, то есть 33%, отказывались начинать. Эти огорчённые птицы просто ходили взад-вперёд по клетке, то приближаясь к панели переключения и лампочкам, то удаляясь от них. Они могли проделывать такое несколько раз, прежде чем наконец-то давали нужную реакцию. При использовании переключателя кормушки первого цикла задержка поведения (отложенное подкрепление, конечно же) могла внезапно исчезнуть после нескольких клевков, которые поощрялись в начале действа. Звучит странно, не так ли?

Когда Скиннер впервые играл в нашу маленькую игру (на научной конференции в конце 70-х гг.), он был заинтригован ею и очень впечатлён технологией, которая зашла так далеко, что мы могли предсказать исходя из режима поощрения, как некоторые птицы поведут себя. Мы сказали ему, что всё потому, что мы должны зарабатывать на этом — поэтому-то знали так хорошо. Шутка ему понравилась, но он понял, что в ней лишь доля шутки.

Я не рассказал о наших свободных в передвижении животных: чайках, дельфинах, собаках, кошках, воронах, грифах и др. Большая часть работы с ними содержит десенситизацию (самая трудная часть) вкупе с довольно экзотическими режимами ТВП и ВРП. Некоторые чайки и дельфины проводили на экскурсиях по нескольку часов. Это значило, что некоторые поездки могли длиться всего полчаса, а другие — гораздо дольше. Некоторые экскурсии с дельфинами длились весь день — то есть проходили  один раз в день. Как показывается в фильме «Терпеливы, как бурундуки», животные делали какие-то вещи, оказавшись в нужной области, но, по моему мнению, попасть туда было самой сложной частью задания. Животные гораздо быстрее овладеют конечным манёвром, даже если он труден. Кстати, какими бы сложными ни были действия, они почти всегда производились в режиме стопроцентного подкрепления, даже если задержка в его выдаче измерялась многими минутами и часами.

Надеюсь, я чётко изложил нашу позицию по поводу режимов поощрения. Мы используем самый простой, но который работает. Есть те, кто говорит, что режим СП не даст никакой надёжности. Что же, мы ответим так: мы много лет находим этот режим достаточно хорошим для прекрасного обучения навыкам. Кроме того, общаясь и с опытными, и начинающими дрессировщиками, мы обнаружили, что большинство из них так спешило, что редко использовало достаточно подкрепления в режиме СП, чтобы отточить и закрепить навыки.

Кто-то скажет: мол, мы никогда не подкрепляем один и тот же навык больше нескольких раз, так-то. Процитирую один форум: «Я никогда не просил [животное] выполнить навык в неизменном виде 20 раз подряд. Есть ли в этом смысл?» (Остальные в этом форуме говорили о беглости выполнения, но мы не будем вдаваться в это.) Итак, с частично выученным навыком люди приступают к вариабельному подкреплению (и в этой дискуссии не имеет значения его режим). Обычно там что-то говорят о скуке или о том, что собака перестаёт выполнять действие.

Во-первых, в нашем коллективном опыте (и это суммарно где-то 100 лет работы) никто из нас не встречал в дрессировочных программах скучающих собак, дельфинов, чаек, воронов, слонов, трубкозубов, ящеров, львов, медведей, кальмаров, рыб… Во-вторых, у нас были собаки, выполнявшие одно и то же более 800 раз за день, а за неделю — и того больше. Мы проделывали похожие тесты с десятками животных других видов. Никто из них не был на вариабельных режимах подкрепления! Итак, они были на стопроцентном подкрепления, если говорить по-умному.   Мы не обнаружили, что их навыки были ненадёжны. Они не испарялись никуда, когда животное просили сделать несколько повторений без поощрения.

Были ли эти навыки настолько же устойчивыми, какими могли стать на режимах ВРП в дрессировочных программах? Нет, конечно. Но, если животное выполняло действие очень хорошо 10 раз подряд без поощрения, не будет ли этого достаточным для большинства задач? Как часто вам нужно, чтобы животное воспроизвело навык 100 или 1000 раз без какого бы то ни было поощрения — еды, социального контакта или возможности что-то сделать?

Так как же миф о ВРП проник в дрессировку? Есть несколько способов. Возможно, последние 10-15 лет (статья написана в 1998 году — прим. пер.) видные кликер-тренеры обнаружили, что большинство тренеров работало с таким слабым поведением, что оно разваливалось при малейшем стрессе; или тренеры не могли постоянно подкреплять. Эти тренеры могли (что довольно логично) начать решать проблему пораньше сконцентрировавшись на надёжности навыка. Они согласились с последствиями этого — уменьшением значимости шейпинга. Мы не спорим с этим компромиссом. Тренеры заслуживают доверия, когда вводят людей с улицы в мир технологий [дрессировки]. Мы всего лишь показываем, что многие дрессировщики слепо верят в то, что режим 2:1 является единственным способом дрессировать. Но это не так. Мы не хотим, чтобы этот миф переплетался с оперантным обучением.

Посмотрите на это под таким углом: жизнь достаточно сложна, чтобы усложнять её ещё сильнее. СП проще ВРП. СП работает. А мы любим простоту.

Авторы: Боб и Мариам Бейли, Ph. D. http://www.clickersolutions.com/articles/2001/ratios.htm

Перевод: «Плохие собаки»

%d такие блоггеры, как: