Загадка джек-пота: рабочий инструмент или суеверие?

Странный инструмент

Я читаю лекции о дрессировке по всему миру, и мне постоянно задают одни и те же вопросы. О сигнале прекращения работы (https://clickertraining.com/the-end-of-session-signal), о сигнале продолжения работы, о минимальном сигнале/сценарии подкрепления. Джек-пот, очевидно, вызывает наибольшую путаницу. Возможно, это потому, что в научной литературе не так просто отыскать информацию о нём. Этот инструмент пришёл из практической дрессировки, им пользовались специалисты, которым нужно было как можно доступнее объяснить что-то животным. В результате джек-поту нет постоянного или общепринятого определения.

В этой статье я расскажу о собственном понимании этого инструмента, его использовании, окружающей его таинственности и поделюсь некоторыми предположениями, как фильтровать информацию о нём.

Рыбка-выручалочка

Я стал использовать джек-поты десятки лет назад. Будучи начинающим дрессировщиком маленькой стайки дельфинов в дельфинарии Техаса, я поощрял их разной рыбой. Один из дельфинов больше всего любил макрель, но, по разным диетологическим соображениям, дельфинам нельзя было съедать больше одной большой макрели в день. Она была высокоценным поощрением для животных, и мы берегли её для особых прорывов в дрессировке. Когда кто-то из нас учил [дельфинов] новому действию, остальные могли поспорить между собой за то, кто будет использовать макрель в своей работе. Когда в обучении возникала проблема с выполнением критериев, мы давали рыбу тому животному, которое в точности выполняло все требования. Мы назвали этот вид поощрения рыбкой-выручалочкой. Руководитель дрессировщиков сказал нам, что это вообще-то зовётся джек-потом. До сих пор помню, какое впечатление на меня произвела волшебная сила джек-пота.

Использование макрели помогало исправить проблемы и вызвать особый прорыв в обучении новым действиям. Но может, память моя затуманилась? Может, это причудливый миф, увековеченный нашим дрессировщицким желанием иметь чудодейственную волшебную палочку? Не уверен. Я продолжал выдавать джек-поты, хотя и скупо, во время дрессировки. Но когда я изучал науку, на которой строится дрессировка, передо мной всё равно вставал вопрос: «Является ли джек-пот уникальным инструментом или это просто своевременная выдача ценного подкрепления?»

Определение:

Слово «джек-пот» не встречается в научной литературе, поэтому дрессировщики взяли его из другой области — казино, лотерей и прочих игр — и создали своё собственное определение. Можно утверждать, что любое определение джек-пота как поведенческого инструмента будет признано корректным, потому что нет ни одного ресурса, к которому можно обратиться за согласованным термином. Для этой статьи я предпочёл бы комбинацию определений Карен Прайор (1984; 2006), зоологического сообщества (AZA, 2017), моих собственных рассуждений и наблюдений профессиональных специалистов по дрессировке, которые, очевидно, правильно пользуются этим инструментом.

Джек-пот — это неожиданная выдача высокоценного поощрения, используемая ограниченно и условно, чтобы подкрепить значительный прорыв в обучении.

Проблемы применения

Даже если мы согласимся с определением джек-пота, это не гарантирует его последовательного применения — а это может причинить вред или просто не приносить пользы. В своей практике я видал и такое.

Главнейшие проблемы таковы:

  • Затянувшаяся выдача. Некоторые дрессировщики при выдаче животному дюжины кусочков лакомства в качестве джек-пота скармливали их по одному. К тому времени, как животное получало последний кусочек, проходило несколько секунд, и я сомневаюсь, что последнее угощение ассоциировалось с великолепным поведением, которое эти дрессировщики хотели укрепить. Выданные поздно кусочки однозначно подкрепляют животное за хорошую выдержку и внимание к дрессировщику. Результаты не плохи, но они не соответствуют тому, что тренер собирается подкрепить.
  • Корявая выдача. Иногда дрессировщики рассыпают пригоршню лакомства на землю. Кусочки катятся по полу, животное паникует, потому что не может уследить за всем сразу. Пока вы не приучите своих учеников получать и наслаждаться поощрением в такой манере, джек-пот может быть аверсивным. Это особенно так, если в комнате находится несколько животных — тогда эта форма выдачи создаёт конкуренцию за еду.
  • Слишком частое использование. Одно из предполагаемых преимуществ джек-пота — его редкость. Когда джек-пот выдают слишком часто, ученик начинает думать, что за обычное и следовательно, ожидаемое поведение он получит много или очень ценное лакомство. Это предположение может сделать менее ценное поощрение аверсивным. Я не спорю, что для критически важных действий надо пользоваться высокоценным подкреплением — уверен, что это важно. Но я не стал бы называть это джек-потом.
  • Слишком необычное подкрепление. Есть люди, которые выступают за то, чтобы джек-поты были всегда чем-то новеньким. Однако я видел, как некоторые дрессировщики  предлагали джек-поты, которые, будучи слишком в диковинку, пугали или смущали животное. Это контрпродуктивно.
  • Использование маркера. Мнения специалистов, использующих джек-поты, разделились относительно тайминга. Некоторые выдают джек-пот сразу же после маркера (это традиционный способ, которым пользуюсь я). Другие утверждают, что эффективность джек-пота зависит от того, что он выдаётся вместо маркера. Карен Прайор предложила эту технику (2006), я пользуюсь ею в некоторых ситуациях. Очевидно, это требует дальнейшего изучения.

Исследования

До сих пор попытки изучить джек-поты в контролируемых условиях не принесли убедительных доказательств [эффективности]. Одно из проведённых исследований не показало, что джек-пот является эффективным инструментом (Muir & Rosales-Ruiz, 2009). Однако в этой работе джек-пот применялся не в той манере, которая кажется мне наиболее успешной. Наоборот, им пользовались не для значительных прорывов в обучении.

Сопряжённое подкрепление исследуют охотнее (Rapp, 2008). Это концепция, что исключительные усилия или высокая интенсивность действия поощряется более ценным подкреплением, чем поведение более низкой интенсивности, уровня или силы. Этот процесс идентифицирован и изучен, поэтому дрессировщики считают выдачу высокоценного поощрения эффективной.

Однако исследования также показали, что различия в подкреплении могут создать вариативность, а не стабильность в реакции учеников. Есть действия, которые требуют большей интенсивности, например, тащить тележку или очень быстрый подход на зов. В этих случаях высокоценное подкрепление выглядит эффективным для создания вариабельности. Это позволяет дрессировщику выбирать и поощрять желаемое увеличение интенсивности действия. Но если вариативность влияет на точность, то высокоценное подкрепление может быть скорее раздражителем — и скорее вредным. Эта аномалия даёт повод усомниться в том, что джек-пот действительно влияет на обучение так, как мы того желаем.

Пока дрессировщики не начнут собирать данные и подробно описывать использование джек-потов, в том числе и последовательно измерять, как они влияют на поведение, все утверждения об эффективности джек-потов будут анекдотическими. Хотя я по-прежнему пользуюсь ими в дрессировке, мне интересно: может, я просто применяю высокоценное подкрепление с определённым интервалом? Кроме того я постоянно меняю и подстраиваю поощрение на основе потребностей своих учеников. И это значит, что трудно быть уверенным, будто любое значительное улучшение в производительности животного происходит благодаря лишь джек-потам — а не комбинации факторов (в том числе и доказанного сопряжённого подкрепления).

Например, я часто говорил, что великолепная надёжность подзыва моих животных — это результат периодических джек-потов за исключительно быстрый возврат ко мне. Может быть. Но ведь есть столько разных аспектов дрессировки, которые с вероятностью вносят свой вклад в эффективность подзыва. Первичная причина, наверное, это высокоценное подкрепление всех хороших реакций на подзыв и постепенное повышение требований к скорости. Я неожиданно выдаю более ценное поощрение, когда моё животное показывает выдающуюся скорость, но, может, это просто мои предрассудки? У меня нет данных, что животное, которое дрессировали без таких джек-потов, будет подбегать ненадёжнее или медленнее, но, из-за важности навыка и благодаря видимому эффекту, я вряд ли изменю свой подход к обучению подзыву.

Пользоваться или нет?

Из опыта знаю, что джек-поты никогда не вредили лично моим животным. Однако преимущества методики остаются лишь в области догадок и идей, основанных на эффективных результатах, без поддержки научных данных. Я не собираюсь выбрасывать джек-поты из своего арсенала, но буду следить за тем, чтобы не переоценить их эффективность — или даже само их существование как реального инструмента.  Сейчас я буду просто говорить, что пользуюсь высокоценным подкреплением, но не буду давать ему никакого названия.

Надеюсь, мы все начнём искать общее определение джек-пота. Я планирую поискать способы собирать, оценивать и интерпретировать данные о джек-потах и призываю остальных делать то же самое. Только так мы сможем по-настоящему преодолеть путаницу относительно этого тонкого инструмента.

Удачи в дрессировке.

Источники:

AZA (2017). AZA animal training terms and descriptions. From AZA Professional Development Courseswww.aza.org

Muir, K & Rosales-Ruiz, J. (2009). The effects of jackpots on frequency of response and choice. Presented at Association for Behavior Analysis Conference.

Pryor, K. (1984). Don’t Shoot the Dog.

Pryor, K. (2006). Jackpots: Hitting it Big. In: Letters from Karen. https://www.clickertraining.com/node/825

Rapp, J. (2008). Conjugate reinforcement: a brief overview and suggestions for applications to the assessment of automatically reinforced behavior. In Behavioral Interventions, Wiley InterScience 23: 113-136.

Автор: Кен Рамирез, https://clickertraining.com/the-jackpot-mystique

Перевод: «Плохие собаки»

Добавить комментарий