Почему не следует смешивать кликер-метод и коррекцию.
Ученые определяют различительный стимул как выученный стимул, который запускает оперантное поведение. Насколько мне известно, бихевиористы не разграничивают различительные стимулы, которые были выучены с помощью положительного подкрепления, и те, для обучения которым использовалось отрицательное подкрепление.
Однако на практике существует заметная разница. В кликер-тренинге (оперантное научение с использованием сигнала-маркера) сначала мы формируем нужное поведение (оперант), которое предлагается свободно из-за ожидания положительного подкрепления. Затем мы соединяем различительный стимул с оперантом для того, чтобы стимул мог служить индикатором возможности получения положительного подкрепления. Каждый различительный стимул сообщает о том, что есть возможность заработать подкрепление одного определенного действия или набора действий.
Поэтому различительный стимул, который был выучен с помощью положительного подкрепления, всегда «открывает двери» положительному подкреплению. Если действие не выполняется, единственным возможным результатом будет отсутствие положительного подкрепления. Если действие выполняется, подкрепление гарантируется. Мы, кликер-тренеры, иногда называем этот тип сигналов «подсказками», чтобы отличать их от традиционных «команд».
Как только животное поймет, что означает определенный сигнал-подсказка, или позитивный различительный стимул, то этот сигнал сам по себе станет условным подкреплением, как щелчок кликера. Таким образом, сигнал может использоваться как подкрепление действия, которое совершается, когда подается сигнал. Например, можно использовать хорошо известный животному позитивный сигнал для действия, чтобы сформировать новое поведение, или для того, чтобы подкрепить предыдущее действие в цепочке. Сигнал может использоваться и как маркер, подобно щелчку кликера, чтобы выделить важный момент в поведении. Похоже на то, что позитивная эмоциональная реакция, которая, как мы знаем, ассоциируется со щелчком, возникает и при этих положительных условных стимулах.
Поведение, которые мы получаем при помощи коррекции, также может быть связано с различительными стимулами, которые сообщают о том, когда именно нужное поведение должно быть предъявлено. Однако эти стимулы, или «команды», не обязательно ведут к положительному подкреплению. Если животное не справляется с выполнением действия, или совершает его неправильно, стимул может приводить к наказанию (обычно называемому «коррекцией». Негативный различительный стимул, который называют «командой», становится условным отрицательным подкреплением, которое сообщает о том, что можно избежать наказания.
Если мы будем кликать за нужное поведение, которое следует за различительным стимулом (подсказкой, командой или сигналом), но также воздействовать коррекцией (рывком поводка, словесными замечаниями и тд) за неверно выполненное действие, которое следует за тем же стимулом, то, даже если поведение было сначала разучено целиком на положительном подкреплении, стимул мгновенно потеряет свою силу положительного подкрепления. В лучшем случае теперь он станет двусмысленным. Это уже не щелчок кликера. Стимул теперь не будет вызывать приятных эмоций, связанные с условным положительным подкреплением. Он больше не сможет предсказуемо использоваться в цепочке действий для того, чтобы подкрепить предыдущее действие.
Даже если вы будете часто использовать такое подкрепление, как игрушки, лакомство или одобрение, во время тренировки или после выступления на соревнованиях, различительный стимул (команда) сам по себе теперь станет нести и угрозу, и обещание одновременно. Поведение будет «разваливаться» и, что интересно, пострадает поведение, которое и предшествует, и следует за этим двойственным сигналом: предшествующее может начать угасать из-за недостатка условного положительного подкрепления, которое теперь заменил аверсивный стимул, а последующее пострадает потому, что из-за возможного наказания животное может начать избегать этого действия. Такой сдвиг становится заметен в изменении отношения учащегося к процессу: его поведение колеблется от внимания и энтузиазма до нежелания, которое часто сопровождается заметными проявлениями напряжения. Даже если за положительным ответом на данный различительный стимул по-прежнему следует награда, а за неудачей — наказание, то вы сделали различительный стимул двусмысленным с точки зрения предсказуемости результата. Теперь он не «безопасен». Вы отравили этот сигнал.
Карен Прайор, http://www.clickertraining.com/node/164
Перевод: «Плохие собаки».
Добавить комментарий