Когда работа становится наградой

Ранее мы писали о том, почему мы тренируем собак без принуждения, и в то же время мы намекнули на один веский аргумент в пользу обучения, основанного на награде. Давайте рассмотрим этот вопрос подробнее.

bob-jagendorf

Как уже говорилось, собаки, обученные без использования аверсивов, работают радостно. Они испытывают положительные эмоции, когда слышат сигнал к началу поведения. Такие эмоции приятны для обоих участников процесса обучения, но это гораздо больше, чем просто побочный эффект метода дрессировки.

Важно помнить, что эмоции, которые вы испытываете, когда учитесь новому, связываются с поведением навсегда. Вот почему очень важно знакомить собак (и людей!) с новым навыкам в позитивном ключе. Какой воспитатель в детском саду научит большему — тот, кто поощряет интерес с игрушкам, книгам, творчеству, песням, или тот, кто пытается читать лекции своим ученикам, ерзающим за партами?


Вот здесь и начинается самое интересное для дрессировщиков: выполнение действия, которому собака обучена с помощью награды — игры и пищи, становится настолько приятным, что
может стать наградой само по себе. Это передовая концепцией обучения, которая может показаться сложной, но наблюдать ее в действии — что-то потрясающее и удивительное. С научной точки зрения сигнал, используемый таким образом, называется третичным подкреплением.

Что это значит? Дело в том, что положительное подкрепление (вознаграждение) бывает трех видов. Первичное (или безусловное) подкрепление — то, что необходимо для выживания организма: пища, вода, шанс выполнить инстинктивное поведение. Пища — основное первичное подкрепление, которое мы используем. Вторичное (условное) подкрепление — то, что стало значимо для собаки после приучения: похвала, хлопки в ладоши, поглаживания, мячики и другие игрушки. Третичное подкрепление — это сигналы для поведения, которое собака знает и любит.

Начинающие дрессировщики часто сталкиваются с трудностями, желая отучить своих собак от награды. Идея о том, что нужно «уйти от подкрепления», ошибочна. Умному дрессировщику не нужно отучать своих собак от подкрепления, потому что подкреплением становятся сами действия собаки. Для нее реагировать на сигнал тренера выгодно, потому что ей приятно совершать это действие. На этом принципе мы можем строить сложные цепочки поведения.

Вот как это работает. Допустим, ваша собака уже знает и любит выполнять команды «сидеть», «лежать», «поклон», «дай пять», а ходить назад она пока учится. Ваша тренировка может выглядеть следующим образом:

Лежать — Сидеть — Дай пять — Перетягивание — Поклон — Сидеть — Назад — Клик/Еда — Лежать

Сколько раз собака получила награду в последовательности, указанной выше? Если вы неопытны или применяете какое-либо принуждение в обучении, то вы используете два вторичных подкрепления (перетягивание и щелчок) и одно первичное — лакомство. Это означает, что между получением этих наград собака должна совершить довольно много действий. Существует научное определение для этой ситуации — вариабельный режим подкрепления, которое означает, что не каждое действие собаки будет подкреплено. Значит, режим подкрепления будет выглядеть следующим образом (награда выделена):

Лежать — Сидеть — Дай пять — Перетягивание — Поклон — Сидеть — Назад — Клик/Еда — Лежать

Когда сообразительный дрессировщик учит свою собаку без принуждения, то она чувствует себя счастливой, выполняя хорошо известное действие. Значит, режим подкрепления в этом случае будет совсем другим — практически непрерывным. Каждое поведение вознаграждается первичным либо вторичным подкреплением, либо шансом выполнить другое действие. Возможность работать теперь становится наградой. С точки зрения собаки, режим подкрепления выглядит так (награды выделены):

Лежать — Сидеть — Дай пять — Перетягивание — Поклон — Сидеть Назад Клик/ЕдаЛежать

Единственное поведение, которое не вознаграждается в этой последовательности — это «сидеть», потому что за ним следует команда «назад», которая пока не так уж нравится и/или хорошо известна собаке, чтобы выполнять функцию подкрепления.

Теперь вы понимаете, насколько эффективен этот подход. Собака, которая считает саму возможность поработать с вами чем-то приятным это более отзывчивая в обучении собака, способная выполнять сложные задачи (потому что каждый элемент цепочки для нее — награда). Ну разве не круто?!

Конечно, тренеры, которые не используют принуждения и наказание, могут иметь свою соображения на этот счет. В следующий раз мы рассмотрим некоторые примеры использования третичного подкреплений и обсудим, как учить сложным задачам, которые требуют выполнения нескольких действий подряд.

Пожалуйста, поделитесь своими историями ниже. Какую команду ваша собака любит выполнять больше всего? Что она делает без особой радости и в чем может быть причина? Мы с нетерпением ждем комментариев!

Автор: Сара Роше https://paws4udogs.wordpress.com/2012/03/09/work-as-a-reward-what-the-heck-is-a-tertiary-reinforcer-anyway/
Фото: Bob Jagendorf,

Перевод: «Плохие собаки»