Когда работа становится наградой

Ранее мы писали о том, почему мы тренируем собак без принуждения, и в то же время мы намекнули на один веский аргумент в пользу обучения, основанного на награде. Давайте рассмотрим этот вопрос подробнее.

bob-jagendorf

Как уже говорилось, собаки, обученные без использования аверсивов, работают радостно. Они испытывают положительные эмоции, когда слышат сигнал к началу поведения. Такие эмоции приятны для обоих участников процесса обучения, но это гораздо больше, чем просто побочный эффект метода дрессировки.

Важно помнить, что эмоции, которые вы испытываете, когда учитесь новому, связываются с поведением навсегда. Вот почему очень важно знакомить собак (и людей!) с новым навыкам в позитивном ключе. Какой воспитатель в детском саду научит большему — тот, кто поощряет интерес с игрушкам, книгам, творчеству, песням, или тот, кто пытается читать лекции своим ученикам, ерзающим за партами?


Вот здесь и начинается самое интересное для дрессировщиков: выполнение действия, которому собака обучена с помощью награды — игры и пищи, становится настолько приятным, что
может стать наградой само по себе. Это передовая концепцией обучения, которая может показаться сложной, но наблюдать ее в действии — что-то потрясающее и удивительное. С научной точки зрения сигнал, используемый таким образом, называется третичным подкреплением.

Что это значит? Дело в том, что положительное подкрепление (вознаграждение) бывает трех видов. Первичное (или безусловное) подкрепление — то, что необходимо для выживания организма: пища, вода, шанс выполнить инстинктивное поведение. Пища — основное первичное подкрепление, которое мы используем. Вторичное (условное) подкрепление — то, что стало значимо для собаки после приучения: похвала, хлопки в ладоши, поглаживания, мячики и другие игрушки. Третичное подкрепление — это сигналы для поведения, которое собака знает и любит.

Начинающие дрессировщики часто сталкиваются с трудностями, желая отучить своих собак от награды. Идея о том, что нужно «уйти от подкрепления», ошибочна. Умному дрессировщику не нужно отучать своих собак от подкрепления, потому что подкреплением становятся сами действия собаки. Для нее реагировать на сигнал тренера выгодно, потому что ей приятно совершать это действие. На этом принципе мы можем строить сложные цепочки поведения.

Вот как это работает. Допустим, ваша собака уже знает и любит выполнять команды «сидеть», «лежать», «поклон», «дай пять», а ходить назад она пока учится. Ваша тренировка может выглядеть следующим образом:

Лежать — Сидеть — Дай пять — Перетягивание — Поклон — Сидеть — Назад — Клик/Еда — Лежать

Сколько раз собака получила награду в последовательности, указанной выше? Если вы неопытны или применяете какое-либо принуждение в обучении, то вы используете два вторичных подкрепления (перетягивание и щелчок) и одно первичное — лакомство. Это означает, что между получением этих наград собака должна совершить довольно много действий. Существует научное определение для этой ситуации — вариабельный режим подкрепления, которое означает, что не каждое действие собаки будет подкреплено. Значит, режим подкрепления будет выглядеть следующим образом (награда выделена):

Лежать — Сидеть — Дай пять — Перетягивание — Поклон — Сидеть — Назад — Клик/Еда — Лежать

Когда сообразительный дрессировщик учит свою собаку без принуждения, то она чувствует себя счастливой, выполняя хорошо известное действие. Значит, режим подкрепления в этом случае будет совсем другим — практически непрерывным. Каждое поведение вознаграждается первичным либо вторичным подкреплением, либо шансом выполнить другое действие. Возможность работать теперь становится наградой. С точки зрения собаки, режим подкрепления выглядит так (награды выделены):

Лежать — Сидеть — Дай пять — Перетягивание — Поклон — Сидеть Назад Клик/ЕдаЛежать

Единственное поведение, которое не вознаграждается в этой последовательности — это «сидеть», потому что за ним следует команда «назад», которая пока не так уж нравится и/или хорошо известна собаке, чтобы выполнять функцию подкрепления.

Теперь вы понимаете, насколько эффективен этот подход. Собака, которая считает саму возможность поработать с вами чем-то приятным это более отзывчивая в обучении собака, способная выполнять сложные задачи (потому что каждый элемент цепочки для нее — награда). Ну разве не круто?!

Конечно, тренеры, которые не используют принуждения и наказание, могут иметь свою соображения на этот счет. В следующий раз мы рассмотрим некоторые примеры использования третичного подкреплений и обсудим, как учить сложным задачам, которые требуют выполнения нескольких действий подряд.

Пожалуйста, поделитесь своими историями ниже. Какую команду ваша собака любит выполнять больше всего? Что она делает без особой радости и в чем может быть причина? Мы с нетерпением ждем комментариев!

Автор: Сара Роше https://paws4udogs.wordpress.com/2012/03/09/work-as-a-reward-what-the-heck-is-a-tertiary-reinforcer-anyway/
Фото: Bob Jagendorf,

Перевод: «Плохие собаки»

  • Marina Volotovskaya

    Как научить собаку любить выполнять команды/играть, когда ей это просто не интересно, хоть ты тресни. Вернее так: собака с удовольствием выполняет команды/играет первые 3 мин, после — ей интересно все вокруг, кроме меня. Я пробовала разные варианты и советы опытных дрессировщиков, и играем между командами (что, кстати, тоже интересно первые 3 мин), и на самом пике интереса перерывали игру, и делаем паузы на прогулки…ничего не меняется. Уже руки опускаются

    • Kseniya

      Собаки быстро устают от однообразной деятельности и очень немногие из них способны работать/играть три минуты подряд и больше.
      Если ваша собака теряет интерес через три минуты, попробуйте работать или играть с ней минуту (ставьте таймер), а потом отпускайте отдохнуть. Потому что если вы будете заставлять её делать что-то с вами дольше, то приятная поначалу деятельность может стать наказанием. Лучше предупредить это и отпускать собаку гораздо раньше, чем она устанет от вас. Со временем проведённое с вами время будет для собаки удовольствием (ведь вы не мучаете собаку играми против её желания и не расстраиваетесь, когда она теряет интерес), и тогда она захочет работать с вами дольше.
      Но это небыстрый процесс, какое-то время вам придётся себя ограничивать.
      Например, можно делать так: минуту играете (по таймеру) — пять минут собака сама по себе (на длинном поводке, допустим) — минуту играете — пять минут собака отдыхает и т.д. То же самое с командами: 2-4 повторения — 5-10 минут отдыха.
      Кроме этого есть смысл учить собаку новым навыкам методом фришейпинга (формирование, отбор поведения). Это интересно и развивает инициативность собаки, которая работает не просто так, а в тесном контакте с вами.