Was ist der Unterschied zwischen instrumenteller und Operanter Konditionierung?

Im Gegensatz zur Klassischen Konditionierung, die auf unbewussten, willentlich nicht steuerbaren Prozessen beruht, wird die instrumentelle oder operante Konditionierung über bewusste Lernvorgänge gelenkt. Der instrumentellen Konditionierung liegt der "Try and Error"- Mechanismus zugrunde: Der Hund lernt, das ein bestimmtes Verhalten eine bestimmte Konsequenz nach sich zieht. Nach einigen Wiederholungen wird die Lernerfahrung im Hundehirn abgespeichert. Je nach Bedeutung des Lernerfolgs für den Hund, wird das Verhalten öfter oder weniger oft gezeigt werden.

Inhaltsverzeichnis Show

Das Konzept der Verstärkung und der Bestrafung
Diskriminative Stimuli
Typischer Verlauf einer Konditionierung
Weitere Grundbegriffe des operanten Konditionierens
Extinktion von Vermeidungsantworten
Positive Verstärkung
Negative Verstärkung
Was versteht man unter instrumenteller Konditionierung?
Was ist klassisches und Operantes Konditionieren?
Was ist der Unterschied zwischen einer klassischen und Operanten Gegenkonditionierung?
Welche Formen gibt es beim Operanten konditionieren?

Ein Beispiel: Ein Hund findet heraus, dass er, wenn er gegen einen Hebel stubst, eine Futterbelohnung erhält. Er wird nun immer häufiger dieses Verhalten zeigen, da es sich für ihn lohnt.

Verstärker entscheiden über das Auftreten eines Verhaltens

Die Faktoren, die die Wahrscheinlichkeit des Auftretens eines Verhaltens erhöhen oder verringern, nennt man Verstärker. Verstärker können alles Mögliche sein: Futter, Lob, Streicheleinheiten, Aufmerksamkeit, etc. sind positive Verstärker, die ein Verhalten dauerhaft festigen sollen.

Der Clicker ist ein positiver, erlernter (sekundärer) Verstärker.

Negative Verstärker kommen leider immer noch zum Einsatz; hierzu zählen sämtliche Strafreize, die ein Verhalten unterbinden sollen. Meist ist dies ohne Erfolg, so dass zu immer drastischeren Strafen gegriffen wird, ohne dass der Hund ein Alternativverhalten lernt.

Bei mir in der Hundeschule etwa wird nur ohne Strafreize gearbeitet. Warum das so ist, können Sie hier nachlesen.

Das Gute an der positiven Verstärkung ist, dass bei dieser Methode der Hund Spaß am Training hat, nachhaltig lernt und die Beziehung zum Halter oder der Halterin gefestigt wird. Es entstehen keine physischen oder psychischen Schäden beim Hund, die bei der Arbeit mit Strafen schnell auftreten – manchmal auch ohne dass der Besitzer es bemerkt.

Daneben gibt es auch selbstbelohnende Verhaltensweisen wie das Jagen oder Buddeln. Hier braucht es keinen Verstärker von außen, der Hund tut es immer, sobald er die Gelegenheit dazu bekommt.

Verhalten beeinflussen

Bei den Verstärkern gibt es verschiedene Möglichkeiten:

Positive Verstärkung: Etwas Gutes (z.B. Lob, Leckerli) wird hinzugefügt.
Negative Verstärkung: Der Hund wird von etwas Unangenehmen befreit (z.B. Nachlassen der Leinenspannung).
Positive Strafe: Der Hund wird durch Hinzufügen etwas Negativem bestraft (z.B. Würgehalsband, Wasserpistole).
Negative Strafe: Dem Hund wird etwas Positives weggenommen (z.B. Aufmerksamkeit).

Grundregeln fürs erfolgreiche Training

Das klingt alles sehr theoretisch, aber tatsächlich wenden Sie diese Art der Konditionierung ständig an. Damit die Lernprozesse wirklich gut verankert werden, ist es enorm wichtig, einen Trainingsplan zu haben:

Was soll der Hund genau lernen? Wie ist das Endergebnis der Übung?
Wie ist das Wort- und Handsignal?
Wie komme ich dorthin? Muss ich die Übung in Einzelteile zerlegen und kleinschrittig üben, wie beim Apportieren?
Was mag mein Hund gerne? Wie belohne ich ihn richtig?
Unter welchen Umständen kann mein Hund die Übung ausführen? Welche Ablenkungen gehen noch nicht?

Bitte gerade am Anfang nicht mit Belohnungen sparen! Die Mitarbeit muss sich für den Hund lohnen. Frustration beim Training ist für beide Seiten unschön und gefährdet auch langfristig den Trainingserfolg. Deshalb: Immer nur trainieren, wenn Sie und Ihr Hund Lust haben! Weitere Trainingsregeln finden Sie hier.

Skinner, der wichtigste Vertreter des operanten Konditionierens unterscheidet zwei Typen der Konditionierung:

Konditionierung Typ S(timulus): Damit ist das KK gemeint, bei dem bereits vorhandene Reaktionen auf neue Reizbedingungen konditioniert werden, die diese Reaktionen dann fast automatisch auslösen (Lernen neuer Auslösebedingungen). Skinner spricht auch von respondentem Konditionieren.
Konditionierung Typ R(eaktion): Beim Reaktionslernen geht es um das Entstehen und Verändern willkürlich und freiwillig ausgeübter Verhaltensweisen aufgrund von Reizen, die dem Verhalten folgen (Verstärkung). Ein Großteil menschlichen Verhaltens ist willkürlicher Natur und tritt auch auf, ohne dass bestimmte Reize es auslösen. Es ist jedoch wesentlich von den Konsequenzen abhängig, die ihm folgen. Es wird als operantes Verhalten bezeichnet, weil es in der Umwelt "operiert" bzw. weil es selbst etwas bewirkt.

Das operante Konditionieren besteht in der Beeinflussung der Auftretenswahrscheinlichkeit operanten Verhaltens durch bestimmte Verhaltenskonsequenzen. Operantes Lernen kann auch als Lernen neuer Verhaltens-Folge-Beziehungen verstanden werden. Unter Operantem Konditionieren versteht man auch das Lernen durch Versuch und Irrtum. Es läßt keine unmittelbaren Auslöser erkennen, bewirkt aber eine Reaktion in der Umwelt. Es wird durch seine Folgen gesteuert.

Das Grundprinzip ist das Bekräftigungslernen. Durch die planmäßige Gestaltung der Folgen einer Handlung wird die Auftretenswahrscheinlichkeit des Verhaltens verändert. Je nach Art der Folgen erhöht oder erniedrigt sich diese. Verstärker sind kontingent auftretende Folgen.

Es gibt drei wichtige Schritte:

eine wählbare Reaktionsklasse
eine verstärkende Verhaltenskonsequenz
eine Kontingenz zwischen Verhalten und Konsequenz

Auch beim operanten Konditionieren kann eine Stimuluskontrolle vorhanden sein. Z.B. kann die Handlung ausgelöst werden im Beisein bestimmter Stimuli und bei anderen Stimuli wird sie nicht ausgeführt. Die Stimuli haben daher nur Hinweisfunktion.

Thorndike formulierte das "Gesetz der Wirkung", das den Begriff "Lernen am Erfolg" beinhaltet. Zufällige Aktionen, die zu einer positiven Konsequenz für das Individuum führen, werden seiner Meinung nach selektiert und öfter eingesetzt. Für ihn war die Verknüpfung von Reiz und Reaktion, nicht einfach nur durch Wiederholung und Kontiguität vorhanden, sondern ebenfalls an eine Verstärkung gebunden. Diese Verstärkung bezieht sich auf die subjektive Wahrnehmung des Lernenden. Wenn die Verknüpfung von Reiz und Reaktion einen Zustand der Befriedigung (verstärkender Effekt) für das Individuum darstellt, wird die Verknüpfung gestärkt. Im Gegensatz dazu zieht der Effekt einer Nichtbefriedigung eine Schwächung der Verknüpfung nach sich.

Burrhus Frederic Skinner führte in den USA Tierversuche mit Tauben und Ratten durch. Auch dazu wurde eine künstliche Experimentalsituation entwickelt, die Skinner-Box:

Siehe dazu im Detail

Operante Konditionierung bei Skinner

Das Konzept der Verstärkung und der Bestrafung

Unter einem Verstärker versteht man jeden dem Verhalten folgenden Stimulus, der die Verhaltenshäufigkeit steigert. Bei der Bestrafung verhält es sich umgekehrt: Unter einer Bestrafung versteht man jeden dem Verhalten folgenden Stimulus, der die Verhaltenshäufigkeit mindert. Auch Verhaltensweisen können als Verstärker bzw. Bestrafung fungieren.

Primäre Verstärker/Bestrafung hängen mit biologischen Bedürfnissen zusammen (z.B. Futter, E-Schock). Sekundäre Verstärker entstehen durch Koppelung (z.B. durch klassische Konditionierung!) mit primären Verstärkern (z.B. zu Essen geben + Lächeln). Sekundäre bzw. soziale Verstärker (z.B. Geld, soziale Anerkennung) spielen eine größere Rolle als primäre Verstärker. In vielen Fällen führen sie zu primärer Verstärkung oder können gegen eine solche eingetauscht werden. Sekundäre Verstärker sind leichter und unmittelbarer einsetzbar.

Wesentlich für die Verstärkung ist die Kontingenz, d.h. es muß eine Korrelation zwischen Verhalten und Verstärker bestehen. Es darf keine Verstärkung erfolgen, wenn das Verhalten nicht auftritt!

Es gibt 4 Arten von Verstärkung und Bestrafung:

Positive Verstärkung: Durch einen Verstärker kommt es zu einer Erhöhung der Auftretenswahrscheinlichkeit des Verhaltens. Folgt dem Verhalten ein positives Ereignis (Verstärker), kommt es zu einer positiven Konsequenz. Als Beispiel dafür wäre ein Kind, das jedes Mal, wenn es sein Zimmer aufräumt, gelobt wird. Als Konsequenz wird dieses Kind jetzt öfter sein Zimmer aufräumen. Weitere Beispiele: Lernverhalten - Lob; Uni-Tassen im Automaten abgeben - Erhalt eines Bons.
Negative Verstärkung: Hier folgt auf das Verhalten ein Ausbleiben eines unangenehmen Ereignisses (Verstärker). Ein Beispiel hierfür wäre die Drohung der Eltern ein Kinder-Fest abzusagen, sollten die Hausaufgaben nicht gemacht werden. Diese Drohung wird nicht verwirklicht, weil das Kind seine Hausaufgaben erledigt. Weitere Beispiele: Lernverhalten - kein Tadel des Lehrers oder keine ständigen Ermahnungen der Eltern mehr; Auftreten von Übelkeit vor einer Prüfung - Prüfung kann nicht absolviert werden, somit kommt es zu einer entlastenden Verstärkung (Auftreten von Übelkeit wird verstärkt durch Ausbleiben eines unangenehmen Ereignisses).
Vor allem Vermeidungsverhalten wird durch negative Verstärkung aufrechterhalten: In Gefahrensituation (z.B. hohes Gebäude) tritt Vermeidungsverhalten auf (Vermeiden hoher Gebäude) und wird durch Ausbleiben von Angstzuständen verstärkt. Dadurch wird verhindert, dass die Angstreaktion gelöscht werden kann.
Bestrafung durch aversive Reize: In dieser Form des Lernens folgt dem Verhalten ein unangenehmes Ereignis (Bestrafung). Ein Kind bekommt aufgrund seines schlechten Benehmens zu seinem Bruder das Verbot zu Fernsehen. Es kommt zum Entzug eines positiven Reizes. Bei zu aversiver Bestrafung kann es zu klassischer Konditionierung kommen, so dass z.B. der Lehrer oder ein Elternteil zu einem CS wird, der negative Emotionen auslöst. Solche Nebenwirkungen sollten bei Bestrafung vermieden werden. Entscheidend für die Wirkung von Bestrafung ist u.a., dass ein Alternativverhalten zur Verfügung steht, das belohnt wird.
Bestrafung durch Entziehung positiver Reize (Löschung): Auf ein Verhalten folgt weder ein unangenehmes noch ein angenehmes Ereignis. Ein Schüler benutzt im Unterricht oft das Wort "Scheiße" Der Lehrer ignoriert diesen Begriff und es kommt somit zur Löschung. Der Schüler kann damit keine Aufmerksamkeit erregen. Weitere Beispiele: Fehlverhalten - "Liebesentzug", Entzug bereits versprochener Belohnungen, etc.

Auch beim klassischen Konditionieren kann man von Verstärkung sprechen. Der Verstärker beim operanten entspricht dem UCS beim klassischen.

Diskriminative Stimuli

Auch beim operanten Lernen können Reize eine Rolle spielen, die dem Verhalten vorausgehen. Diese Reize können anzeigen, ob einem bestimmten Verhalten eine bestimmte Verstärkung folgen wird (positiver diskriminativer Reiz) oder nicht (negativer diskriminativer Reiz). Wenn ein bestimmtes Verhalten von diskriminativen Reizen beeinflusst wird, dann ist das Verhalten unter "Stimuluskontrolle". Experimentell kann man das so erzeugen, dass man ein Versuchstier z.B. nur dann für das Drücken eines Hebels belohnt, wenn vorher ein Licht aufleuchtet. Äußerlich kann dann beobachtet werden, dass das Licht das Hebeldrücken offenbar auslöst. In Wirklichkeit führt das Licht jedoch dazu, dass in dieser Situation für das Hebeldrücken eine Belohnung erwartet wird. Die diskriminativen Reize rufen das Verhalten also nicht hervor. Sie haben lediglich einen Informationswert bezüglich zu erwartender Verstärkungen.

Es gibt im Alltag viele Beispiele für Verhalten, das unter Stimuluskontrolle ist (z.B. der Anblick einer Zigarettenschachtel scheint oft unmittelbar den Griff zur Zigarette auszulösen, tatsächlich führt der Anblick jedoch zu der Erwartung eines belohnenden Ereignisses wenn der Griff zur Zigarette bzw. das Rauchen der Zigarette erfolgt).

Im Rahmen seiner Untersuchungen hat Skinner verschiedene "Verstärkungspläne" erarbeitet:

Für die Erhaltung des gewünschten Verhaltens ist eine konsequente Reaktion auf das gezeigte Verhalten nötig (Lob, Strafe etc.)
Wird die Konsequenz nur sporadisch (bzw. partiell) ignoriert, verstärkt sie u.U. das unerwünschte Verhalten.
Wird das gezeigte Verhalten ignoriert, führt dies zur dessen Extinktion (Ko)
Wenn der Operand sein Verhalten stabilisiert hat, kann man zu einer partiellen Verstärkung übergehen (dann ist die Gefahr der Löschung gering)

Weiterhin ist wie auch bei Pawlow eine Kontiguität zwischen dem gezeigten Verhalten und der Konsequenz notwendig. Das Kind muß z.B. erkennen können, dass die Strafe sich auf ein spezifisches unerwünschtes Verhalten bezieht. Wenn dem nicht so ist, wächst die Gefahr einer Generalisierung.

Typischer Verlauf einer Konditionierung

Weitere Grundbegriffe des operanten Konditionierens

Vermeidung

Bei dem Vermeidungstraining erhält ein Organismus einen aversiven Reiz, wenn er eine bestimmte Reaktion nicht ausführt.

Extinktion von Vermeidungsantworten

Beim "flooding" ist der Organismus nicht in der Lage die bestimmte Reaktion auszuführen, um den aversiven Reiz zu vermeiden. Er befindet sich in der unabgenehmen Lage und zeigt Erregung. Wenn allerdings nach einiger Zeit kein aversiver Reiz erfolgt, obwohl er die Reaktion nicht ausgeführt hat, sinkt die Erregung.
Eine andere Möglichkeit wäre die Verabreichung des aversiven Stimulus unabhänig vom Verhalten des Individuums.

Positive Verstärkung

Wenn ein Organismus ein Verhalten zeigt und darauf hin eine angenehme Antwort folgt, so wird dieses Verhaltens öfters gezeigt.

Negative Verstärkung

Nach Ausführen eines Verhaltens sinkt die Wahrscheinlichkeit für das Auftreten einer aversiven Antwort.

Das Modell des operanten Konditionierens kennt drei Verlernenmechanismen:

Extinktion ist, wenn auf einen Operant lange keine Verstärkung erfolgt.
Kontrakonditionierung ist, wenn mit der unsprünglichen Reaktion unvereinbare Antworten auftreten, die allmählich an die Stelle der früheren Reaktion treten soll.
Bestrafung ist definiert als die Darbietung aversiver Stimuli.

Weitere Quellen
https://www.stangl-taller.at/TESTEXPERIMENT/experimentbspconditioning.html (01-01-22)
http://www.uni-bielefeld.de/idm/personen/shorsman/lerntheorie.html (01-01-22)
http://www.psychologie.uni-bielefeld.de/ae/AE12/LEHRE/Lernen.htm (01-01-22)
Edelmann, W. (1995). Lernpsychologie. Weinheim: Psychologie-Verlags-Union.

inhalt :::: nachricht :::: news :::: impressum :::: datenschutz :::: autor :::: copyright :::: zitieren ::::

Was versteht man unter instrumenteller Konditionierung?

Bei der instrumentellen Konditionierung wird die Verstärkung oder Abschwächung von instrumentellem Verhalten betrachtet. Das Verhalten wird also als Instrument (= Mittel, Werkzeug) eingesetzt, um etwas herbeizuführen.

Was ist klassisches und Operantes Konditionieren?

Konditionierung ist eine Lerntheorie (experimentell belegt) auf Basis des Reiz-Reaktions-Modells. Klassische Konditionierung (Reiz und Reaktion) und Operante Konditionierung (Reiz, positiver oder negativer Verstärker, Reaktion) sind zwei zu unterscheidende Konditionsverfahren.

Was ist der Unterschied zwischen einer klassischen und Operanten Gegenkonditionierung?

Die Verbindung dieser Reize kann durch Training (zu Beispiel eine Gegenkonditionierung ) verstärkt, verändert oder wieder gelöscht werden. Zwei Dinge (Reize) geschehen gleichzeitig - das Gehirn verbindet sie. Als operantes Konditionieren bezeichnet man eine Änderung des Verhaltens durch Belohnung oder Bestrafung.

Welche Formen gibt es beim Operanten konditionieren?

Man unterscheidet beim operanten Konditionieren zwischen vier Formen. Zu diesen gehören zunächst die positive und die negative Verstärkung, dann die Bestrafung und zuletzt die Löschung.