Eine effektivere Möglichkeit, Maschinen für unsicheres, reales zu trainieren
HeimHeim > Nachricht > Eine effektivere Möglichkeit, Maschinen für unsicheres, reales zu trainieren

Eine effektivere Möglichkeit, Maschinen für unsicheres, reales zu trainieren

Jul 26, 2023

Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.

Vorheriges Bild Nächstes Bild

Jemand, der Tennis spielen lernt, könnte einen Lehrer engagieren, der ihm hilft, schneller zu lernen. Da dieser Lehrer (hoffentlich) ein großartiger Tennisspieler ist, gibt es Zeiten, in denen der Versuch, den Lehrer genau nachzuahmen, dem Schüler nicht beim Lernen hilft. Vielleicht springt der Lehrer hoch in die Luft, um geschickt einen Volleyschuss zu erwidern. Der Schüler, der das nicht nachahmen kann, könnte stattdessen ein paar andere Bewegungen alleine ausprobieren, bis er die Fähigkeiten beherrscht, die er braucht, um einen Volleyschuss zu erwidern.

Informatiker können auch „Lehrer“-Systeme nutzen, um einer anderen Maschine beizubringen, eine Aufgabe zu erledigen. Aber genau wie beim menschlichen Lernen steht die Schülermaschine vor dem Dilemma, zu wissen, wann sie dem Lehrer folgen und wann sie selbstständig forschen soll. Zu diesem Zweck haben Forscher des MIT und des Technion, dem Israel Institute of Technology, einen Algorithmus entwickelt, der automatisch und unabhängig bestimmt, wann der Schüler den Lehrer nachahmen soll (bekannt als „Imitation Learning“) und wann er stattdessen durch Versuch und Irrtum lernen soll (bekannt als „Imitation Learning“) als Verstärkungslernen).

Ihr dynamischer Ansatz ermöglicht es dem Schüler, vom Nachahmen des Lehrers abzuweichen, wenn dieser entweder zu gut oder nicht gut genug ist, und dann zu einem späteren Zeitpunkt im Ausbildungsprozess wieder dem Lehrer zu folgen, wenn dies zu besseren Ergebnissen und schnellerem Lernen führen würde.

Als die Forscher diesen Ansatz in Simulationen testeten, stellten sie fest, dass ihre Kombination aus Versuch-und-Irrtum-Lernen und Nachahmungslernen es den Schülern ermöglichte, Aufgaben effektiver zu lernen als Methoden, die nur eine Art des Lernens verwendeten.

Diese Methode könnte Forschern dabei helfen, den Trainingsprozess für Maschinen zu verbessern, die in unsicheren realen Situationen eingesetzt werden, beispielsweise einem Roboter, der darauf trainiert wird, in einem Gebäude zu navigieren, das er noch nie zuvor gesehen hat.

„Diese Kombination aus Lernen durch Versuch und Irrtum und dem Befolgen eines Lehrers ist sehr wirkungsvoll. Sie gibt unserem Algorithmus die Fähigkeit, sehr schwierige Aufgaben zu lösen, die mit keiner der beiden Techniken einzeln gelöst werden können“, sagt Idan Shenfeld, Elektrotechnik und Informatik (EECS) Doktorand und Hauptautor einer Arbeit zu dieser Technik.

Shenfeld verfasste die Arbeit zusammen mit den Co-Autoren Zhang-Wei Hong, einem EECS-Doktoranden; Aviv Tamar; Assistenzprofessor für Elektrotechnik und Informatik am Technion; und leitender Autor Pulkit Agrawal, Direktor des Improbable AI Lab und Assistenzprofessor im Labor für Informatik und künstliche Intelligenz. Die Forschung wird auf der International Conference on Machine Learning vorgestellt.

Einen Ausgleich schaffen

Viele bestehende Methoden, die ein Gleichgewicht zwischen Nachahmungslernen und Verstärkungslernen anstreben, tun dies durch Brute-Force-Trial-and-Error. Die Forscher wählen eine gewichtete Kombination der beiden Lernmethoden aus, führen den gesamten Trainingsprozess durch und wiederholen den Vorgang, bis sie die optimale Balance gefunden haben. Dies ist ineffizient und oft so rechenintensiv, dass es nicht einmal machbar ist.

„Wir wollen Algorithmen, die auf Prinzipien basieren, möglichst wenige Regler einstellen und eine hohe Leistung erzielen – diese Prinzipien haben unsere Forschung vorangetrieben“, sagt Agrawal.

Um dies zu erreichen, ging das Team das Problem anders an als bei früheren Arbeiten. Ihre Lösung besteht darin, zwei Schüler auszubilden: einen mit einer gewichteten Kombination aus Verstärkungslernen und Imitationslernen und einen zweiten, der Verstärkungslernen nur zum Erlernen derselben Aufgabe verwenden kann.

Die Hauptidee besteht darin, die Gewichtung der Verstärkungs- und Nachahmungslernziele des ersten Schülers automatisch und dynamisch anzupassen. Hier kommt der zweite Schüler ins Spiel. Der Algorithmus der Forscher vergleicht die beiden Studenten kontinuierlich. Wenn derjenige, der den Lehrer nutzt, besser abschneidet, legt der Algorithmus mehr Gewicht auf Nachahmungslernen, um den Schüler zu schulen, aber wenn derjenige, der nur Versuch und Irrtum verwendet, anfängt, bessere Ergebnisse zu erzielen, wird er sich mehr auf das Lernen durch Verstärkungslernen konzentrieren.

Durch die dynamische Bestimmung, welche Methode bessere Ergebnisse erzielt, ist der Algorithmus anpassungsfähig und kann während des gesamten Trainingsprozesses die beste Technik auswählen. Dank dieser Innovation können Schüler effektiver unterrichtet werden als mit anderen Methoden, die nicht anpassungsfähig sind, sagt Shenfeld.

„Eine der größten Herausforderungen bei der Entwicklung dieses Algorithmus bestand darin, dass wir einige Zeit brauchten, um zu erkennen, dass wir die beiden Studenten nicht unabhängig voneinander trainieren sollten. Es wurde klar, dass wir die Agenten verbinden mussten, damit sie Informationen austauschen konnten, und dann das Richtige finden mussten.“ „Es ist eine Möglichkeit, diese Intuition technisch zu untermauern“, sagt Shenfeld.

Schwierige Probleme lösen

Um ihren Ansatz zu testen, führten die Forscher viele simulierte Lehrer-Schüler-Trainingsexperimente durch, beispielsweise die Navigation durch ein Lavalabyrinth, um die andere Ecke eines Gitters zu erreichen. In diesem Fall hat der Lehrer eine Karte des gesamten Gitters, während der Schüler nur einen Ausschnitt davor sehen kann. Ihr Algorithmus erzielte in allen Testumgebungen eine nahezu perfekte Erfolgsquote und war viel schneller als andere Methoden.

Um ihren Algorithmus noch schwieriger zu testen, erstellten sie eine Simulation mit einer Roboterhand mit Berührungssensoren, aber ohne Sehvermögen, die einen Stift in die richtige Pose umorientieren muss. Der Lehrer hatte Zugriff auf die tatsächliche Ausrichtung des Stifts, während der Schüler die Ausrichtung des Stifts nur mithilfe von Berührungssensoren bestimmen konnte.

Ihre Methode übertraf andere, die entweder nur Nachahmungslernen oder nur Verstärkungslernen verwendeten.

Die Neuausrichtung von Objekten ist eine von vielen Manipulationsaufgaben, die ein zukünftiger Heimroboter ausführen müsste, eine Vision, auf die das Improbable AI-Labor hinarbeitet, fügt Agrawal hinzu.

Das Lernen zwischen Lehrern und Schülern wurde erfolgreich angewendet, um Robotern beizubringen, komplexe Objektmanipulationen und Fortbewegungen in Simulationen durchzuführen und die erlernten Fähigkeiten dann in die reale Welt zu übertragen. Bei diesen Methoden stehen dem Lehrer privilegierte Informationen aus der Simulation zur Verfügung, über die der Schüler beim Einsatz in der realen Welt nicht verfügt. Beispielsweise kennt der Lehrer die detaillierte Karte eines Gebäudes, durch das der Schülerroboter navigieren soll, indem er nur die von seiner Kamera aufgenommenen Bilder verwendet.

„Aktuelle Methoden für das Schüler-Lehrer-Lernen in der Robotik berücksichtigen nicht die Unfähigkeit des Schülers, den Lehrer nachzuahmen, und sind daher leistungsbeschränkt. Die neue Methode ebnet den Weg für den Bau überlegener Roboter“, sagt Agrawal.

Abgesehen von besseren Robotern glauben die Forscher, dass ihr Algorithmus das Potenzial hat, die Leistung in verschiedenen Anwendungen zu verbessern, in denen Nachahmung oder verstärkendes Lernen zum Einsatz kommt. Große Sprachmodelle wie GPT-4 eignen sich beispielsweise sehr gut für die Bewältigung einer Vielzahl von Aufgaben. Daher könnte man das große Modell vielleicht als Lehrer verwenden, um ein kleineres Schülermodell so zu trainieren, dass es bei einer bestimmten Aufgabe noch „besser“ ist . Eine weitere spannende Richtung besteht darin, die Ähnlichkeiten und Unterschiede zwischen Maschinen und Menschen zu untersuchen, die von ihren jeweiligen Lehrern lernen. Eine solche Analyse könnte dazu beitragen, die Lernerfahrung zu verbessern, sagen die Forscher.

„Das Interessante an diesem Ansatz im Vergleich zu verwandten Methoden ist, wie robust er gegenüber verschiedenen Parameterwahlen zu sein scheint und in welcher Vielfalt von Bereichen er vielversprechende Ergebnisse zeigt“, sagt Abhishek Gupta, Assistenzprofessor an der University of Washington, der nicht daran beteiligt war diese Arbeit. „Während die aktuellen Ergebnisse größtenteils in Simulationen vorliegen, bin ich sehr gespannt auf die zukünftigen Möglichkeiten, diese Arbeit auf Probleme anzuwenden, die das Gedächtnis und das logische Denken mit unterschiedlichen Modalitäten wie der Tastwahrnehmung betreffen.“

„Diese Arbeit stellt einen interessanten Ansatz dar, frühere Rechenarbeit beim verstärkenden Lernen wiederzuverwenden. Insbesondere kann ihre vorgeschlagene Methode suboptimale Lehrerrichtlinien als Leitfaden nutzen und gleichzeitig sorgfältige Hyperparameterpläne vermeiden, die bei früheren Methoden erforderlich waren, um die Ziele der Nachahmung des Lehrers und der Optimierung der Aufgabe in Einklang zu bringen.“ Belohnung“, fügt Rishabh Agarwal hinzu, ein leitender Forschungswissenschaftler bei Google Brain, der ebenfalls nicht an dieser Forschung beteiligt war. „Hoffentlich würde diese Arbeit die Reinkarnation des verstärkenden Lernens mit erlernten Richtlinien weniger umständlich machen.“

Diese Forschung wurde teilweise vom MIT-IBM Watson AI Lab, der Hyundai Motor Company, dem DARPA Machine Common Sense Program und dem Office of Naval Research unterstützt.

Vorheriger Artikel Nächster Artikel

Eine Balance finden. Schwierige Probleme lösen