Im vergangenen Jahr wurde ein von ChatGPT repräsentiertes großes Sprachmodell zur „Spielregulierungsänderung“ im gesamten KI -Feld.
Unter ihnen ist es besonders erstaunlich, dass sie gemeinsame Fähigkeiten im Textszenenverständnis, der Textgenerierung und der Codegenerierung haben.Gleichzeitig haben Wissenschaftler auf diesem Gebiet festgestellt, dass sie diese grundlegenden Modelle verwenden können, um mit der Außenwelt zu interagieren, damit sie einige spezifische Aufgaben nahe dem wirklichen Leben der Menschen erledigen können.
Helfen Sie den Menschen, online zu kaufen.Und dieses Thema, das die Aufgabe unabhängig erledigen kann, wird als intelligent bezeichnet.
Um die Intelligenz zur Verbesserung ihrer Leistung zu schulen, verpflichten sich die Forscher derzeit für die Verwendung von Multi -STEP -Argumentation und Aktions -Trajektorie als Trainingsdaten.Unabhängig davon, ob künstliche Anmerkungen oder unterschiedliche schnelle Frameworks, erfordert das Sammeln der oben genannten Flugbahn viel Arbeitskräfte.
Zu diesem Zweck schlägt ein Forschungsteam der Tsinghua University kürzlich eine intelligente Stelle namens ACTRE vor, um Smart -Parteien zu helfen, den gesamten Prozess der Datenerfassung und -sevolution zu erkennen.
Als neue Art von Smart, Actre und React, befolgen Sie die Regeln der „Vernunft-dann-Handlung“.
Mit anderen Worten, ACTRE kehrt die Kausalität des Textes und der Handlungsausführung in der Reaktion um, um die Beschreibung der Textgründe für eine bestimmte willkürliche Aktion zu realisieren.
„Während der Ausführung des React Smart können Sie die Aktion, die Sie im nächsten Schritt ausführen müssen, probieren. Nachdem die neue Aktion erhalten wurde, kann sie an das ACTRE gesendet werden, um die Textbeschreibung für diese Aktion zu erhalten.
Anschließend wird der Grund für diesen Text vorne beschrieben, und die von den Proben erhaltenen Proben werden hinter sich gelassen, was ein Format der React -Referenzwirkung bildet.Yang Zonghan, Doktorand der Tsinghua University, erklärte.
Nachdem die Reaktionen und ACTRE miteinander zusammenarbeiten, können sie eine große diversifizierte Flugbahn in der Umwelt erhalten.Bis zum Ende der Flugbahn wird die Simulationsumgebung das Endergebnis geben, und letzteres ist natürlich zum Standard für die Beurteilung des guten oder schlechten Urteils geworden.
Experimente haben gezeigt, dass die oben gesammelten Daten sehr hohe Qualität aufweisen.
Yang Zonghan sagte: „Auch wenn React versagt, können Sie nach der Erkundung von Actre oft eine hohe Punktzahl erhalten.“
Es ist genau, dass dieser Sieg oder diese Niederlage genau verwendet wird, dass der intelligente Körper eine vergleichende Selbstverlagerung durchführen und dann eine große Verbesserung der Fähigkeit erzielen kann.
Am Ende erzielte das Forschungsteam in den beiden Umgebungen außergewöhnliche Ergebnisse: Webshop und AlfWorld, die im Experiment verwendet wurden.
Insbesondere verwenden sie das Open-Source-Sprachmodell des 7B-Parameters und den intelligenten Körper des Qlora-Parameters effizient und Feinabstimmung.
Gegenwärtig hat die intelligence -gesteuerte Intelligenz -gesteuerte Intelligenz einen hohen Maß an Anwendungswert, und diese Studie fördert effektiv die Autonomie des gesamten Prozesses der intelligenten Körperentfernung, um einen engeren Schritt zu erreichen.
Auf dieser Grundlage wird erwartet, dass zukünftige Intelligenz in vielerlei Hinsicht menschliche Assistenten spielen, um den Menschen zu helfen, von vielen wiederholten Angelegenheiten zu befreien.
Vor kurzem befinden sich die entsprechenden Papiere auf der Plattform vor dem Titel mit dem Titel Arxiv Veröffentlicht [1].Yang Zonghan ist der Erstautor, Professor Liu Yang von der Tsinghua University und Associate Professor Li Peng als Kommunikationsautor.
Training von Open -Source -Modellen mit großer Sprache, um es besser intelligent zu machen
Es versteht sich, dass Dr. Yao Shunyu und Mitarbeiter der Universität von Princeton bereits 2022 die Möglichkeit vorgeschlagen hatten, das Webshop Online -Shopping -Umfeld Webshop zu nutzen, um die Intelligenz zu testen.Immer wenn ein Einkaufen beendet ist, wird die Simulationsumgebung eine Punktzahl zurückgeben, um die Qualität dieses Einkaufs zu informieren und zu fragen, ob sie den anfänglichen Einkaufsbedürfnissen entsprechen kann.
Bevor ein großes Modell wie ChatGPT erschien, führte AI eine spezielle Schulung in analogen Umgebungen wie Webshop durch und konnte nur eine Erfolgsquote von 29% von 29% erzielen.Im Gegensatz dazu beträgt die durchschnittliche Erfolgsrate des Menschen um 50箝ie Erfolgsquote von Experten 60%.
Wenn ein großes Sprachmodell mit allgemeiner Fähigkeit erscheint, ist es nur erforderlich, eine einfache Eingabeaufforderung ohne zusätzliches Training zu erstellen, damit das große Modell die Textumgebung verstehen und Maßnahmen gemäß dem Feld Cat -Maining erzeugen und schließlich eine 40% erreichen kann Erfolgsrate in der kontinuierlichen iterativen Interaktion.
„Im Vergleich zur vorherigen Erfolgsrate hat dies Sprünge erreicht. Das Wichtigste ist, dass jeder feststellt, dass das große Modell wirklich häufig ist. Unabhängig davon, auf welchem Szenario basiert, können Sie eine einfache Eingabeaufforderung schreiben und im Fall keines Trainings. Lassen Sie das große Sprachmodell als nächstes versuchen, die Aufgabe auszuführen.
Daher gibt es seit März 2023 eine große Anzahl von Open -Source -Tools, wissenschaftliche Forschungsarbeit und unternehmerische Projekte über intelligente Parteien.
„Unter ihnen ist das Beeindruckendste, dass die Forscher von Nvidia vorgeschlagen haben, GPT-4 zu verwenden, um“ My World „Open Games zu spielen. Und Forscher der Stanford University in den USA haben vorgeschlagen, dass viele große Modelle verwendet werden können Um verschiedene Charaktere zu simulieren und sie in eine Umgebung zu setzen, genau wie das Science -Fiction -Drama „Western World“, um eine interaktive menschliche Gesellschaft zu simulieren.
Als Forscher, der seit 2017 in Kontakt mit natürlicher Sprachverarbeitung ist, war er schockiert über diese Fähigkeit, mit solchen Sprachmodellen und Umgebungen zu interagieren, und begann, diese Forschung zu untersuchen.
In Wirklichkeit stellte er jedoch fest, dass, wenn Sie nur Eingabeaufforderungen schreiben, um intelligente Parteien zu „befähigen“, letztere häufig nur den Anweisungen befolgen.
Yang Zonghan sagte: „Obwohl es anscheinend die Textbeschreibung der Umgebung zu kennen scheint und aus der Perspektive der tatsächlichen Ausführung eine gewisse Antwort geben kann, versteht es sie nicht vollständig.“
Nachdem die Intelligenz mehrere Aufgaben wie WebShop und andere simulierte Umgebungen ausgeführt hat, sammelt die Intelligenz viel Erfolg oder Misserfolg.
Können Sie diese früheren Trajektorien also weiter lernen, damit der intelligente Körper bei neuen Aufgaben stärker in die Fähigkeiten verfügt?
Hier ist erwähnenswert, dass es zwar viele intelligente Frameworks auf dem Markt gibt, sie jedoch häufig die Anwendungsprogrammierschnittstelle (API, Anwendungsprogrammierschnittstelle) aufrufen müssen, wodurch ein hohes Geldaufwand mit sich bringt.
Darüber hinaus ändert sich die API (wie ChatGPT und GPT-4) von Basismodellen im Laufe der Zeit, was für die prompt-basierten Smart Framework-Entwickler nicht freundlich ist.
“ Dies wird die Leistung des Smart stark schwanken.
Wie können wir das zugrunde liegende grundlegende Modell des Antriebs des intelligenten Körpers steuern?
Yang Zonghan wies darauf hin: „Wir glauben, dass wir Open -Source -Sprachmodelle für intelligentes Training verwenden können.“
Mit anderen Worten, wenn Sie das Gewicht des Modells in Ihren Händen halten, wird dies all dies besser kontrolliert.Darüber hinaus wird der Erfolg des Deep -Lernens selbst durch die Ausbildung neuronaler Netzwerke erhalten.Um den intelligenten Körper intelligenter zu machen, sollte die Art des Trainings vor Gericht gestellt werden.
Dies ist der Ursprung dieser Studie, dh durch das Training von Open -Source -Sprachmodellen wird sie zu einem besseren intelligenten Körper und hat dann eine stärkere Leistung in der Aufgabe, die in der Umwelt nicht zu sehen ist.
Schlug eine neue Art von Intelligenz vor, die das Niveau erhalten kann, das die Menschheit in allen unsichtbaren Testszenarien übersteigt
Nachdem das Forschungsziel festgelegt war, folgte die Herausforderung.
Kann das Team von Open Source das Team zunächst dabei unterstützen, einen guten intelligenten Körper zu schulen?
Die heutigen Open -Source -Modelle, insbesondere diejenigen, die im Labor leicht experimentiert werden können, sind im Allgemeinen 7B -Parameter.Im Vergleich zu den geschlossenen Quellmodellen wie GPT-4 gibt es immer noch eine große Lücke in den allgemeinen Fähigkeiten.
Zweitens macht die prompt -basierte Methode das Basismodell nicht zu einem dedizierten Modell.
Obwohl es sich um ein Modell des 7B -Parameters handelt, ist es außerdem viel Rechenleistung erforderlich, um alle Parameter zu feinen.
Daher nahm Yang Zonghan als vorläufiges Experiment eine effiziente feine Lösung für Parameter ein: nicht das Grundmodell von 7B -Parametern, sondern um dieses Modell durch Training einiger leichter Parametermodule anzupassen.
„Durch die Verwendung der Qlora -Methode kann ich auf Laborebene mit einem oder zwei 24 -GB -Speicherkarten experimentieren. Aufgrund der Stecker -in -Eigenschaften, wenn das Grundmodell des 7B -Parameters das Qlora -Parametermodul nicht hinzufügt, ist es Immer das.
Trotzdem hat das eigentliche Highlight gerade erst begonnen.
Offensichtlich muss das Training Daten haben, und die Datenquelle ist die interaktive Flugbahn von Intelligenz und Umgebung.
Die vorhandene Methode hängt hauptsächlich von zwei Methoden ab, um Daten zu erhalten, die von menschlichen Experten gekennzeichnet sind .
Leider können beide Methoden keine diversifizierten Trajektoriendaten mit großen Gewegen erhalten.Ersteres verlassen sich ausschließlich auf menschliche Marken, die hohe Arbeitskosten erfordert.
Diversifizierte Trajektoriendaten mit großem Gewinnspiel sind jedoch der Schlüssel zum Erfolg des Sprachmodells.
Wie löst ich dieses Problem?
Die Forscher wurden vom intelligenten Framework selbst inspiriert.Sie haben das vorhandene intelligente Framework beobachtet und festgestellt, dass sie im Allgemeinen Text als Grund für die nächste Aktion verwenden und dann wieder in die zu erledigende Aktion aufgetaucht sind.
React folgt dieser Idee.Die Intelligenz hat eine wunderbare Sache, die Menschen die Bewegung des intelligenten Körpers ändern können, indem sie den von dem Sprachmodell selbst während der Implementierung von React erzeugten Argumentinhalten ändern.
Auf diese Weise kann nur der Argumentationsinhalt der Argumentation an einem kritischen Ort geändert werden, und der intelligente Körper kann die verbleibende Flugbahn wiederholen.
Trotzdem erfordert die Verwendung von Arbeitskräften, um die React -Trajektorie direkt zu ändern, teure Kosten.
Wenn der intelligente Körper die Flugbahn unabhängig voneinander markieren kann, ist es gleichbedeutend mit der Erfassung von Daten und kann die gesammelten Daten auch verwenden, um sich selbst zu trainieren. Aufgabe.
Um die autonome Kennzeichnung von Argumentationsinhalten voranzutreiben, schlug das Forschungsteam vor, dass das intelligente ACTRE nicht nur automatisch mit der Argumentation gekennzeichneten Trajektoriendaten sammeln kann, sondern auch die Daten als Selbstverlagerung verwenden kann, um eine geschlossene Schleife zu bilden.
Da sich die beiden grundlegenden Punkte im intelligenten Bereich in einer komplizierteren realen Umgebung und einem effizienteren Lernmechanismus widerspiegeln, entscheidet sich die Studie, von letzterem zu schneiden, und nach vier Runden der Iteration in der Webshop -Umgebung ist die erhaltene Intelligenz nicht In allen in allen gesehen.
Nach vier Runden der Iteration in der Umgebung des Alfworms kann die erste Erfolgsrate der vorgeschlagenen Intelligenz in allen unsichtbaren Testszenarien erreicht werden.
„Dies beweist, dass unsere Methode wirksam ist und zeigt, dass wir in einer komplexeren realen Umgebung experimentieren müssen.“
Erwähnenswert ist erwähnenswert, dass das Forschungsteam in dieser Hinsicht auch über das „einheitliche Ausrichtungsprinzip der Intelligenz“ untersucht wurde [2].
Yang Zonghan sprach über die denkwürdigsten Inhalte im Forschungsprozess und sagte, es sei ein guter Artikel, der zumindest wöchentlich und endlos ist.
„Diese These wurde am 21. März 2024 eingereicht ArxivInsgesamt 39 Artikel, von denen 13 in diesem Jahr eingereicht werden Arxiv Vorgesetzter.Er erklärte weiter: „Angesichts eines so hohen Forschungsrhythmus, der Angst in seinem Herzen wird unweigerlich produzieren, vergrößern und ausbreiten.“
Als Yang Zonghan diese Schicht der Selbsterkenntnis in der natürlichen Sprachbehandlung erkannte, fühlte er sich sehr glücklich.
Schließlich wird der Erfolg des Sprachmodells vor einigen Jahren nicht nur allmählich unvorstellbar, sondern auch allmählich zu Realität, sondern auch immer unvorstellbarere Dinge fantasievoll sein.Für ihn spiegelt hinter der Angst auch sein eigenes Streben nach Selbstbewaffnung wider.
Der Grund, warum diese Studie abgeschlossen wurde, ist der Diskussion vieler Schüler wie Liu An, Liu Zijun und Liu Kaiming vom Forschungsteam sowie der Unterstützung von Lehrer Liu Yang und Lehrer Li Peng zurückzuführen.
„Ich habe das Glück, an der Welle der intelligenten Entwicklung teilzunehmen.“
Referenzmaterialien:
1.Z., Yang, S., Li, m., Yan.et al.React trifft ACTRE: Wenn Sprachagenten Datenautonomie genießen. Arxiv: 2403.14589
2.z., Yang, a., Liu, Z., Liu.et al. Arxiv: 2402.07744