Branchen Nachrichten

Ist AlphaZero es wert, gespielt zu werden?

2018-06-02

DeepMind, eine Firma für künstliche Intelligenz im Besitz von Google, hat ein neues Papier veröffentlicht, in dem beschrieben wird, wie das Team mit AlphaGos maschinellem Lernsystem ein neues Projekt namens AlphaZero aufbaute. AlphaZero verwendet KI-Technologie namens "Reinforcement Learning", die nur grundlegende Regeln verwendet, keine menschliche Erfahrung, Training von Grund auf, fegte die Brettspiel-AI.

AlphaZero eroberte zuerst Go und explodierte ein weiteres Brettspiel: Unter den gleichen Bedingungen hatte das System acht Stunden Training und besiegte die erste KI, die Menschen besiegt hatte - Li Shishi Version AlphaGo; Nach 4 Stunden Training besiegte AI Elmo das stärkste Schachspiel AI Stockfish und besiegte in 2 Stunden das stärkste (japanische Schach) AI Elmo. Selbst der stärkste Go-Spieler, AlphaGo, wurde nicht verschont. Ausgebildet für 34 Stunden schlug AlphaZero AlphaGo Zero, der 72 Stunden trainierte.

Chart / Anzahl der Draws, Draws oder Verluste im Spiel aus der AlphaZero-Perspektive (aus dem DeepMind Team Paper)

Das Lernen zu stärken ist so stark. Was ist es?

Adit Deshpande, ein bekannter AI-Blogger der Universität von Kalifornien, Los Angeles (UCLA), veröffentlichte in seinem Blog eine Artikelserie über Deep Learning Research Review, die die Macht hinter dem Sieg von AlphaGo erklärt. In seinem Artikel stellte er vor, dass der Bereich des maschinellen Lernens in drei Kategorien unterteilt werden kann: überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen. Verstärkendes Lernen kann verschiedene Aktionen in verschiedenen Situationen oder Umgebungen erlernen, um die besten Ergebnisse zu erzielen.

Foto / Adit Deshpandes Blog Deep Learning Research Review Woche 2: Reinforcement Learning

Wir stellen uns einen kleinen Roboter in einem kleinen Raum vor. Wir haben diesen Roboter nicht programmiert, um sich zu bewegen oder zu gehen oder etwas zu unternehmen. Es steht nur da. Wir möchten, dass es sich in eine Ecke des Raumes bewegt, Belohnungspunkte erhält, wenn Sie dort ankommen, und jedes Mal, wenn Sie gehen, Punkte verlieren. Wir hoffen, dass der Roboter den vorgesehenen Ort so weit wie möglich erreicht und der Roboter sich in vier Richtungen bewegen kann: Osten, Süden, Westen und Norden. Roboter sind eigentlich sehr einfach. Welches Verhalten ist am wertvollsten? Natürlich ist es ein ausgewiesener Ort. Um die größte Belohnung zu erhalten, können wir Roboter nur Aktionen nutzen lassen, die den Wert maximieren.
Foto / Adit Deshpandes Blog Deep Learning Research Review Woche 2: Reinforcement Learning

Welchen Wert hat AlphaZeros Explosion von menschlichen Schachspielen?

AlphaGo Zero ist ein Durchbruch, ist AlphaZero auch? Ausländische Experten analysierten, dass diese vier bahnbrechende technologische Fortschritte erzielt haben:

Zuerst optimiert AlphaGo Zero gemäß der Gewinnquote, berücksichtigt nur Sieg, negative zwei Arten von Ergebnissen; Und AlphaZero ist nach dem Ergebnis, um die Optimierung fortzusetzen, hat die Möglichkeit wie tie berücksichtigt.

Zweitens wird AlphaGo Zero die Board-Richtung für das Verstärkungslernen ändern, während AlphaZero dies nicht tut. Go Board ist gestapelt, Schach und Schach nicht, also ist AlphaZero vielseitiger.

Drittens wird AlphaGo Zero weiterhin die beste Version der Ersatzrate wählen, während AlphaZero nur ein neuronales Netzwerk aktualisiert, wodurch das Risiko schlechter Trainingsergebnisse reduziert wird.

4. Die Hyperparameter im Suchbereich von AlphaGo Zero werden durch Bayessche Optimierung erhalten. Die Auswahl hat einen großen Einfluss auf das Schätzergebnis. AlphaZero verwendet dieselben Hyper-Parameter für alle Spiele, so dass keine spezifischen Anpassungen für das Spiel vorgenommen werden müssen.

Das vierte Paradigma des Senior Machine Learning Architekten Tu Weiwei sagte Geek Park, dass AlphaZero Durchbrüche und Einschränkungen hat:

Erstens, DeepMind Der Kern dieser Arbeit besteht darin, die Vielseitigkeit der AlphaGo Zero-Strategie für das Schachproblem zu beweisen. Es gibt kein besonderes Highlight in der Methode. AlphaZero ist eigentlich eine erweiterte Version der AlphaGo Zero-Strategie von Go zu anderen ähnlichen Brettspielen und schlägt das andere Technologie-basierte Brettspiel AI. Sie waren die besten vorher.

Zweitens ist AlphaZero nur ein & quot; universal & quot; Motor für ähnliche Brettspiele, die ein gut definiertes und perfektes Informationsspiel haben. AlphaZero wird weiterhin Schwierigkeiten bei komplexeren anderen Problemen haben.

Früher, als Ryukyu Sun Jian AlphaGo Zero interpretierte, sagte er: "Fortified Learning kann auf viele andere Bereiche ausgedehnt werden und es ist nicht so einfach, es in der realen Welt zu verwenden. Zum Beispiel kann verstärkendes Lernen verwendet werden, um neue Drogen und neue Drogen zu erforschen. Die Struktur muss durchsucht werden. Nach der Suche wird es zur Medizin gemacht. Dann, wie man die Medizin wirklich prüft, ist wirkungsvoll. Diese Closed-Loop-Kosten sind sehr teuer und sehr langsam. Es ist sehr schwierig für dich, es so einfach wie Schach zu machen. "

Drittens benötigt AlphaZero auch eine Menge Computerressourcen, um das relativ "einfache" Problem zu lösen. Schachproblem, und die Kosten sind sehr hoch. Geek-Parks zufolge erklärte DeepMind in der Zeitung, dass sie 5000 TPUs der ersten Generation zur Erzeugung selbstspielender Spiele verwendet und 64 TPUs der zweiten Generation zum Trainieren neuronaler Netze verwendet hätten. Zuvor sagten einige Experten zu bestimmten Medien, dass, obwohl die Leistung der TPU erstaunlich ist, die Kosten sehr hoch sein werden. Auch einige Investoren einer internationalen Venture-Capital-Organisation haben sich in diesem Kreis angefreundet. Eines der Wörter ist: & quot; Dieser teure Chip, ich schaue nur ... & quot;

Viertens kann der aktuelle AlphaZero eine Entfernung von "Go God" sein. auf gehen. Gewinner sind nicht Gott. Die derzeitige Netzwerkstruktur und Trainingsstrategie sind nicht optimal. Eigentlich lohnt es sich weiter zu studieren.

Obwohl es gewisse Einschränkungen gibt, lohnt es sich, Anwendungsszenarien auszugraben. Es gibt viele andere Forschungsbereiche, die es wert sind, in der Forschung berücksichtigt zu werden, die das maschinelle Lernen allgemeiner machen, wie AutoML, Migrationslernen und so weiter. Gleichzeitig ist es auch bemerkenswert, wie man eine allgemeinere KI-Engine zu geringeren Kosten (Rechenkosten, Domänenexpertenkosten) erhält und KI in praktischen Anwendungen wertvoller macht.

Drip Trips sind ein besonderes Gebiet. Laut Geek-Parks verwenden DJs Technologien der künstlichen Intelligenz, um Fahrer und Passagiere von unangemessenen geradlinigen Entfernungen (möglicherweise über Flüsse hinweg) zu Aufträgen abzustimmen. Passagiere mit dem geringsten Zeitaufwand für Autos erlebten viele technische Optimierungen. Sie hatten auch Probleme und arbeiteten hart für sie: Beim Training von Systemen künstlicher Intelligenz können Technologien wie GPU-Cluster verwendet werden. Wenn Fahrer und Passagiere jedoch aufeinander abgestimmt sind, ist Echtzeitleistung erforderlich und die Konfiguration wird reduziert. Daher ist es auch eine Forschung, wie Genauigkeit sichergestellt werden kann. Mitarbeiter haben das Problem untersucht.

Aber Tu Weiwei bestätigte DeepMinds Bemühungen in Richtung "universelle künstliche Intelligenz".