Japan hat einen humanoiden Roboter auf Basis des GPT-4 entwickelt: Das Ergebnis ist beeindruckend (Video)
Ein Team der Universität Tokio hat Alter3 vorgestellt, einen humanoiden Roboter, der Bewegungen mit Hilfe des großen Sprachmodells GPT-4 (LLM) ausführen kann.
Alter3 nutzt das neueste Open AI-Tool, um dynamisch eine Vielzahl von Posen einzunehmen, von der Selfie-Pose bis zur Geister-Imitation, und das alles ohne vorprogrammierte Datenbankeinträge.
“Die Reaktion von Alter3 auf gesprochene Inhalte durch Mimik und Gestik ist ein bedeutender Fortschritt in der humanoiden Robotik, der mit minimalen Änderungen leicht an andere Androiden angepasst werden kann”, so die Forscher.
Im Bereich der LLM-Integration mit Robotern liegt der Schwerpunkt auf der Verbesserung der grundlegenden Kommunikation und der Modellierung realistischer Reaktionen. Die Forscher erforschen auch die Möglichkeiten von LLM, um Roboter in die Lage zu versetzen, komplexe Anweisungen zu verstehen und auszuführen und damit ihre Funktionalität zu erhöhen.
Traditionell ist die Steuerung von Low-Level-Robotern an Hardware gebunden und liegt außerhalb der Kompetenz von LLM-Unternehmen. Dies führt zu Schwierigkeiten bei der direkten Verwaltung von LLM-basierten Robotern. Um dieses Problem zu lösen, hat das japanische Team eine Methode entwickelt, mit der menschliche Bewegungsausdrücke in einen für Androiden verständlichen Code umgewandelt werden können. Das bedeutet, dass der Roboter selbstständig zeitliche Handlungsabläufe generieren kann, ohne dass die Entwickler jedes Körperteil einzeln programmieren müssen.
Während der Interaktion kann eine Person Alter3 Befehle geben, wie zum Beispiel “Mach ein Selfie mit deinem iPhone”. Anschließend initiiert der Roboter eine Reihe von Abfragen an GPT-4, um Anweisungen für die notwendigen Schritte zu erhalten. GPT-4 übersetzt dies in Python-Code, der es dem Roboter ermöglicht, die notwendigen Bewegungen zu “verstehen” und auszuführen. Diese Innovation ermöglicht es Alter3, seinen Oberkörper zu bewegen, während sein Unterkörper fest mit dem Ständer verbunden bleibt.
Alter3 ist die dritte Iteration der Alter-Serie humanoider Roboter seit 2016 und verfügt über 43 Aktuatoren, die für die Mimik und die Bewegungen der Gliedmaßen zuständig sind und alle mit Druckluft betrieben werden. Diese Konfiguration bietet eine breite Palette an ausdrucksstarken Gesten. Der Roboter kann nicht gehen, aber er kann typische Geh- und Laufbewegungen nachahmen.
Alter3 demonstrierte auch die Fähigkeit, menschliche Posen mit einer Kamera und dem OpenPose-Framework zu kopieren. Der Roboter passt seine Gelenke an die beobachteten Körperhaltungen an und speichert erfolgreiche Imitationen für den späteren Gebrauch. Die Interaktion mit einem Menschen führte zu einer Vielzahl von Körperhaltungen, was die Idee unterstützt, dass verschiedene Bewegungen durch die Nachahmung eines Menschen entstehen, so wie Neugeborene durch Nachahmung lernen.
Vor der Einführung von LLM mussten die Forscher alle 43 Aktuatoren sorgfältig steuern, um eine menschliche Pose zu reproduzieren oder ein Verhalten nachzuahmen, z. B. das Servieren von Tee oder das Schachspielen. Dies erforderte zahlreiche manuelle Einstellungen, aber die KI half dem Team, sich von dieser Routine zu befreien.
“Wir gehen davon aus, dass Alter3 durch kontextabhängige Mimik und Gestik einen effektiven Dialog führen wird. Es hat die Fähigkeit bewiesen, Emotionen zu spiegeln, z. B. Traurigkeit oder Freude zu zeigen, und so Emotionen mit uns zu teilen”, so die Forscher.