Apple hat eine KI entwickelt, die GPT-4 beim Verstehen von Befehlen übertreffen kann
Apple-Forscher haben ein System der künstlichen Intelligenz namens ReALM (Reference Resolution as Language Modeling) entwickelt, das die Art und Weise, wie Sprachassistenten Befehle verstehen und auf sie reagieren, erheblich verbessern soll.
In einem Forschungspapier, über das VentureBeat berichtet, stellt Apple ein neues System zur Lösung des Problems der Referenzerkennung (Hinweise, Referenzen oder Links) durch große Sprachmodelle vor. Dazu gehört es, mehrdeutige Hinweise oder Beschreibungen von Elementen auf dem Bildschirm zu entziffern und den Kontext des Gesprächs und den allgemeinen Hintergrund zu verstehen. Infolgedessen kann ReALM zu intuitiveren und natürlicheren Interaktionen mit Geräten führen.
Die Erkennung von Verweisen ist ein wichtiger Bestandteil des Verständnisses natürlicher Sprache und ermöglicht es den Nutzern, Pronomen und andere indirekte Verweise in Gesprächen zu verwenden, ohne sie zu verwechseln. Für digitale Assistenten war diese Fähigkeit in der Vergangenheit eine große Herausforderung, da sie eine Vielzahl von verbalen Hinweisen und visuellen Informationen interpretieren mussten. Das ReALM-System von Apple zielt darauf ab, dieses Problem zu lösen, indem es den komplexen Prozess der Referenzerkennung in eine rein linguistische Modellierungsaufgabe umwandelt. Auf diese Weise kann sie die Verweise auf visuelle Elemente auf dem Bildschirm verstehen und dieses Verständnis in den Gesprächsfluss integrieren.
ReALM rekonstruiert das visuelle Layout des Bildschirms anhand von Textdarstellungen. Dabei werden die Elemente auf dem Bildschirm und ihre Positionen analysiert, um ein Textformat zu erstellen, das den Inhalt und die Struktur des Bildschirms widerspiegelt. Die Apple-Forscher fanden heraus, dass diese Strategie in Verbindung mit spezifischen Modifikationen der Sprachmodelle für Referenzerkennungsaufgaben herkömmliche Methoden, einschließlich der GPT-4-Fähigkeiten von OpenAI, deutlich übertrifft.
ReALM kann es den Nutzern ermöglichen, effektiver mit digitalen Assistenten zu interagieren, indem sie sich merken, was gerade auf ihrem Bildschirm zu sehen ist, ohne dass sie genaue, detaillierte Anweisungen geben müssen. Dies hat das Potenzial, Sprachassistenten in einer Vielzahl von Situationen sehr viel nützlicher zu machen, z. B. bei der Bedienung von Infotainment-Systemen während der Fahrt oder bei der Unterstützung von Nutzern mit Behinderungen, indem sie eine einfachere und genauere Möglichkeit zur indirekten Interaktion bieten.
Apple hat bereits mehrere Forschungsarbeiten auf dem Gebiet der künstlichen Intelligenz veröffentlicht. Im vergangenen Monat stellte das Unternehmen eine neue Methode für das Training großer Sprachmodelle vor, die kontinuierlich Text- und Bildinformationen integriert. Es wird erwartet, dass Apple auf dem Worldwide Developers Congress im Juni eine Reihe von KI-Funktionen vorstellt.