
Google hat heute zwei neue Varianten seines KI-Systems Gemini vorgestellt, die speziell für die Robotersteuerung entwickelt wurden. Diese revolutionären Modelle tragen die Namen Gemini Robotics und Gemini Robotics-ER.
Gemini Robotics steuert Roboteraktionen direkt, während Gemini Robotics-ER die räumliche Wahrnehmung von Gemini erweitert und in der Lage ist, neue Fähigkeiten zu entwickeln. Ein Beispiel für diese Weiterentwicklung ist ein Zwei-Finger-Griff, der es Robotern ermöglicht, eine Kaffeetasse anzuheben. Google DeepMind arbeitet in diesem Projekt mit dem texanischen Roboter-Start-up Apptronik zusammen, das den humanoiden Roboter «Apollo» entwickelt hat, der für Logistik- und Fertigungsaufgaben konzipiert ist.
Wesentliche Eigenschaften der neuen KI-Modelle
Die neuen KI-Modelle zeichnen sich durch drei wichtige Eigenschaften aus, die für nützliche Anwendungen in der Robotik entscheidend sind:
- Allgemeinheit: Die Anpassungsfähigkeit an verschiedene Situationen und die Fähigkeit, unbekannte Aufgaben zu lösen, stellt sicher, dass Gemini Robotics in vielen Szenarien effektiv eingesetzt werden kann.
- Interaktivität: Die Modelle verstehen und reagieren schnell auf Anweisungen sowie Veränderungen in ihrer Umgebung. Dies ermöglicht eine intuitive Interaktion mit Menschen.
- Geschicklichkeit: Sie beherrschen komplexe Aufgaben, die präzise Handhabung erfordern, wie das Falten von Origami oder das Packen von Snacks in Ziploc-Beutel.
Wie [Fraenkischer Tag](https://www.fraenkischertag.de/ueberregional/wirtschaft/netzwelt/neue-google-ki-kann-roboter-steuern-art-430261) berichtete, soll Gemini Robotics in allen drei Bereichen einen Leistungsschub bieten. Demonstrationsvideos zeigen die Leistungsfähigkeit des Systems, darunter das Sortieren von Gegenständen.
Google beabsichtigt, die Roboter-KI einer Auswahl von Testern zur Verfügung zu stellen, darunter Agile Robots, Agility Robots, Boston Dynamics und Enchanted Tools. Ein wesentlicher Bestandteil des Projekts sind auch Sicherheitsaspekte, insbesondere die Vermeidung von Kollisionen. Gemini Robotics-ER kann sicherheitskritische Steuerungen integrieren und bewerten, ob Maßnahmen in einem bestimmten Kontext sicher sind.
Laut [DeepMind](https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/) basiert das Modell Gemini Robotics auf einer verbesserten Version von Gemini 2.0 und bietet Fortschritte im multimodalen Denken, das Text, Bilder, Audio sowie Video umfasst. Die Modelle sind darauf ausgelegt, die Herausforderungen der physischen Welt zu meistern, wobei ein Fokus auf die physische Sicherheit von Robotern und Menschen gelegt wird.
Ein datengestütztes Regelwerk zur Steuerung des Verhaltens von Robotern wird in Zusammenarbeit mit Experten entwickelt, um sicherzustellen, dass die Technologie verantwortungsvoll zum Einsatz kommt. Die Verfügbarkeit von Gemini Robotics-ER wird auf vertrauenswürdige Tester beschränkt sein, um die Entwicklung und Implementierung weiter zu optimieren.