Warum KI-Brillen für autonome Küchenroboter?

Bei Circus SE werden unsere autonomen CA-1 Küchenroboter weltweit in großen Stückzahlen eingesetzt — von REWE-Supermärkten in Düsseldorf über Mercedes-Benz-Kantinen, die deutsche Bundeswehr bis hin zu Bildungseinrichtungen in Peking. Jede CA-1-Einheit ist ein in sich geschlossenes, verglastes Kochsystem mit zwei Roboterarmen, 36 Zutatensilos, KI-gesteuerter Computervision und Induktionserwärmung, das bis zu 2.000 Mahlzeiten pro Tag ohne menschliches Eingreifen zubereitet. Doch hinter jedem autonomen Roboter steckt immer noch eine entscheidende menschliche Rolle: der Bediener.

Menschliche Bediener sind für das Laden von Zutaten, die Durchführung von Montageverfahren, die Behandlung von Zwischenfällen und die Sicherstellung der Qualitätsstandards an allen CA-1-Standorten verantwortlich. Da wir weltweit expandieren, ist die Herausforderung, diese Bediener einzustellen und kontinuierlich zu schulen, zu einem der dringendsten Engpässe geworden. Es ist einfach nicht skalierbar, jeden neuen Mitarbeiter für mehrtägige Sitzungen nach München zu fliegen. Wir brauchten eine Lösung, die die Bediener direkt vor Ort auf Expertenebene in ihrer Sprache berät, auf ihr Qualifikationsniveau zugeschnitten ist und in Echtzeit verfügbar ist.

Diese Lösung kam, als Meta den frühen Entwicklerzugriff auf das Wearables Device Access Toolkit für die Ray-Ban Meta Gen 2-Brille eröffnete. Für Circus war dies eine natürliche Erweiterung einer bestehenden Technologiepartnerschaft: Wir integrieren bereits die großen Sprachmodelle von Lama von Meta in die sprachbasierte Kundenbestellungsschnittstelle des CA-1, über die Llama intelligente Menüberatung und personalisierte Ernährungsempfehlungen ermöglicht. Der Übergang von LLMs zu Hardware- und Bildverarbeitungsmodellen war der logische nächste Schritt.

Die Bediener-KI: Ein tragbarer Sparringspartner

Unsere Vision ist einfach: Rüsten Sie jeden Bediener mit einer „Operator AI“ aus — einem tragbaren, dialogorientierten KI-Assistenten, der bei der täglichen Arbeit als kompetenter Sparringspartner fungiert. Das System wird anhand des kompletten Schulungsmaterials für die Bediener geschult und ständig aktualisiert. Es hat parallelen Zugriff auf Betriebsdaten an allen CA-1-Standorten, einschließlich Live-Kamerafeeds in jeder Einheit, Systemprotokolle, Vorfälle in Echtzeit und Wartungshistorien.

Durch die Ray-Ban Meta-Brille kann ein Bediener einfach eine Frage stellen („Was ist der nächste Schritt für die Silomontage?“) , fordern Sie eine Sichtprüfung an („Erfassung — sieht das korrekt aus?“) , oder lassen Sie sich proaktiv benachrichtigen, wenn die KI durch die Brillenkamera eine Anomalie feststellt. Die Führung erfolgt über natürliche Sprachgespräche. Dank der kommenden Meta Ray-Ban Display-Brillen mit integriertem HUD und Meta Neural Band zur Gestensteuerung werden Bediener bald schrittweise Anweisungen direkt in ihrem Sichtfeld sehen — freihändig.

Technische Architektur: Von der Brille zur Cloud und zurück

Das Meta Wearables SDK als Low-Level-I/O-Plattform

Eine wichtige architektonische Entscheidung beruhte auf dem Wearables Device Access Toolkit von Meta, das uns direkten Zugriff auf den Kamerafeed, das Mikrofon und die Lautsprecher der Brille ermöglicht — keine proprietäre Middleware, keine Herstellerbindung auf der Softwareseite. Wir wählen unsere eigenen Modelle, unser eigenes Backend, unsere eigene Verarbeitungslogik. Das SDK bietet einfach die I/O-Brücke zwischen der Brillenhardware und unserer nativen mobilen Anwendung, die wir als React Native-Wrapper erstellt haben. Dieses Maß an Freiheit ist entscheidend für einen industriellen Anwendungsfall wie unseren, in dem wir die volle Kontrolle über das Datenrouting, die Modellauswahl und die Latenzoptimierung benötigen.

Das SDK unterstützt Kamera-Streaming mit einer Auflösung von bis zu 720p bei 30 FPS über Bluetooth, Fotoaufnahmen auf Abruf und vollständiges bidirektionales Audio. Dieser Zugriff auf niedriger Ebene ist ein erheblicher Vorteil: Er bedeutet, dass wir visuelle Daten an jedes Modell unserer Wahl weiterleiten und Audio durch ein beliebiges KI-Backend für Konversationen leiten können.

Architektur der Anwendung

Unsere Beispielanwendung dient sowohl als Vorbereitungstool als auch als Proxy auf dem Gerät. Sie extrahiert einzelne Fotos aus dem Live-Kamera-Feed mit konfigurierbaren Auflösungen, verwaltet die Orchestrierung der LLM-Tools (Auslösen von geführten Workflows, Akzeptieren/Ablehnen von Zwischenschritten, Starten von Anwendungsaktionen) und leitet Mikrofoneingang und Audioausgabe bidirektional zwischen der in der Cloud gehosteten Konversations-KI und dem Operator weiter.

Für die Konversationsebene verwenden wir die OpenAI Realtime API. Die Latenz ist bemerkenswert niedrig und die Handhabung von Unterbrechungen ist beeindruckend. Bediener können mitten im Satz abschneiden, um den Assistenten weiterzuleiten, was in schnelllebigen Küchenumgebungen unerlässlich ist. Die Richtmikrofone der Brille isolieren bereits solide die Stimme des Trägers, und die Sprachisolierung der Realtime API kümmert sich um die verbleibenden Umgebungsgeräusche. Die einzige Einschränkung, die wir beobachtet haben: Wenn sich eine zweite Person in einem Umkreis von etwa einem Meter befindet, nimmt die Brille gelegentlich ihre Sprache auf.

Visual Intelligence: Unsere firmeneigene Betreiber-KI-Pipeline

Das Kern-IP hinter unserer Operator-KI ist kein einzelnes Standardmodell — es ist die proprietäre Intelligence-Pipeline, die wir entwickelt haben, um zu verstehen, was in und um einen CA-1 in Echtzeit passiert. Wir kombinieren Open-Source-Vision-Grundlagen wie DinoV3 und SAM 3 von Meta als Bausteine, aber die Werteebene liegt vollständig auf unserer Seite: ein domänenspezifisches visuelles Argumentationssystem, das auf Tausenden von Stunden echtem CA-1-Betriebsmaterial trainiert wurde. Es weiß, wie ein Silo aussieht, das richtig sitzt, im Vergleich zu einem, das 2 mm entfernt ist. Es kennt den Unterschied zwischen einem sauberen Induktionstopf, der für den nächsten Zyklus bereit ist, und einem Topf, bei dem eine Intervention erforderlich ist. Kein Basismodell bietet dieses Wissen — wir haben es entwickelt und wir schulen es kontinuierlich bei jeder Interaktion mit dem Bediener an jedem Standort weltweit.

Während Fundamentmodelle wie SAM 3 uns eine schnelle Segmentierung ermöglichen — die Möglichkeit, zu sagen: „Finde jeden Silodeckel in diesem Rahmen“ — fügt unser System die Betriebslogik hinzu: Entspricht die Ausrichtung des Deckels den Montagespezifikationen? Ist die Dichtung vollständig eingerastet? Sollte der Bediener den Schritt fortsetzen oder wiederholen? Diese visuelle Überprüfung in einem geschlossenen Regelkreis macht aus einer generischen KI-Funktion ein Qualitätssicherungssystem, das an jedem CA-1-Standort autonom arbeitet. Wir verwenden die dichte Merkmalsextraktion von DinoV3 und die Objektverfolgung von SAM 3 als Infrastruktur, genauso wie ein Autohersteller Stahl verwendet — die Technik, die ihn zum Fahren bringt, gehört uns.

JSON-definierte geführte Workflows mit visueller Bestätigung

Mit dieser Anwendung können wir Betreibern weltweit jede Art von schrittweiser Anleitung zur Verfügung stellen — in ihrer bevorzugten Sprache, mit der richtigen Detailtiefe und in einem für jeden Einzelnen personalisierten Ton. Wir verwenden ein einfaches JSON-Schema, um geführte Workflows zu definieren. Nehmen wir als Beispiel unseren Silo Assembly Guide: Fünf Schritte mit jeweils sprachgesteuerten Anweisungen und festen Abnahmekriterien, die auf einer visuellen Bestätigung durch die Brillenkamera basieren. Die KI bewertet den Kamera-Feed anhand vordefinierter visueller Benchmarks, bevor sie mit dem nächsten Schritt fortfährt. Das bedeutet, dass das System die Situation des Bedieners immer kontextuell kennt, ohne dass manuelle Erklärungen erforderlich sind.

Diese Architektur macht aus der Operator-KI etwas, das einem ähnelt persönliches Bildungssystem: adaptiv, mehrsprachig, visuell und immer geduldig. Ganz gleich, ob ein Bediener in Hamburg eine Auffrischung über die Reihenfolge beim Laden der Inhaltsstoffe benötigt oder ein neuer Mitarbeiter in Peking gerade sein erstes CA-1 Silo zusammenbaut — das Erlebnis ist einheitlich, hochwertig und skalierbar.

Praktischer Unterricht und Entwicklererfahrung

Geschwindigkeit der Entwicklung

Wir haben ungefähr einen Monat gebraucht, um das funktionierende MVP zu erstellen — einschließlich Modell-Setup, SDK-Integration und React Native-Wrapper. KI-gestütztes Programmieren war hier von entscheidender Bedeutung, vor allem, weil das Wearables Device Access Toolkit brandneu war, als wir anfingen. Dokumentation und Beispielanwendungen waren immer noch minimal, weshalb wir uns entschieden haben, sowohl unser NPM-Paket als auch unsere React Native-Beispielanwendung, wie in unserem Begleitvideo gezeigt, als Open Source bereitzustellen.

Entwerfen für reale Einschränkungen

Tragbare Geräte sind mit echten Einschränkungen verbunden — vor allem durch kontinuierliches Kamerastreaming wird der Akku in etwa ein bis zwei Stunden entladen. Anstatt dies als Einschränkung zu betrachten, haben wir unsere Anwendungsarchitektur von Anfang an auf eine intelligente Ressourcennutzung ausgerichtet. Die Kamera wird nur bei Bedarf aktiviert, wenn der Bediener eine visuelle Überprüfung auslöst, indem er „Capture“ sagt, wodurch die Werkzeugbedienungsfunktion des LLM aufgerufen wird. Zwischen den Aufnahmen arbeitet das System im reinen Audiomodus, der für die überwiegende Mehrheit der geführten Interaktionen ausreichend ist. Dieser ereignisgesteuerte Ansatz verlängert die nutzbare Sitzungszeit erheblich und spiegelt ein umfassenderes Designprinzip wider: Unsere Operator-KI ist so konzipiert, dass sie in der Realität industrieller Umgebungen funktioniert und nicht unter idealisierten Laborbedingungen.

Plattformvertrauen und Dynamik des Ökosystems

Der Aufbau eines Produktionssystems auf einer weltweit neuen Plattform ist immer mit Herausforderungen verbunden. Was uns die Zuversicht gegeben hat, schnell zu handeln, war die direkte Zusammenarbeit mit dem Produktteam von Meta — sie haben Feedback eingeholt, Entwickleranfragen berücksichtigt und das Toolkit auf der Grundlage realer Anwendungsfälle wie unseren aktiv weiterentwickelt. Wir haben Funktionsanfragen eingereicht, darunter native Funktionen für den Zugriff auf physische Tasten und Funktionen zur Übertragung auf dem Gerät. Beide Optionen werden derzeit untersucht. In Kombination mit der strategischen Investition von Meta in Höhe von rund 3 Milliarden € für eine Beteiligung von ~ 3 Prozent an EssilorLuxottica (der Muttergesellschaft von Ray-Ban) ist das Signal klar: Diese Hardwareplattform wird Bestand haben und weltweit skalieren. Für uns bedeutet das, dass wir umfassend in unsere Operator-KI investieren können, da wir wissen, dass sich das zugrundeliegende Geräte-Ökosystem weiter entwickeln wird.

Das Engagement von Meta für diese Plattform wird durch den Erwerb einer Beteiligung von ~ 3% an EssilorLuxottica (der Muttergesellschaft von Ray-Ban) für rund 3 Milliarden € weiter unterstrichen, wobei eine Erweiterung auf 5% möglich ist. Diese Investition signalisiert, dass sich die Hardwareseite des Brillen-Ökosystems weiterhin rasant weiterentwickeln und weiterhin allgemein verfügbar sein wird. Für Entwickler bedeutet dies ein langfristiges Vertrauen in die Plattform.

Edge Computing mit NVIDIA Jetson: Lösung der Konnektivitätsherausforderung

In unserem speziellen Anwendungsfall kam eine weitere Herausforderung zum Vorschein: Viele CA-1-Einsatzorte verfügen über eine unzuverlässige Internetverbindung. Die Cloud-abhängige Architektur — das Streamen von Audio zur Konversations-KI, das Senden von Bildern an Vision-Modelle, das Abfragen operativer Datenbanken — erfordert von Haus aus eine stabile Verbindung. Unsere Lösung: Wir integrieren NVIDIA Jetson-Hardware direkt in jede CA-1-Einheit und schaffen so einen lokalen Edge-Computing-Knoten, der alle Informationen lokal verarbeitet, ohne vom Internet abhängig zu sein. Der Jetson dient als „Offline-Gehirn“ des CA-1 und unterstützt visuelle Intelligenz, KI-Inferenz für Konversationen und Datenzugriff vollständig am Netzwerkrand. Ein spezieller technischer Einblick in diese Architektur ist in Kürze geplant.

Das Gesamtbild: Kameradaten als robotische Trainingsinfrastruktur

Einer der strategisch wichtigsten Aspekte dieses Projekts sind die generierten Daten. Jede Minute, in der ein Bediener irgendwo auf der Welt die Brille trägt, während er an einem CA-1 arbeitet, erzeugt wertvolle visuelle Daten aus der ersten Person, die zeigen, wie Menschen in realen Betriebsumgebungen mit autonomen Systemen interagieren. Vom ersten Tag an bauen wir die Pipeline zur Erfassung, Speicherung und Strukturierung dieser visuellen Daten für das kontinuierliche Training unserer bestehenden KI-Modelle für Bediener auf. Die langfristige Vision geht jedoch noch weiter: Diese Daten werden zu Trainingsmaterial für zukünftige Robotermodelle, die irgendwann Teile der Aufgaben des Bedieners übernehmen und so die Autonomie jeder CA-1-Einheit schrittweise erhöhen werden.

Dies spiegelt die Strategien führender KI-Unternehmen wider: Je mehr Bediener die Brille verwenden, desto intelligenter wird das System, desto weniger manuelle Eingriffe sind erforderlich und desto besser wird die nächste Generation von Modellen funktionieren. Dieser weltweit über alle CA-1-Standorte verteilte Datensatz wird zu einem einzigartig wertvollen, firmeneigenen Datensatz für körpereigenes KI-Training.

Was kommt als Nächstes

In den kommenden Wochen werden wir unsere Open-Source-Repositorys weiter pflegen und gleichzeitig unsere spezialisierte, produktionsreife Anwendung darauf aufbauen. Zu den wichtigsten Prioritäten gehören der stets verfügbare Bedienersupport mit optimierter Energieeffizienz, eine tiefere Integration mit dem NVIDIA Jetson Edge-Node für einen vollständigen Offline-Betrieb, die erweiterte Nutzung der Bildverarbeitungsmodelle von Meta zur Qualitätssicherung in Echtzeit und die Vorbereitung auf die kommende Meta Ray-Ban Display-Brille mit Neuralband — die visuelle schrittweise Überlagerungen und gestenbasierte Interaktionen für ein noch intensiveres Bedienerlebnis ermöglicht. Wir verfolgen auch die SDK-Updates von Meta genau und werden neue Funktionen — wie den nativen Tastenzugriff und die lokale KI-Verarbeitung — integrieren, sobald sie verfügbar sind.

Ein besonderer Dank geht an mein Team, das dies ermöglicht hat, insbesondere an Fabricio Borgobello, dessen Engagement und enge Zusammenarbeit maßgeblich dazu beigetragen haben, unser Projekt zum Leben zu erwecken. Ohne das Engagement und die Kreativität aller Beteiligten wäre es nicht möglich gewesen, dies zu verwirklichen.