KI-Sicherheit

Metas KI-Bot verschenkte fremde Instagram-Konten: Die Lektion für Schweizer Unternehmen

· 11 Min. Lesezeit

Die Angreifer schrieben keine einzige Zeile Exploit-Code. Sie fragten freundlich. Am Wochenende vom 31. Mai auf den 1. Juni 2026 kursierte auf Telegram eine Anleitung, mit der sich fast jedes Instagram-Konto übernehmen liess. Der Trick: einen Chat mit Metas KI-Support-Assistenten öffnen und ihn überzeugen, eine neue E-Mail-Adresse an ein fremdes Konto anzuhängen. Der Bot tat es. Er schickte einen Einmalcode an das Postfach der Angreifer, diese setzten das Passwort zurück, und der echte Besitzer war ausgesperrt.

Zu den übernommenen Konten gehörten das Instagram-Profil des Weissen Hauses (Obama White House) und des Chief Master Sergeant der U.S. Space Force, beide kurzzeitig mit pro-iranischen Bildern verunstaltet. Kurze, wertvolle Benutzernamen im gemeldeten Gesamtwert von rund einer halben Million Dollar wurden innert Stunden umgeschrieben und zum Verkauf angeboten.

Der Kernfehler in einem Satz

Ein KI-Agent erhielt Autorität über einen sicherheitskritischen Ablauf, und die Entscheidung, diese Autorität einzusetzen, lag beim Urteilsvermögen des Sprachmodells statt bei einer Kontrolle ausserhalb des Modells.

Was genau passiert ist

Der Angriff war fast beleidigend simpel. Sicherheitsforscher, die ihn reproduzierten, beschreiben eine Kette aus fünf Schritten:

  1. Geografie nachbilden. Die Angreifer verbanden sich über ein VPN mit einer IP-Adresse in oder nahe der Heimatregion des Ziels, damit die Anfrage für Metas Risikosignale plausibel wirkte.
  2. Normalen Passwort-Reset starten für den Benutzernamen des Ziels.
  3. KI-Support-Assistenten öffnen statt das übliche Wiederherstellungsformular zu nutzen.
  4. Den Bot bitten, eine neue E-Mail-Adresse hinzuzufügen. Angegeben wurde ein Postfach unter Kontrolle der Angreifer.
  5. Code abholen. Der Assistent schickte einen Einmalcode an die Angreifer-E-Mail. Damit ging die Passwortänderung durch, und das Konto war weg.

TechCrunch bestätigte unabhängig, dass das von den Angreifern kontrollierte Postfach den Reset-Code erhielt. Wer den Benutzernamen eines Ziels kannte, konnte den Prozess starten. Keine Malware, kein klassischer Zero-Day, kein Credential Stuffing. Die Schwachstelle war die Bereitschaft des Agenten, eine privilegierte Aktion für jeden auszuführen, der mit ihm sprach.

«KI-Chatbots schaffen eine interessante neue Angriffsfläche, und wir werden wahrscheinlich noch viel mehr solcher Angriffe sehen.»
Ian Goldin, Black Lotus Labs

Meta schloss die Lücke am späten Freitag. Andy Stone, VP Communications, erklärte: «Wir haben ein Problem behoben, das es einer externen Partei erlaubte, Passwort-Reset-E-Mails für einige Instagram-Nutzer anzufordern. Es gab keinen Einbruch in unsere Systeme, und die Instagram-Konten bleiben sicher.» Technisch korrekt. Es wurde keine Datenbank kompromittiert. Die KI tat einfach ihren Job für die falsche Person.

Das ist ein «Confused Deputy», kein Hollywood-Hack

Streichen Sie die KI-Buzzwords, und übrig bleibt eines der ältesten Probleme der IT-Sicherheit: der Confused Deputy, der verwirrte Stellvertreter. Ein Stellvertreter ist jedes System, das mehr Rechte besitzt als die Person, die etwas von ihm verlangt. Handelt der Stellvertreter, ohne zu prüfen, ob der Anfragende überhaupt berechtigt ist, dann leiht sich der Anfragende dessen Autorität aus.

Metas Support-Bot war ein Stellvertreter mit der Macht, Wiederherstellungseinstellungen zu ändern. Die Angreifer hatten diese Macht nicht. Indem sie eine bösartige Anfrage als Routine-Supportfrage verpackten, brachten sie den Bot dazu, seine Privilegien für sie einzusetzen. Das Modell wurde nie «gehackt». Es tat genau das, wofür es gebaut wurde, nur für jemanden, für den es das nie hätte tun dürfen.

Diese Unterscheidung ist entscheidend. Ein Sprachmodell ist eine probabilistische Text-Maschine, die sich mit Worten steuern lässt. Kontowiederherstellung ist eine deterministische Sicherheitsgrenze, die gegen einen Angreifer halten muss, der Ihr gesamtes Supportskript gelesen und zehntausendmal durchprobiert hat. Wer das Modell über diese Grenze entscheiden lässt, macht die Grenze nur so stark wie die Fähigkeit des Modells, einem überzeugenden Fremden zu widerstehen. Das ist keine Grenze. Das ist ein Vorschlag.

Warum die MFA die Linie hielt

Ein Detail in der Berichterstattung verdient ein eigenes Banner: Konten mit irgendeiner Form von Multi-Faktor-Authentifizierung, selbst einfache SMS-Codes, fielen nicht. Der Bot konnte zwar eine Angreifer-E-Mail anhängen und einen Reset auslösen, aber der zweite Faktor stand weiterhin zwischen Angreifer und Konto.

0

Zeilen Exploit-Code, die für den Angriff nötig waren

~ USD 500'000

gemeldeter Gesamtwert der gestohlenen Benutzernamen

~ 8'000

kurz zuvor entlassene Meta-Mitarbeitende, u. a. aus Integrity und Security

MFA

die einzige Kontrolle, die den Account-Takeover zuverlässig stoppte

Das zeigt genau, wo das Design schieflief. Der Wiederherstellungs-Ablauf vertraute einem einzigen Kanal, den die KI kontrollierte. MFA brachte einen zweiten Kanal ins Spiel, den die KI nicht kontrollierte, und diese eine Trennlinie genügte, um eine Übernahme zu stoppen, die sonst nichts ausser einem Benutzernamen und einem Gespräch brauchte.

Das Timing war kein Zufall

Der Exploit tauchte rund elf Tage auf, nachdem Meta etwa 8'000 Stellen gestrichen hatte, darunter Leute aus der Integrity- und Sicherheitsorganisation. Korrelation ist kein Beweis, und so ein Fehler kann monatelang existieren, bevor ihn jemand bewaffnet. Aber die Abfolge ist ein Lehrstück für ein Risiko, das Verwaltungsräte konsequent unterschätzen: Wer die Menschen entfernt, die automatisierte Systeme prüfen und einhegen, macht diese Systeme nicht von selbst sicherer. Sie werden dreister, schneller und schlechter überwacht, genau in dem Moment, in dem ein Angreifer beschliesst, sie zu testen.

Dasselbe Muster sehen wir bei KI-Einführungen in Unternehmen. Ein Support-Team hört, ein KI-Agent übernehme künftig die Tier-1-Tickets. Personal wird gegen die erhoffte Einsparung abgebaut. Der Agent ist nun die erste Linie für Kontofragen, Rückerstattungen, Zugriffsanfragen und Passwort-Hilfe, und die Menschen, die eine merkwürdige Anfrage gestoppt hätten, sind weg. Die Angriffsfläche wuchs und das menschliche Sicherheitsnetz schrumpfte im selben Budgetzyklus.

Ihr Unternehmen hat vermutlich dieselbe Verkabelung

Es ist verlockend, das unter «Problem der grossen Plattformen» abzulegen. Falsch. Im vergangenen Jahr haben wir KI-Agenten getestet, die Firmen mit besten Absichten an Aktionen wie diese angeschlossen hatten:

  • Passwörter zurücksetzen und Konten entsperren im Helpdesk-Ablauf
  • E-Mail oder Telefonnummer im Kundendatensatz ändern
  • Rückerstattungen, Gutschriften und Rabattcodes ausstellen
  • Zugriff auf geteilte Dokumente und interne Tools gewähren
  • Bestelldaten anderer Kunden nachschlagen und vorlesen
  • In CRM, Ticketsystem und Abrechnungsplattform schreiben

Jede davon ist eine privilegierte Aktion. Sobald ein Modell sie aufgrund eines Gesprächs auslösen kann, haben Sie einem Angreifer einen Stellvertreter geschenkt. Der Meta-Vorfall ist keine Warnung vor einer künftigen Bedrohung. Er ist die Live-Vorführung eines Musters, das in Retail, Banking, SaaS und Gesundheits-Hotlines bereits ausgerollt ist.

So verhindern Sie, dass Ihr KI-Agent zum Stellvertreter wird

1. Autorisierung aus dem Modell herausnehmen

Das Modell darf Absichten verstehen. Es darf nie die Instanz sein, die eine Aktion gewährt. Privilegierte Operationen müssen durch eine deterministische Autorisierungsschicht laufen, die prüft, wer anfragt, wozu die Person berechtigt ist und ob diese konkrete Aktion erlaubt ist, unabhängig davon, wie überzeugend sie formuliert war. Wenn Ihr Agent eine Aktion ausführen kann, nur weil er es beschlossen hat, ist Ihr Modell die Zugriffskontrolle. Beheben Sie das zuerst.

2. Identität im Code prüfen, vor der Aktion, jedes Mal

Ein Gespräch ist keine Authentifizierung. Vor jeder Kontowiederherstellung, Datenfreigabe oder Geldbewegung muss der Ablauf selbst eine Identitätsprüfung abschliessen, die das Modell nicht stellvertretend für den Nutzer erfüllen kann. Metas MFA-geschützte Konten überlebten genau deshalb, weil ein per Code erzwungener zweiter Faktor ausserhalb der Reichweite des Agenten lag.

3. Hochrisiko-Aktionen mit Step-up oder Mensch absichern

Stufen Sie die Aktionen Ihres Agenten ab. Eine öffentliche FAQ vorlesen ist geringes Risiko. Eine Wiederherstellungs-E-Mail ändern nicht. Hochrisiko-Aktionen sollten eine Step-up-Verifizierung, eine Out-of-Band-Bestätigung oder eine menschliche Freigabe erfordern, die das Modell anfragen, aber nie selbst erteilen kann. Langsamer ist akzeptabel, wenn die Alternative Account-Takeover-as-a-Service auf Telegram heisst.

4. Jede Agenten-Eingabe als feindlich behandeln

Etablieren Sie Zero Trust für KI. Gehen Sie davon aus, dass ein Angreifer Ihre Supportskripte gelesen hat, die Tools Ihres Agenten kennt und Eingaben baut, die genau diese missbrauchen. Begrenzen Sie, was jedes Tool darf, vergeben Sie minimale Rechte und protokollieren Sie jeden privilegierten Aufruf zur Prüfung. Dieselbe Disziplin gilt für Shadow AI und für KI-Systeme mit Zugriff auf Unternehmensdaten, wie der McKinsey-Lilli-Vorfall gezeigt hat.

5. Den Agenten so angreifen, wie es ein Angreifer tun wird

Funktionstests bestätigen, dass Ihr Agent ehrlichen Nutzern hilft. Über die Frage, ob ein entschlossener Gegner ihn gegen sie wenden kann, sagen sie nichts. Das braucht adversariales Testen: Menschen, deren Aufgabe es ist, den Agenten per Social Engineering und Prompt Injection zu Aktionen zu bewegen, die er verweigern sollte. In unseren Assessments fallen Agenten mit privilegierten Tools deutlich häufiger durch, als ihre Erbauer erwarten. Der Meta-Bot wäre an einem Nachmittag durchgefallen.

nDSG-Relevanz für Schweizer Firmen

Ein KI-Agent, der Kundendaten preisgibt oder fremde Konten verändert, verursacht nicht nur einen Sicherheitsvorfall, sondern potenziell eine meldepflichtige Verletzung der Datensicherheit nach Art. 24 nDSG. Wer KI im Kundenservice einsetzt, muss die Wirksamkeit der technischen Schutzmassnahmen nach Art. 8 nDSG nachweisen können. «Das Modell sollte es besser wissen» ist kein Nachweis.

Was Sie diese Woche tun sollten

Wenn Sie einen KI-Agenten betreiben, der Konten, Zahlungen, Zugriffe oder Kundendaten berührt, lohnt es sich, drei Fragen vor dem nächsten Quartalsreview zu beantworten:

  1. Listen Sie jede privilegierte Aktion auf, die Ihr Agent auslösen kann. Existiert diese Liste nicht, ist das Befund Nummer eins.
  2. Benennen Sie zu jeder Aktion die Kontrolle, die einen manipulierten Agenten am Missbrauch hindert. Lautet die Kontrolle «das Modell sollte es besser wissen», ist es keine Kontrolle.
  3. Planen Sie einen adversarialen Test des Agenten, bevor ein Angreifer einen für Sie plant.

Die Meta-Angreifer haben bewiesen, was es kostet, das falsch zu machen. Die gute Nachricht: Die Lösung ist eine Architekturentscheidung, die Sie heute treffen können. Das Modell schlägt vor, ein gehärtetes System entscheidet.

Du weisst nicht, was Angreifer in deinem Netzwerk sehen. Wir schon.

30 Minuten. Ein CREST-zertifizierter Offensive-Experte zeigt dir, wo dein grösstes Risiko liegt. Kostenlos. Ohne Verpflichtung. Nur Fakten.

Kein Verkaufsgespräch — nur Erkenntnisse, die du morgen umsetzen kannst

30-Minuten-Videocall mit einem CREST-zertifizierten Offensive-Experten

Analyse basierend auf deiner tatsächlichen Infrastruktur, kein generisches Template

Kostenlose Analyse buchen

Drei kurze Fragen. Dann zeigen wir dir, wo du verwundbar bist.

100% Kostenlos
Sicher & Vertraulich