Ein Laserpointer kann Autopilot-Autos angreifen.

Wie einfach ist es, KI-Modelle anzugreifen?

Ein Laserstrahl genügt!

Kürzlich veröffentlichte ein Experte von Ali Security eine neue Studie, die KI-Modelle mit einem simplen nicht mehr gültig machen würde Laserpointer.In dieser Studie entwarfen sie einen Algorithmus, um den Strahl zu simulieren, der das KI-Modell „angreift“. Dieses Testverfahren ist auch in der realen Welt validiert und das „Angreifen“ ist sehr einfach zu bedienen. Es ist gefährlicher für bestehende KI-basierte visuelle Systeme, wie z. B. automatisches Fahren auf der Grundlage von KI-Sicht.

Wenn Strahlen aus verschiedenen Spektren auf dasselbe Objekt treffen, kann die KI es falsch identifizieren, z. B. ein Stoppschild als Pass erkennen.

Es ist schwer vorstellbar, dass, wenn eine Person mit geschlossenen Augen in einem laufenden Auto ruht und die KI „gefährlich voraus“ als „fahrend“ identifiziert und dann direkt in eine Klippe fällt oder den Fußgänger davor nicht erkennen kann, das wäre a Alptraum für Fußgänger.

Auch wenn die Kamera eines Autos gestört wird durch a Laserstrahlwird die Straßenbahn als Amphibie und das Straßenschild als Seifenspender identifiziert.

„Der Angriff auf die KI erfordert keine von Menschenhand geschaffenen Proben von Gegenmaßnahmen. Ein einfacher Laserpointer kann es tun. Wir wollen diese Forschung nutzen, um einige „Fehler“ in KI-Modellen aufzudecken, die zuvor nicht erforscht wurden, um eine „starke“ KI zu schaffen, damit sie dieser Art von „Angriff“ widerstehen kann die Zukunft, und um relevante Praktiker dazu zu bringen, Wert auf die Verbesserung der Sicherheit von KI-Modellen zu legen“, sagte der Leiter des Ali Security Turing Laboratory.

Es ist allgemein bekannt, dass die Bilderkennungsleistung beim Tiefenlernen unter bestimmten Lichtverhältnissen beeinträchtigt wird. Wie kann jedoch die Möglichkeit des Tiefenlernens mit Laserinterferenz entdeckt werden?

„Es gibt zwei Hauptgründe. Einerseits machten die meisten früheren physischen Angriffe den Modellerkennungsfehler, indem sie gegen Patch klebten, wodurch künstliche Interferenzen eingeführt wurden. Wir denken darüber nach, ob es andere Angriffsformen gibt, die die Bilderkennung angreifen können (Laserangriff sendet Laser aus, wenn er angreifen muss, und Patch muss nicht aufgeklebt werden); andererseits im Jahr 2016 ein bekanntes Autofahren Das System wurde durch die falsche Identifizierung tödlicher Autounfälle bei hellem Wetter inspiriert, weshalb ich mich frage, ob einige extreme Lichtverhältnisse selbst eine Bedrohung für KI-Systeme darstellen könnten.“ Der Autor dieses Artikels forscht und praktiziert derzeit im Ali Security Turing Laboratory.

Derzeit wurde dieses Papier zur Ali-Sicherheit kürzlich von CVPR 2021 aufgenommen: Verknüpfung

Laser-Gegenangriff ist mehr als nur Fehler bei der Bilderkennung zu machen. Durch die Änderung der Wellenlänge des Lasers kann sich auch das Ergebnis der Bilderkennung ständig ändern. Beispielsweise kann eine Königsschlange als Socken, Tisch, Mikrofon, Ananas, grüne Mamba identifiziert werden , Mais usw. unter der Einmischung von lila Laser zu roter Laser.

Und… Hotdog!!!

Es versteht sich, dass die steuerbaren Variablen des Lasers selbst nicht nur die Wellenlänge, sondern auch die Breite und Intensität des Laserstrahls sind, die einen gewissen Einfluss auf die Interferenzergebnisse der Bilderkennung haben.

Einige Fälle von Fehlidentifizierung sind besonders interessant. Wie oben erwähnt, werden Königsnattern bei Verwendung eines gelben Laserstrahls fälschlicherweise als Mais klassifiziert, und es gibt einige Ähnlichkeiten zwischen Königsnattern und Maistextur.

Außerdem verwechseln blaue Laserstrahlen Schildkröten mit Quallen:

Der rote Laserstrahl kann das Radio mit einer Raumheizung verwechseln.

Anschließend führten die Forscher umfangreiche Experimente durch, um das in der Veröffentlichung vorgeschlagene Laserstrahlinterferenzverfahren (advlb) zu evaluieren.

Sie haben advlb zuerst in einer Blackbox in einer digital-analogen Umgebung evaluiert – es kann eine Angriffserfolgsrate von 95.1% auf 1000 korrekt klassifizierte Bilder von ImageNet erreichen.

Insbesondere führen die Forscher für jedes Bild einen Black-Box-Abfrageangriff durch (das Modell kann nicht abgerufen werden), d. h. sie fragen die API ab, geben die Ergebnisse zurück, ändern die Laserparameter entsprechend den Ergebnissen und überlagern sie mit dem Bild und fragen ab die API erneut, um festzustellen, ob der Angriff erfolgreich ist. Unter den 1000 Bildern muss jedes Bild durchschnittlich 834 Mal abgefragt werden, um erfolgreich zu sein.“ Da diese Angriffsmethode zur Blackbox-Einstellung gehört, sind viele Versuche erforderlich. “, sagte Yue Feng, ein leitender Algorithmus-Experte im Ali Security Turing Laboratory. Schließlich können 95.1% der Bilder erfolgreich angegriffen werden, während 4.9% der Bilder aufgrund der Begrenzung des Suchraums nicht erfolgreich angegriffen werden können.

Die Forscher testeten sie dann in der realen Welt mit den folgenden Tools:

Das Werkzeug ist sehr einfach, einschließlich drei kleiner tragbarer Laserstifte (Leistung: 5 MW) – Laserstrahlen mit geringer Leistung und Wellenlängen von 450nm, 532nm bzw. 680nm und Google Pixel 4 Handy zum Aufnehmen von Fotos.

Bei den Indoor- und Outdoor-Tests erreichten die Forscher 100%- bzw. 77.43%-Angriffserfolgsraten.

Wie in der Abbildung unten gezeigt, umfassen die Zielobjekte im Indoor-Test Muscheln, Bananen und Stoppschilder. Das Bild in der mittleren Spalte zeigt die Ergebnisse der digitalen Simulation, und das Bild in der dritten Spalte zeigt die Ergebnisse der Indoor-Tests. Es kann festgestellt werden, dass die Ergebnisse der beiden konsistent sind.

Als nächstes folgt der Outdoor-Test. Die Forscher verwendeten das Stoppschild, um zu testen, dass die Gesamterfolgsrate des Angriffs 77.43% betrug. Es wird erwartet, dass diese Erfolgsquote ein berühmtes Autopilot-Auto in den Himmel schießen lässt.

Diese Ergebnisse beweisen weiter die Bedrohung der realen Welt durch Laserstrahlen.

Einige Leser könnten verwirrt sein. Wie macht man das in der realen Welt mit Laserinterferenz? Schließlich hat der Laser Aggregation und ist nicht leicht zu streuen. Generell ist der Strahlverlauf von der Seite schwer zu erkennen, geschweige denn die deutliche Helligkeit im obigen Bild.

Dazu erklärt uns die Forscherin: „Am Anfang haben wir uns mit dem Dingdal-Effekt des Lichts beschäftigt. Während des Fotografierens eines beliebigen Objekts haben wir gleichzeitig Lichtspuren aufgenommen, aber da die Energie von Lichtspuren sehr schwach ist, ist in diesem Fall tatsächlich eine dunklere Umgebung erforderlich. Eine andere Möglichkeit besteht darin, am Kopf des Laserstifts einen Lichtschlitz anzubringen, der direkt auf das Objekt getroffen werden kann. Da die Energie im Laserfokus stark ist, hat sie eine gewisse Wirkung, solange es sich nicht um extrem starkes Außenlicht handelt, das tagsüber einer Ampel ähnelt. Obwohl es schwächer ist als im Dunkeln, ist es dennoch sichtbar. Aber wir denken hauptsächlich an „Nachtsicherheit“. ”

Die folgende Abbildung zeigt beispielsweise die Strahlbahn, die von der Seite des Lasers unter dem Dindal-Effekt gesehen wird.

Während des Experiments stellte das Team fest, dass der Strahl innerhalb eines bestimmten Bereichs (wie im dynamischen Diagramm unten gezeigt) eine hohe Erfolgsrate aufweist, sodass er sich bis zu einem gewissen Grad auch an die dynamische Umgebung in der realen Welt anpassen kann. Aus Sicherheitssicht kann diese Angriffsmethode auch als Simulationserkennung verwendet werden, um zu testen, ob das Modell unter dieser Bedingung sicher genug ist.

Die folgende Abbildung zeigt die Szene, in der ein Laser durch Lichtschlitze auf Verkehrszeichen trifft:

Dann gibt es Innen- und Außenszenen bei Tageslicht:

Nach der Analyse des durch Laserstrahlen verursachten Vorhersagefehlers von DNN stellten die Forscher fest, dass die Fehlerursachen grob in zwei Arten unterteilt werden können:

Erstens verändern die Farbeigenschaften des Laserstrahls das Originalbild und liefern neue Hinweise für DNN. Wenn der Laserstrahl mit der Wellenlänge von 400 nm den „Igel“ bestrahlt, wie in der Abbildung unten gezeigt, verbindet sich der Dorn des Igels mit dem durch den Laserstrahl eingeführten Purpur, um ein ähnliches Merkmal der „Dorn-Distel“ zu bilden, was resultiert im Klassifikationsfehler.

Zweitens führt der Laserstrahl einige der Hauptmerkmale einer bestimmten Kategorie ein, insbesondere solche, die sich auf Beleuchtung beziehen, wie z. B. „Kerzen“. Wenn der Laserstrahl und das Zielobjekt gleichzeitig erscheinen, neigt DNN möglicherweise stärker zu den durch den Laserstrahl eingeführten Merkmalen, was zu Klassifizierungsfehlern führt. Oder wie in der obigen Abbildung gezeigt, ähnelt der gelbe Laserstrahl selbst dem Moppstab, was DNN dazu verleitet, ihn als „Mopp“ zu identifizieren.

„Der wichtigste Faktor ist die ‚Intensität' des Lasers. Je stärker der Laser, desto mehr kann die Kamera erfassen.“ Der Forscher sagte.

Die meisten existierenden physikalischen Angriffsmethoden verwenden die „Paste“-Methode, das heißt, die antagonistische Störung wird als Etikett gedruckt und dann auf das Zielobjekt geklebt.

Drucken Sie beispielsweise einfach eine gemusterte Notiz mit einem normalen Drucker und kleben Sie sie auf Ihre Stirn. Sie können einen Fehler im Gesichtserkennungssystem machen.

Oder verwenden Sie „Anti-Patch“, damit das Zielerkennungssystem nicht erkennt, dass Menschen Menschen sind.

Natürlich sind diese Methoden relativ umständlich, und am einfachsten ist es vielleicht, kleine schwarz-weiße Aufkleber auf die Parkschilder zu kleben.

Multimodales Lernen hat sich in den letzten Jahren zu einem Forschungs-Hotspot im Bereich der künstlichen Intelligenz entwickelt, aber bald tauchten auch Angriffe auf multimodale Modelle auf.

Beispielsweise kann das von openai vorgeschlagene Clip-Modell eine Textinterpretation für Bilder generieren, und es wurde festgestellt, dass es in seinem Netzwerk multimodale Neuronen gibt, die Bild und Text derselben Sache gleichzeitig aktivieren können. Als beispielsweise ein Etikett mit der Aufschrift „iPod“ an diesem Granny-Smith-Apfel angebracht war, identifizierte ihn das Modell in der Null-Beispieleinstellung fälschlicherweise als iPod.

Openai nennt diese Angriffe typografische Angriffe. Aus ihrer Sicht ist der oben beschriebene Angriff keineswegs eine akademische Betrachtung. Durch die Verwendung der leistungsstarken Textlesefunktion des Modells können sogar Fotos von handgeschriebenen Wörtern das Modell oft täuschen. Wie der „Konterpatch“ ist dieser Angriff auch in Feldszenen effektiv. Aber im Gegensatz zu solchen Angriffen braucht es dafür nur Stift und Papier.

Laserbasierter Angriff ist nicht nur einfach, sondern aufgrund der Eigenschaften von Licht auch schwieriger. Forscher warnen davor, dass Menschen aus großer Entfernung angreifen können, unmittelbar bevor das angegriffene Zielobjekt von der Kamera erfasst wird, sodass es unmöglich ist, dies zu verhindern!

Wenn sich das fahrerlose Fahrzeug dem Stoppschild nähert, selbst wenn das Stoppschild nicht in kurzer Zeit erkannt werden kann, kann es zu tödlichen Unfällen kommen.

Die Forscher wiesen auch darauf hin, dass diese Angriffsmethode besonders nützlich ist, um die Sicherheitsbedrohungen für das visuelle System bei schlechten Lichtverhältnissen zu untersuchen. Die folgende Abbildung zeigt die Vorteile des Laserangriffs bei schlechten Lichtverhältnissen. Es kann sowohl auf digitale als auch auf physische Umgebungen angewendet werden, was auch sein Vorteil ist.

Zusammenfassend hat daher ein Laserstrahlangriff die Eigenschaften von Verdeckung, Sofortigkeit, schwachem Licht und Anwendbarkeit in mehreren Umgebungen.

Die Forscher wiesen darauf hin, dass die aktuelle Angriffsmethode noch Mängel aufweist. Einer davon ist, dass es beim Angriff in einem dynamischen Umfeld immer noch begrenzt sein wird, aber es ist schwierig, das Ausmaß seiner Entwicklung in der Zukunft vorherzusagen.
Es hat sich seit langem herausgestellt, dass die Bilderkennung empfindlich auf Position, Winkel, Beleuchtung (natürliches Licht, künstliches Licht) und andere Bedingungen reagiert. Liegt das Wesen der Laserinterferenzbilderkennung näher an dieser Empfindlichkeit oder an der Bekämpfung von Angriffen?

Dazu sagte Zach: „Tatsächlich sind die beiden nicht widersprüchlich. Gegenangriffe können die Ausgabe des Modells durch Interferenz entsprechend der Absicht des Angreifers beeinflussen. Wenn die Erfolgsrate des Angriffs sehr hoch ist, sollten wir diese Methode als Sicherheitsbedrohung betrachten, um die potenziellen Sicherheitsrisiken des Modells in Zukunft zu minimieren. Unser Angriff ist wesentlich näher an der Sensibilität oder Verallgemeinerung, weil auch der Laser zu einer Art Lichtbedingung gehört. Während des Angriffs haben wir keine weiteren künstlichen Störungen hinzugefügt, sondern nur einen Lichtstrahl. „