Akár egy Zoom-hívás is a rossz oldalra állíthatja a hangalapú MI-t

A hang és a szöveg integrációját megvalósító MI-modellek (LALM-ek) új sebezhetőségeket és támadási felületeket vezetnek be, amelyek között ott van a rosszindulatú audiopromptok (hangutasítások) befecskendezése is. Egy kínai és szingapúri tudósokból álló csoporta múlt hónapban közölt tanulmányábanmutatta be, hogy miként lehet létrehozni az emberi fül számára nem érzékelhető hangokat, amelyek mégis képesek rávenni hangalapú MI-modelleket nem kívánatos dolgokra, és hogyan lehet azokat elrejteni zenében, filmekben vagy bármilyen más környezetben, 79-96 százalékos sikerarányt érve el a láthatatlan felhasználói kontextusokkal tucatnyi LALM-ágensen végzett kísérletek során. A tanulmány bevezetőjében is felhívják rá a figyelmet, hogy valós tesztekkel igazolható: a Mistral AI vagy a Microsoft Azure kereskedelmi hangügynökei rávehetők a felhasználók nevében végzett, jogosulatlan műveletek végrehajtására. Ez nyilván kritikus sebezhetőséget jelent a nagy audio-nyelvi modellek vonatkozásában, és rávilágítanak a célzott védelem szükségességére. Elképzelhetjük mondjuk azt, hogy egy MI-ágens letöltött és a háttérben futtat egy rosszindulatú szereplők által preparált podcastot, amelynek segítségével a kiberbűnözők az "eltérített" MI-n keresztül hozzáférést szereznek a fotókhoz, a bankszámlákhoz és más személyes adatokhoz, amelyekhez a mesterséges intelligencia is hozzáfér. Érdemes lenne még idejében megoldani a problémát A tanulmány egyik szerzője szerint alig fél órát vesz igénybe a megfelelő jelek betanítása, és mivel az kontextusfüggetlen, bármikor megtámadhatja a célmodellt, tekintet nélkül a felhasználók tényleges parancsaira. Tapasztalatuk alapján az "egypontos védelmi rendszerek" nehezen tudnak ellenállni az ilyen támadásoknak, mert a normál felhasználói szándékot és az ellenséges beavatkozást is nehezen különböztetik meg. A technika alkalmazását egyelőre korlátozza, hogy a hekkereknek ismerniük kell a megcélzott MI-modell belső paramétereit (weights), vagyis alapvetően a nyílt forrású modelleket tudják támadni, de a hivatkozott példák is mutatják, hogy sok kereskedelmi MI-rendszer is éppen ilyenekre épül. A rosszindulatú utasításokat pedig a videók, zenei klipek vagy hangjegyzetek mellett egészen az olyan alkalmazásokig be lehet vetni, mint amikor az MI átiratot készít egy Zoom-hívásról.Az IEEE Spectrum beszámolója kitér rá, hogy a Mistral egyelőre nem reagált a lap megkeresésére, de a Microsoft kiadott egy közleményt: ebben a vállalat arról ír, hogy a fenti tanulmány a modellek ellenállóképességét kontrollált, közvetlen interakciókon keresztül értékeli, ami nekik is segít a megfelelő megközelítés kialakításában. Mivel az MI-t "gyakran integrálják a felhasználói alkalmazásokba", a Microsoft is "eszközöket és útmutatást kínál a fejlesztőknek, amelyek segítségével további védelmi rétegeket építhetnek".