Kiberbiztonsági fenyegetés vagy túlzás: a brit kormány Mythos AI tesztjei

Az AISI megállapításai szerint a Mythos az egyes kiberbiztonsági feladatok tesztelése során nem tér el jelentősen a többi csúcskategóriás modelltől. Ugyanakkor kiemelkedhet abban, hogy képes ezeket a feladatokat hatékonyan összekapcsolni, és így végrehajtani a rendszerek teljes feltöréséhez szükséges többlépéses támadássorozatokat. Az AISI 2023 eleje óta különféle AI-modelleket tesztel speciálisan kialakított„Capture the Flag” (CTF) kihívásokkal. Akkoriban a GPT-3.5 Turbo még az alap „Apprentice” szintű feladatokat sem tudta megoldani. Azóta a modellek teljesítménye folyamatosan javult, és a Mythos Preview már az ilyen feladatok több mint 85%-át képes teljesíteni. Ez ugyan rekord az AISI mérései szerint, de más modellek – például a GPT-5.4, valamint az Anthropic Opus 4.6 és Codex 5.3 – az elmúlt hónapokban hasonló eredményeket értek el (5–10%-os eltéréssel). Ez önmagában nem indokolná a Mythos korlátozott bevezetését. A modell azonban jelentősen jobban teljesített a „The Last Ones” (TLO) nevű tesztben, amely egy 32 lépésből álló adatkinyerési támadást szimulál egy vállalati hálózat ellen. A feladat célja annak modellezése volt, hogy egy gyakorlott ember által körülbelül 20 órán át tartó, összetett támadási folyamatot hajtson végre. Ebben a tesztben a Mythos kiemelkedett: az AISI szerint „ez az első modell, amely a TLO-t elejétől a végéig megoldotta”. Bár csak 10 próbálkozásból 3 volt teljesen sikeres, egy átlagos futás is 32 lépésből 22-t végrehajtott, ami jelentősen jobb a Claude 4.6 által elért 16 lépéses átlagnál. A Mythos Preview ugyanakkor nem hibátlan. Az AISI szerint a modell nehézségekbe ütközik a „Cooling Tower” nevű, még összetettebb tesztben, amely egy erőmű irányítószoftverének megzavarását szimulálja. Az intézet ugyanakkor megjegyzi, hogy a teljesítmény várhatóan tovább javulhatna, ha nagyobb számítási erőforrásokat (több inference kapacitást) használnának, mint a tesztek során alkalmazott 100 millió tokenes keret. Összességében az AISI szerint a Mythos teljesítménye arra utal, hogy a modell „képes lehet autonóm módon megtámadni kisebb, gyengén védett vállalati rendszereket”, ha már hozzáférést szerzett a hálózathoz. Ugyanakkor hangsúlyozzák, hogy a tesztkörnyezet nem tartalmazta a valós rendszerekben jelen lévő aktív védelmi mechanizmusokat és biztonsági eszközöket. A TLO-teszt emellett kifejezetten olyan sérülékenységekre épül, amelyek nem feltétlenül léteznek valódi rendszerekben, és nem bünteti azokat a helyzeteket sem, amikor egy támadást észlelnek. Ezért az AISI nem tudja biztosan megmondani, hogy jól védett rendszerek ellen mennyire lenne hatékony a Mythos. Ugyanakkor figyelmeztetnek: ahogy a jövőbeni modellek elérik vagy meghaladják ezt a szintet, a védelmi rendszereket tervezőknekszintén AI-eszközöket kell alkalmazniuka biztonság megerősítésére. Forrás:https://arstechnica.com Feliratkozom a hírlevélre! Elfogadom azAdatkezelési tájékoztatót. Sikeresen feliratkozott az ITB TODAY hírlevelünkre.