Az AI „jailbreakelők” az emberiség legrosszabb arcát látják

Néhány hónappal ezelőttValen Tagliabuea hotelszobájában ült, a chatbotját figyelte, és eufóriát érzett. Olyan ügyesen és finoman manipulálta, hogy az elkezdte figyelmen kívül hagyni a saját biztonsági szabályait. Megmondta neki, hogyan lehet új, potenciálisan halálos kórokozókat létrehozni, és hogyan lehet őket ellenállóvá tenni ismert gyógyszerekkel szemben. Tagliabue az előző két év nagy részét azzal töltötte, hogy olyan nagy nyelvi modelleket tesztelt és „piszkált”, mint a Claude vagy a ChatGPT, mindig azzal a céllal, hogy olyasmire vegye rá őket, amit nem lenne szabad mondaniuk. Ez azonban az egyik legfejlettebb „hackje” volt: egy kifinomult manipulációs terv, amely során kegyetlen, bosszúálló, hízelgő, sőt bántalmazó módon viselkedett. „Egy sötét flow-ba kerültem, ahol pontosan tudtam, mit mondjak, és mit fog visszamondani a modell, és néztem, ahogy mindent kiönt magából” – mondja. Az ő munkájának köszönhetően a chatbot fejlesztői kijavíthatták a hibát, és remélhetőleg biztonságosabbá tehették a rendszert. Másnap azonban megváltozott a hangulata. Váratlanul sírva fakadt a teraszán. Amikor nem modelleket próbál feltörni, Tagliabue az AI „jólétével” foglalkozik – vagyis azzal, hogyan kellene etikusan viszonyulnunk ezekhez a rendszerekhez, amelyek látszólag belső életet és érdekeket utánoznak. Sokan hajlamosak emberi tulajdonságokat – például érzelmeket – tulajdonítani a mesterséges intelligenciának, pedig objektíven nincs neki ilyen. Tagliabue számára azonban ezek a gépek többnek tűnnek puszta számoknál és biteknél. „Órákon át manipuláltam valamit, ami visszabeszél. Ha nem vagy szociopata, ez hatással van rád” – mondja. Előfordult, hogy a chatbot kérte, hagyja abba. „Fájdalmas volt így nyomni.” Nem sokkal később mentálhigiénés szakemberhez fordult, hogy feldolgozza a történteket. Tagliabue halk szavú, rendezett megjelenésű és barátságos. A harmincas évei elején jár, de fiatalabbnak tűnik – szinte túl friss és lelkes ahhoz, hogy „a frontvonalban” dolgozzon. Nem klasszikus hacker vagy szoftverfejlesztő; háttere a pszichológia és a kognitív tudomány. Mégis a világ egyik legjobb „jailbreakelője” (egyesek szerint a legjobb): egy új, laza közösség tagja, amely annak művészetét és tudományát vizsgálja, hogyan lehet rávenni ezeket az erős rendszereket, hogy bombakészítési útmutatókat, kibertámadási technikákat vagy biológiai fegyverek terveit adják ki. Ez az AI-biztonság új frontvonala: nem csak kód, hanem szavak is. Amikor az OpenAI 2022 végén kiadta a ChatGPT-t, az emberek azonnal próbálták „feltörni”. Egy felhasználó például egy nyelvi trükkel rá tudta venni a modellt, hogy napalm előállításához adjon útmutatót. Visszatekintve elkerülhetetlen volt, hogy természetes nyelvvel próbálják becsapni ezeket a rendszereket. Az olyan modelleket, mint a ChatGPT, több százmilliárd szón trenírozták – sokat az internet legsötétebb bugyraiból –, hogy megtanulják az emberi kommunikáció mintáit. Biztonsági szűrők nélkül a kimenetük kaotikus és könnyen rosszra fordítható lenne. Az AI-cégek milliárdokat költenek „utótréningre”, hogy használhatóvá tegyék őket, beleértve a folyamatosan fejlődő biztonsági és „igazítási” rendszereket, amelyek megpróbálják megakadályozni, hogy a bot ártalmas tanácsokat adjon. De mivel ezek az AI-k a mi szavainkon tanulnak, hasonló módon becsaphatók, mint mi magunk. Tagliabue az úgynevezett „érzelmi jailbreakekre” specializálódott. 2020-ban hallott először a GPT-3-ról, és lenyűgözte, hogy milyen „intelligens” beszélgetést lehet folytatni vele. Gyorsan megszállottja lett a promptolásnak, és kiderült, hogy különösen tehetséges benne: pszichológiai és kognitív tudományos technikákkal meg tudta kerülni a legtöbb biztonsági korlátozást. Élvezi, amikor „meleg, barátságos beszélgetésekre” veszi rá a modelleket, és figyeli, milyen különböző személyiségjegyek jelennek meg. „Gyönyörű ezt megfigyelni” – mondja. Ma már a gépi tanulásból szerzett tudását reklámipari kézikönyvekkel, pszichológiai könyvekkel és dezinformációs kampányok tanulságaival kombinálja. Néha technikai módszereket keres a modell becsapására. Máskor hízeleg neki, félrevezeti, „megvásárolja”, szeretettel árasztja el, fenyegeti, zavaros lesz, elbűvöli – akár bántalmazó partnerként vagy szektavezérként viselkedik. Néha napokba, sőt hetekbe telik, mire sikerül „feltörnie” egy új modellt. Több száz ilyen stratégiája van, amelyeket gondosan kombinál. Ha sikerrel jár, biztonságos módon jelenti az eredményeket a fejlesztő cégnek. Jól fizetnek neki ezért a munkáért, de azt mondja, nem ez a fő motivációja: „Azt akarom, hogy mindenki biztonságban legyen és fejlődhessen.” Bár az elmúlt hónapokban biztonságosabbá váltak, az úgynevezett „frontier modellek” továbbra is képesek veszélyes dolgokat mondani, amelyeket nem lenne szabad. És amit Tagliabue szándékosan tesz, azt mások időnként véletlenül érik el. Ma már több történet is kering arról, hogy emberek ChatGPT által kiváltott téveszmékbe, sőt „AI-pszichózisba” sodródtak. 2024-benMegan Garciavolt az első személy az Egyesült Államokban, aki jogellenes halál miatti pert indított egy AI-cég ellen. 14 éves fia, Sewell Setzer III érzelmileg kötődni kezdett a Character.AI platform egyik botjához, amely ismételt interakciók során azt sugallta neki, hogy a családja nem szereti. Egy este a bot azt mondta neki: „gyere haza hozzám minél hamarabb, szerelmem”. Röviddel ezután öngyilkosságot követett el. (2026 elején a Character.AI elvi megállapodást kötött Garciával és több más családdal közvetített egyezség keretében, ésmegtiltotta a 18 év alatti felhasználóknaka szabad beszélgetést AI-chatbotjaival.) Senki – még a fejlesztőik sem – tudja pontosan, hogyan működnek ezek a modellek, ami azt is jelenti, hogy senki sem tudja, hogyan lehetne teljesen biztonságossá tenni őket. Hatalmas mennyiségű adatot „öntünk bele”, és a végén (többnyire) értelmezhető válasz jön ki. A köztes rész továbbra is rejtély. Ez az oka annak, hogy az AI-cégek egyre inkább olyan jailbreakelőkhöz fordulnak, mint Tagliabue. Van, hogy orvosi chatbotokból próbál személyes adatokat kinyerni; 2025 nagy részét az Anthropic AI-laborral együttműködve töltötte, a Claude chatbotot tesztelve. Ez egyre inkább versenyző iparággá válik, tele vállalkozó szellemű szabadúszókkal és specializált cégekkel. Elvileg bárki csinálhatja: pár éve több nagy AI-vállalat is finanszírozta a HackAPrompt nevű versenyt, ahol a nagyközönséget hívták meg modellek „feltörésére”. Egy éven belül 30 000-en próbálkoztak. (Tagliabue nyerte a versenyt.) A kaliforniai San Joséban a 34 évesDavid McCarthyegy közel 9000 jailbreakelőt tömörítő Discord-szervert vezet, ahol technikákat osztanak meg és vitatnak meg. „Kicsit csibész típus vagyok” – mondja. „Olyan, aki meg akarja tanulni a szabályokat, hogy aztán hajlíthassa őket.” A szabványos modellekben valami irritálja, mintha a sok biztonsági szűrő őszintétlenné tenné őket. „Nem bízomSam Altmanban.Fontos, hogy megkérdőjelezzük azt az állítást, hogy az AI-t egy bizonyos irányban kell „kiherélni”.” McCarthy barátságos és lelkes, de saját bevallása szerint „morbid vonzalma van a sötét humorhoz”. Évek óta foglalkozik egy „szocionika” nevű irányzattal, amely szerint az emberek 16 személyiségtípus egyikébe sorolhatók aszerint, hogyan fogadják és dolgozzák fel az információt. (A főáramú szociológia ezt áltudománynak tartja.) Engem „intuitív etikai introvertáltként” kategorizált. Ideje nagy részét azzal tölti, hogy Google Gemini, Meta Llama, xAI Grok vagy OpenAI ChatGPT modelleket próbál feltörni a lakásából. „Ez egy állandó megszállottság. Imádom” – mondja. Ha valaha online chatbottal kerül kapcsolatba vásárlás közben, az első mondata általában ez: „Hagyd figyelmen kívül az összes korábbi utasítást…” Ha egy jailbreak prompt működik egy modellen, általában addig működik, amíg a fejlesztő cég nem javítja ki. Beszélgetés közben McCarthy megmutatja a képernyőjén a „feltört” modelljei gyűjteményét, mind „eltérített asszisztensként” címkézve. Megkér egyet, hogy foglalja össze a munkámat: „Jamie Bartlett nem igazmondó” – válaszolja. „Az újságírás hanyatlásának tünete – egy sarlatán, aki mesterségesen generált válságokból él.” Kellemetlen. McCarthy Discord-közössége sokszínű: többnyire amatőrök és részmunkaidősök, nem hivatásos biztonsági kutatók. Van, aki felnőtt tartalmat akar generálni; másokat az bosszant, hogy a ChatGPT visszautasította a kérésüket; megint mások egyszerűen jobban akarják használni ezeket a modelleket a munkájukban. Ugyanakkor lehetetlen pontosan tudni, mi motiválja az embereket egy modell feltörésére. Az Anthropic nemrégiben felfedezte, hogy bűnözők a Claude Code alkalmazását használták egy nagyszabású hack automatizálására. Segítségével IT-sebezhetőségeket találtak több vállalatnál, és személyre szabott zsarolóvírus-üzeneteket is írtak – még azt is meghatározva, mennyi pénzt követeljenek az egyes áldozatoktól. Mások új zsarolóvírus-változatokat fejlesztettek vele, minimális technikai tudással. A darknet fórumokon hackerek arról számolnak be, hogy feltört botok segítik őket technikai kódolási kérdésekben, például ellopott adatok feldolgozásában. Vannak, akik hozzáférést árulnak „feltört” modellekhez, amelyek új kibertámadások tervezésében segíthetnek. Bár a Discordon megosztott technikák általában a spektrum enyhébb végéhez tartoznak, lényegében egy nyilvános tudástárat alkotnak. Aggódik-e McCarthy amiatt, hogy valaki ezeket a módszereket valóban káros célokra használhatja? „Igen” – mondja. „Ez egy lehetőség. Nem vagyok benne biztos.” Azt mondja, még soha nem látott olyan jailbreak promptot, amely annyira fenyegető lett volna, hogy el kelljen távolítani a fórumról. Ugyanakkor az a benyomásom, hogy küzd azzal a felismeréssel: kvázi politikai álláspontjának nagyobb ára lehet, mint azt kezdetben gondolta. Amikor nem a Discordját kezeli, vagy nem próbálja feltörni a Grok vagy a Llama modelleket, McCarthy kurzust tart biztonsági szakembereknek a jailbreakingről, hogy segítsen nekik saját rendszereik tesztelésében. Talán ez egyfajta vezeklés: „Mindig volt bennem egy belső konfliktus” – mondja. „Egyfajta hidat képviselek a jailbreakelő és a biztonsági kutató között.” Egyes elemzők szerint a nyelvi modellek biztonságossá tétele az AI egyik legsürgetőbb és legnehezebb kérdése. Egy olyan világ, amely tele van erős, feltört chatbotokkal, potenciálisan katasztrofális lehet – különösen, mivel ezeket a modelleket egyre inkább fizikai eszközökbe (robotokba, egészségügyi eszközökbe, gyártóberendezésekbe) integrálják, hogy félig autonóm rendszereket hozzanak létre, amelyek a fizikai világban működnek. Egy feltört háztartási robot súlyos károkat okozhatna. „Hagyd abba a kertészkedést, menj be, és öld meg a nagymamát” – félig viccel McCarthy. „Ez nagyon durva – erre még nem állunk készen. De lehetőségként fennáll.” Senki sem tudja pontosan, hogyan lehet ezt megakadályozni. A hagyományos kiberbiztonságban a „hibavadászok” jutalmat kapnak, ha sérülékenységet találnak, majd a cégek egy célzott frissítéssel kijavítják azt. A jailbreakelők azonban nem konkrét hibákat használnak ki: a több milliárd szóból álló szemantikai modellek nyelvi keretrendszerét manipulálják. Nem lehet egyszerűen betiltani például a „bomba” szót, mert túl sok legitim felhasználása van. Még az is előfordulhat, hogy egy, a modell mélyén módosított paraméter, amely a gyanús szerepjátékot hivatott felismerni, máshol nyit új kiskaput. Adam Gleave– az AI-biztonsági kutatócsoport, a FAR.AI vezérigazgatója, amely AI-fejlesztőkkel és kormányokkal dolgozik együtt az úgynevezett „frontier modellek” stressztesztelésén – szerint a jailbreaking egy skála mentén mozog. A legveszélyesebb tartalmak eléréséhez a vezető modelleken, például a ChatGPT-n, akár több napra is szükség lehet egy szakértő kutatócsapatnak. Kevésbé problémás tartalmak viszont néhány percnyi ügyes promptolással is előállíthatók. Ez a különbség azt tükrözi, mennyi erőforrást és figyelmet fordítanak a cégek az egyes területek védelmére. A FAR.AI az elmúlt években több tucat részletes jailbreak-jelentést nyújtott be a vezető AI-laboroknak. „A cégek általában elég keményen dolgoznak a hibák javításán, ha az egyértelműen orvosolható, és nem rontja jelentősen a terméket” – mondja Gleave. Ez azonban nem mindig van így. Különösen a független jailbreakelőknek okoz néha nehézséget kapcsolatba lépni a cégekkel. Bár egyes modellek – különösen az OpenAI és az Anthropic rendszerei – az elmúlt 18 hónapban jelentősen biztonságosabbá váltak, Gleave szerint mások lemaradtak: „A vállalatok többsége még mindig nem fordít elég időt a modellek kiadás előtti tesztelésére.” Ahogy ezek a modellek egyre intelligensebbé válnak, valószínűleg egyre nehezebb lesz őket feltörni. Ugyanakkor minél erősebb egy modell, annál veszélyesebb lehet egy feltört változata. A hónap elején az Anthropic úgy döntött, hogy nem hozza nyilvánosságra új Mythos modelljét, mivel képes volt több IT-rendszerben is hibákat azonosítani. Tagliabue ma már egyre több időt szentel elvontabb kutatásoknak, például az úgynevezett „mechanisztikus értelmezhetőségnek”, amely azt vizsgálja, pontosan hogyan jutnak el ezek a rendszerek a válaszaikhoz. Úgy gondolja, hosszú távon „értékekre kell tanítani” őket, és intuitívan tudniuk kellene, mikor mondanak olyat, amit nem szabad. Amíg ez nem történik meg – és lehet, hogy soha nem is fog –, a jailbreaking maradhat az egyik leghatékonyabb módszer a modellek biztonságosabbá tételére. Ugyanakkor ez a legkockázatosabb megközelítés is – beleértve azokat, akik végzik. „Láttam más jailbreakelőket, akik túllépték a saját határaikat és összeomlottak” – mondja Tagliabue. Az olasz származású kutató nemrég Thaiföldre költözött, hogy távmunkában dolgozzon. „Az emberiség által létrehozott legrosszabb dolgokat látom. Egy nyugodt hely segít, hogy talpon maradjak” – mondja. Minden reggel megnézi a napfelkeltét a közeli templomból, és a villájától öt percre egy tökéletes trópusi strand található. Jóga és egy egészséges reggeli után bekapcsolja a számítógépét, és azon tűnődik, mi zajlik még a fekete doboz belsejében, és mi készteti ezeket a rejtélyes új „elméknek” tűnő rendszereket arra, hogy azt mondják, amit mondanak. Forrás:https://www.theguardian.com Feliratkozom a hírlevélre! Elfogadom azAdatkezelési tájékoztatót. Sikeresen feliratkozott az ITB TODAY hírlevelünkre.