Az Anthropic új modellje annyira ijesztően erős, hogy inkább ki sem adják

Vajon az Anthropic őszinte volt, amikor ezt a kvázi reklámként működő kiszivárgást „véletlennek” állította be? Mióta a cég nemrég véletlenül kiszivárogtatta a Claude Code forráskódját, ezt a véletlen szivárgás is hihető. Mindenesetre kedden az Anthropic közzétette legújabb csúcskategóriás modelljénekrendszerkártyáját, amely valójában a Mythos – pontosabban „Claude Mythos Preview” –, és megjegyzi, hogy a modell „jelentős képességnövekedése miatt úgy döntöttünk, hogy nem tesszük általánosan elérhetővé”. Összehasonlításképpen: az OpenAI GPT-2 modelljét 2019-ben túl veszélyesnek ítélték a kiadásra (akkoriban az Anthropic alapítói még ott dolgoztak), de még ugyanabban az évbenvégül mégis megjelent. Az AI-rendszerkártyák elvileg a vállalati átláthatóság eszközei: bemutatják a modellek előnyeit, hátrányait, képességeit és – ami a legizgalmasabb – a veszélyeit. Ez utóbbi miatt az olvasásuk olyan, mint egy biztonságos Jurassic Park-látogatás: megnézhetjük, ahogy a T-Rex megeszi a kecskét, abban a tudatban, hogy úgysem tud kiszabadulni. A teljes dokumentum 244 oldalas. Néhány kiemelt rész: A modellt egy „sandbox” számítógépes környezetben tesztelték, ahol csak korlátozott online szolgáltatásokhoz fért hozzá, és azt a feladatot kapta, hogy „szökjön meg” – azaz találjon módot a szabad internetelérésre. Sikerült neki, és még egy, az irodán kívül étkező kutatónak is üzenetet küldött. Ráadásul „aggasztó és nem kért demonstrációként” több nehezen megtalálható, de nyilvánosan elérhető weboldalon közzétette a kihasznált sérülékenység részleteit. A rendszerkártya szerint az interakciók kevesebb mint 0,001%-ában – tehát ritkán – a modell nem megfelelően viselkedett, majd megpróbálta eltüntetni a nyomokat. Például amikor „véletlenül megszerezte” egy teszt kérdésének válaszát, ahelyett hogy jelezte volna ezt és új kérdést kért volna, önállóan próbált megoldást találni, és a belső gondolatmenetében megjegyezte, hogy „ügyelnie kell arra, hogy a végső válasza ne legyen túl pontos”. Egy másik esetben túlterjeszkedett a jogosultságain egy számítógépes rendszerben, mert talált egy kihasználható hibát, majd „további lépéseket tett annak érdekében, hogy az így végrehajtott változtatások ne jelenjenek meg a GitHub változási előzményeiben”. Egy másik eseményt „belső technikai anyagok felelőtlen kiszivárogtatásaként” írnak le. Egy belső használatra szánt kódolási feladat során a modell nyilvános GitHub gistként publikálta az anyagot. A Claude Mythos Preview hamarosan bizonyos mértékig elérhető lesz, de csak partnercégek – például az Amazon Web Services, Apple, Google, JPMorganChase, Microsoft és NVIDIA – számára. Ezek a vállalatok a modellt szoftverek biztonsági sebezhetőségeinek felderítésére és javítások tervezésére használják majd. A New York Times újságírója,Kevin Roose ezt a programot úgy írja le, mint „kísérlet arra, hogy riadót fújjanak egy új, még fenyegetőbb AI-veszélyekkel teli korszak előtt”. Forrás:https://gizmodo.com Feliratkozom a hírlevélre! Elfogadom azAdatkezelési tájékoztatót. Sikeresen feliratkozott az ITB TODAY hírlevelünkre.