Elbukott az AI a klasszikus pszichológiai teszten – 75%-ban rossz válaszokat adott

A mesterséges intelligencia életünk egyre több területén nyújthat segítséget, ám nem szabad gondolkodás nélkül hagyatkozni az általa adott válaszokra. Kutatók egy a pszichológiában használt klasszikus figyelemtesztet – úgynevezett Stroop-tesztet - próbáltak ki a vezető AI-modelleken - ChatGPT, Claude és Gemini -, és azt találták, hogy a hosszabb, összetettebb feladatoknál a mesterséges intelligencia bizony felsült - írja a sciencedaily.com . Az AI esszéket ír, összetett problémákat old meg, de tudjuk, hogy működéséből adódóan gyakran hallucinál , ad olykor teljes bizonyossággal helytelen válaszokat. Egy a PNAS Nexusban megjelent új kutatás szerint pedig nehézségei lehetnek a téren, amit az emberek nap, mint nap csinálnak: a feladatra való összpontosítással zavaró tényezők között. A Suketu Patel vezette kutatás során a szakemberek több AI-modellt is alávetettek a Stroop-tesztnek, melyet a pszichológusok évtizedek óta használnak a figyelem, a koncentráció és az önkontroll tanulmányozására. A teszt lényege, hogy olyan szavakat, mint a "piros", "kék" vagy "zöld", színes tintával jelenítenek meg. Néha a szó és a tinta színe megegyezik: például a „piros” szó piros tintával szerepel. Máskor ütköznek: például a „piros” szó kék tintával van nyomtatva. A tesztben az a feladat, hogy meg kell nevezni a tinta színét – ahelyett, hogy magát a szót olvasnák el. Bár a feladat egyszerűnek tűnik, ám mivel a szavak olvasása sokszor automatikus szokásunk, az agynak el kell nyomnia a szó elolvasására vonatkozó késztetését, és csak a tinta színére kell összpontosítania. A pszichológiában gyakran használják ezt a tesztet az úgynevezett végrehajtó funkciók mérésére. Ez a mentális folyamat segít az embereknek szabályozni a figyelmet, ellenállni a zavaró tényezőknek és a célokra koncentrálni. Volt, hogy 75%-ban rossz válaszokat adott az AI A kutatók arra voltak kíváncsiak, hogy a modern nagy nyelvi modellek - ChatGPT, a Claude és a Gemini - ugyanúgy kezelik-e ezt a kihívást, mint az emberek. Ezeket a nagy nyelvi modelleket hatalmas mennyiségű szöveg segítségével képzik, melynek köszönhetően megtanulják a nyelvi mintákat és olyan válaszokat generálnak, melyek meglehetősen emberinek tűnnek. Amikor csupán öt színnel jelölt szót tartalmazó rövid listákat kaptak, az AI-rendszerek általában jól teljesítettek, még akkor is, ha a szavak és a színek nem egyeztek meg. Ám ahogy a listák egyre hosszabbak lettek, úgy romlott a mesterséges intelligencia teljesítménye. A Chat GPT -40 91%-os pontosságot ért el, amikor öt szóval tesztelték, ám tíz szónál már 57%-ra esett vissza az átala produkált eredmény. Amikor pedig a lista negyven szóra bővült, a mesterséges intelligencia 75%-ban hibás választ adott. A Claude 3.5 Sonnet még a húsz szavas listák esetében is stabil teljesítményt nyújtott, ám negyven szavas listába a Chat GPT-hez hasonlóan beletört a bicskája: mindössze 24%-os pontosságra esett vissza. A kutatók hasonló eredményeket tapasztaltak a GPT-5, a Claude Opus 4.1 és a Gemini 2.5 esetében is. A cikk az ajánló után folytatódik Már megvásárolható a Femina első könyve: A láthatatlan gyógyító Molnár Éva kötete egy különleges utazásra hív az illatok gyógyító világába — az ókori füstölőktől egészen a modern olfaktív terápiáig. Hogyan hatnak ránk az illatok? Miért kapcsolódik össze ennyire mélyen az emlékezet, a lélek és a szaglás? És hogyan segíthetnek az illatok a testi-lelki harmónia megtalálásában? Promóció A tanulmány kiemel egy fontos különbséget az emberi és a mesterséges intelligencia között. Bár a modern AI-rendszerek lenyűgöző nyelvi és érvelési képességekkel bírnak, az alapjukként szolgáló mechanizmusok eltérnek az emberi agy figyelmi folyamataitól. Az emberek ugyanis egy feladat során sokkal inkább képesek egy adott célra összpontosítani, miközben kiszűrik a zavaró információkat. A jelenlegi nagy nyelvi modelleknek azonban e téren komoly problémáik vannak még. Kognitív képességeink épülnek le az AI –használatával. Méghozzá elég gyorsan. Kép: Getty Images