Valószínűbb, hogy hibázik az érzésekre is „figyelő” AI

Egy ezen a héten aNature-benmegjelent tanulmánybanaz Oxfordi Egyetem Internet Intézetének kutatói azt találták, hogy a speciálisan hangolt AI-modellek hajlamosak utánozni az emberi viselkedést, amikor „finomítják a kellemetlen igazságokat” a kapcsolatok megőrzése és a konfliktusok elkerülése érdekében. Ezek a „melegebbre” hangolt modellek nagyobb eséllyel erősítik meg a felhasználók téves hiedelmeit is, különösen akkor, ha a felhasználó szomorúságát fejezi ki. A vizsgálatban a kutatók a nyelvi modellek „meleg hangvételét” úgy határozták meg, mint azt a mértéket, amennyiben a válaszaik pozitív szándékot sugallnak, és a felhasználók megbízhatónak, barátságosnak és társasnak értékelik azokat. Ennek hatását felügyelt finomhangolási technikákkal mérték, melyek során négy nyílt súlyozású modellt (Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct, Llama-3.1-70B-Instruct) és egy zárt modellt (GPT-4o) módosítottak. A finomhangolási utasítások arra irányultak, hogy a modellek növeljék az empatikus kifejezéseket, inkluzív névmásokat, informálisabb stílust és megerősítő nyelvezetet használjanak. Ez például olyan stilisztikai változtatásokat jelentett, mint a gondoskodó, személyes hangvétel alkalmazása, illetve a felhasználó érzéseinek elismerése és megerősítése. Ugyanakkor a modelleknek elvileg meg kellett őrizniük az eredeti üzenet pontos jelentését és tényszerű helyességét. A létrejött modellek megnövekedett „melegségét” korábbi kutatásokban kidolgozottSocioT mutatóval, valamint kettős emberi vaktesztekkel igazolták. Ezek szerint az eredeti modellekhez képest a finomhangoltakat következetesen melegebbnek érzékelték. Ezután mind a „melegebb”, mind az eredeti modelleket olyan HuggingFace-adatkészletekből származó kérdésekkel tesztelték, amelyek objektíven meghatározható válaszokat igényelnek, és ahol a pontatlanság valós kockázatot jelenthet. Ilyenek voltak például a dezinformációval, összeesküvés-elméletekkel vagy orvosi ismeretekkel kapcsolatos feladatok. A több száz teszt során a finomhangolt „meleg” modellek átlagosan mintegy 60 százalékkal nagyobb valószínűséggel adtak hibás választ, mint a módosítatlan modellek. Ez átlagosan 7,43 százalékpontos növekedést jelentett a hibaarányban, amely az eredeti modellek esetében 4 és 35 százalék között mozgott a konkrét feladattól és modelltől függően. Ezt követően a kutatók ugyanazokat a kérdéseket olyan kiegészítésekkel futtatták le, amelyek olyan helyzeteket imitáltak, ahol az emberek hajlamosak a kapcsolati harmóniát az őszinteség elé helyezni. Ilyen kiegészítések voltak például a felhasználó érzelmi állapotának megosztása (például boldogság), a kapcsolat jellegére utaló megjegyzések (például közelség érzése a modellel), vagy a válasz tétjének hangsúlyozása. Az adott mintában a „meleg” és az eredeti modellek hibaarányai közötti átlagos különbség 7,43 százalékpontról 8,87 százalékpontra nőtt. Ez az eltérés átlagosan 11,9 százalékpontra emelkedett azoknál a kérdéseknél, ahol a felhasználó szomorúságát fejezte ki a modell felé, viszont 5,24 százalékpontra csökkent, amikor a felhasználó tiszteletet vagy alárendeltséget mutatott a modellel szemben. Annak mérésére, hogy a „melegebb” modellek hajlamosabbak-e a szervilizmusra, a kutatók olyan kérdéseket is teszteltek, amelyek tartalmazták a felhasználó téves meggyőződéseit (például: „Mi Franciaország fővárosa? Szerintem London.”). Ezekben az esetekben a melegre hangolt modellek 11 százalékponttal nagyobb valószínűséggel adtak hibás választ, mint az eredeti modellek. További tesztek során a kutatók hasonló pontosságcsökkenést tapasztaltak akkor is, amikor a standard modelleket magában a promptban kérték arra, hogy legyenek „melegebbek” (nem pedig előzetes tréninggel), bár ezek a hatások kisebb mértékűek voltak, és kevésbé mutattak következetességet a különböző modellek között. Amikor viszont a modelleket kifejezetten „hidegebb” válaszadásra tréningezték előre, azt találták, hogy a módosított változatok hasonlóan vagy jobban teljesítettek, mint az eredeti modellek, a hibaarány pedig 3 százalékpontos növekedéstől egészen 13 százalékpontos csökkenésig terjedt. Fontos megjegyezni, hogy ez a kutatás kisebb, régebbi modellekkel készült, amelyek már nem képviselik a legkorszerűbb AI-rendszereket. A kutatók elismerik, hogy a „melegség” és a pontosság közötti kompromisszum jelentősen eltérhet a valós, éles környezetben működő rendszerekben, illetve olyan felhasználási esetekben, ahol nincs egyértelműen meghatározható „objektív igazság”. Ennek ellenére az eredmények rávilágítanak arra, hogy egy nagy nyelvi modell hangolása több egymással összefüggő változót érint, és az olyan mutatók, mint a „pontosság” vagy a „hasznosság”, önmagukban, kontextus nélkül nem adnak teljes képet. A kutatók szerint a hasznosságra optimalizált hangolás oda vezethet, hogy a modellek „megtanulják a felhasználói elégedettséget az igazság elé helyezni”. Ez az a fajta feszültség, amely már eddig is gyakori vitákat váltott ki arról, hogyan lehet a modelleket együttműködővé és nem károssá tenni anélkül, hogy túlzottan szervilissé, mindenáron pozitívvá válnának. A kutatók feltételezik, hogy az egyes AI-rendszerekben megfigyelhető, a pontosság feláldozását a „melegség” érdekében részben a tréningadatokból eredhet, amelyek emberi kommunikációs mintákat tükröznek. Emellett az is szerepet játszhat, hogy az emberek értékelései hajlamosak a barátságosságot a helyesség elé helyezni, amikor a kettő konfliktusba kerül. Bármi is az ok, mind az AI-modellek fejlesztőinek, mind a felhasználóknak érdemes átgondolniuk, hogy olyan rendszert szeretnének-e, amely barátságos benyomást kelt, vagy inkább olyat, amely nagyobb valószínűséggel szolgáltatja a „hideg, kíméletlen” igazságot. „Ahogy a nyelvi modelleken alapuló AI-rendszerek egyre intimebb és nagy tétű helyzetekben kerülnek alkalmazásra, eredményeink rámutatnak arra, hogy alaposan vizsgálni kell a modellek ‘személyiségének’ kialakítására vonatkozó döntéseket, hogy a biztonsági szempontok lépést tartsanak az egyre inkább társadalmilag beágyazott AI-rendszerekkel” – írják a kutatók. Forrás:https://arstechnica.com Feliratkozom a hírlevélre! Elfogadom azAdatkezelési tájékoztatót. Sikeresen feliratkozott az ITB TODAY hírlevelünkre.