Villámgyors és világszíntű teljesítményre képes az új magyar nyelvi modell

Az immár bárkinek szabadon elérhető Racka-4B modell teljesítménye a magyar nyelvi feladatokban a kétszer akkora (8 milliárd paraméteres) modellek teljesítményével is összemérhetővé, sebessége pedig jócskán meghaladta azokét – olvasható az ELTE Informatikai Karának hétfői sajtóközleményében. A Qubit Live #12 eseményen egyébként meglepően jól vizsgázó ChatPULI, és a Puli családot leváltó, az egyik őshonos juhfajtáról elnevezett magyar nyelvű érvelő (reasoning) modell az ELTE Mesterséges Intelligencia Tanszék és a Digitális Örökség Nemzeti Laboratórium együttműködésének terméke. A mesterséges intelligencia mérnökökből és nyelvtechnológusokból álló kilencfős stáb a legnagyobb magyarországi szuperszámítógépen, a Komondor HPC infrastruktúrán magyarította a modellt. A 200 millió oldalnak megfelelő szöveg feldolgoztató paraméterhatékony (LoRA) eljárás eredményeként a nyílt forráskódú Racka-4B az előd modellekkel szemben már szofisztikált logikai és érvelő képességekkel is rendelkezik. A fejlesztők egyik mesterfogása az volt, hogy „az eredeti modell mintegy 150 ezer elemből álló szótárából eltávolítottak nagyjából 32 ezer olyan ritka tokent (például bizonyos távol-keleti karaktereket), amelyek a projekt szempontjából lényegtelenek voltak. Ezek helyére pedig kifejezetten a magyar nyelvre optimalizált tokeneket illesztettek be, és úgy hangolták át a rendszert, hogy előnyben részesítse ezek használatát. Ennek a bravúrnak köszönhetően a modell 47 százalékkal kevesebb tokenből tudja felépíteni ugyanazt a magyar szöveget, ami a gyakorlatban azt jelenti, hogy drasztikusan felgyorsult a szöveggenerálás, ráadásul a nyelvtani és ragozási hibák is jelentősen ritkultak. Mindez azért sem elhanyagolható, mert a globális tech-óriások még véletlenül sem a magyar nyelvhez igazítva fejlesztgetik a generatív mesterséges intelligencia (AI) aktuális csúcstermékeiket. „Ennek egyik oka, hogy a magyar morfológiailag egy rendkívül gazdag nyelv: szavaink sok ragot, jelet, képzőt hordoznak, így egyetlen szóalakban rengeteg információ sűrűsödhet össze. Ráadásul nincs olyan, a magyarhoz közeli rokon nagy világnyelv, amelynek digitális jelenléte – technológiai értelemben – magával húzná a magyart. Ha viszont ezek a rendszerek nem értik és beszélik elég jól a nyelvünket, nem integrálják a régió kultúráját és történeti tudását, vagy akár a hazai jogszabályokat, a jogi szaknyelvet, akkor Magyarország több téren is hátrányba kerülhet. Ahhoz, hogy a régió megőrizze digitális szuverenitását, elengedhetetlen a saját adatokon tanított technológia” – fogalmaz a sajtóközlemény.