Formázzunk át minden dokumentumot, hogy az AI könnyebben megemészthesse őket!

A weboldalakat egyre inkább úgy tervezik át, hogy az AI-modellek könnyebben feldolgozhassák őket. Most egy iparági összefogás ezt a szemléletet a digitális dokumentumokra is kiterjesztené; és ez jelentős költségcsökkenést eredményezhet. A Linux Foundation égisze alatt működő LF AI & Data Foundation munkacsoportot hozott létre a DocLang nevű, AI-barát dokumentumformátum fejlesztésének irányítására. A cél egy olyan szabvány létrehozása, amely megkönnyíti a vállalatok számára dokumentumaik mesterségesintelligencia-rendszerekbe történő betáplálását. A DocLang-csoport alapítói között szerepel a IBM, az NVIDIA, a Red Hat, az ABBYY, a HumanSignal és a Forgis. A kezdeményezés szerint a jelenleg elterjedt formátumok – például a PDF, a Markdown, a HTML vagy a LaTeX – nem igazán alkalmasak arra, hogy az AI-rendszerek hatékonyan értelmezzék és feldolgozzák a dokumentumokat. 2024 végén az IBM kifejlesztette a Docling nevű nyílt forráskódú eszközkészletet, amely az AI-alapú dokumentumfeldolgozást segíti elő, hasonlóan a Microsoft MarkItDown vagy a Marker projekthez. A Docling különféle fájlformátumokat képes strukturált, AI-kompatibilis adatformává alakítani. A DocLang erre az alapra építve egy olyan szabványt kínál, amely lehetővé teszi a strukturált kimenetek cseréjét különböző rendszerek között. „A DocLang célja az egyik legalapvetőbb vállalati AI-probléma megoldása: a dokumentumokat embereknek tervezték, nem gépeknek” – nyilatkozta Maxime Vermeir, az ABBYY AI-stratégiáért felelős alelnöke. „A dokumentumok szerkezetének, elrendezésének, jelentésének és irányítási információinak minimális, szabványosított és AI-natív reprezentációjával a DocLang sokkal kiszámíthatóbb alapot teremt a modern mesterségesintelligencia-rendszerek számára.” A specifikáció szerzői szerint az új formátumra azért van szükség, mert a jelenlegi dokumentumformátumokat elsősorban megjelenítésre tervezték. Amikor az AI-modellek tokenekké alakítják ezeket a dokumentumokat, gyakran elveszik a szemantikai információ, a szerkezeti kapcsolatok vagy a geometriai kontextus. A specifikáció szerint a Markdown funkcionalitása túl korlátozott, a HTML túlságosan bőbeszédű, míg a LaTeX túl sok kétértelműséget enged meg. Lényegében a DocLangot kifejezetten a nagy nyelvi modellek (LLM-ek) tokenizálóihoz optimalizálták. Olyan jelölőrendszert alkalmaz, amely egy az egyben megfelelteti a DocLang elemeit az LLM-tokeneknek. A specifikáció egy korlátozott XML-szókészletre épül, amely összhangban van az LLM-ek tokenizáló mechanizmusaival, így optimalizált promptokat eredményez. A formátum veszteségmentes, vagyis az AI-feldolgozás során nem vesznek el értékes információk. Támogatja az olyan gyakori grafikus elemeket, mint a táblázatok, képletek, diagramok és egyéb multimodális tartalmak, emellett nyílt szabványként érhető el. A DocLang a költségek kordában tartásában is segíthet. Az AI Cost Check adatai szerint egy PDF-fájl OCR-feldolgozása egy AI-modellel alaphelyzetben körülbelül 1200 bemeneti és 150 kimeneti token felhasználását igényli. Ez egyszeri esetben elenyésző költséget jelenthet a vállalati ügyfelek számára, nagy léptékben azonban már komoly figyelmet érdemel. Mivel az AI-modellek tokenköltségei jelentősen eltérhetnek egymástól, a vállalatok könnyen többet költhetnek PDF-ek feldolgozására, mint amire eredetileg számítottak – különösen hosszú és összetett dokumentumok, illetve drágább csúcskategóriás modellek használata esetén. „A PDF-et megjelenítésre tervezték, nem megértésre” – mondta Jon Knisley, az ABBYY AI Value and Enablement vezetője. „Valahányszor egy PDF bekerül egy AI-folyamatba, a dokumentum szerkezete, jelentése és elrendezése részben elveszik. Emiatt a modell pontosságát gyakran inkább a dokumentum minősége korlátozza, mint maga a modell. A fejlesztőcsapatok ezt egyedi elemzőeszközök építésével próbálják ellensúlyozni minden integrációs ponton, ami törékeny, egyszer használatos megoldásokhoz vezet, és minden új dokumentumtípus esetén újabb fejlesztési ciklust igényel.” Knisley szerint ennek jól mérhető költsége van. „A kétértelmű szerkezet találgatásra kényszeríti a modellt, ami növeli a hallucinációk kockázatát, miközben a tokenek jelentős része az elrendezés megfejtésére megy el ahelyett, hogy a rendszer a tényleges tartalom kinyerésére koncentrálna” – magyarázta. „A DocLang használatával az ügyfelek nagyobb pontosságra, alacsonyabb költségekre, kevesebb tokenfelhasználásra, gyorsabb működésre és konzisztensebb eredményekre számíthatnak. A pontos megtakarítás az alkalmazási területtől és a dokumentum összetettségétől függ, de kezdeti méréseink szerint a költségcsökkenés a vizsgált modelltől függően négyszerestől akár harmincszorosnál is nagyobb lehet.” Knisley az adatkezelési és megfelelőségi előnyöket is kiemelte. Elmondása szerint a dokumentumok eredetére vonatkozó adatok és a metaadatok gyakran elvesznek a fájlok mozgatása során, míg a DocLang ezeket az információkat a dokumentumhoz kapcsolva megőrzi. Az AI-alapú dokumentumfeldolgozási megoldásokat kínáló ABBYY létrehozta a DocLang Interactive Benchmark nevű tesztkörnyezetet, amely bemutatja, mennyi token takarítható meg a DocLang használatával. Például az IBM 2025-ös éves jelentésének PDF-változata 8421 bemeneti és 512 kimeneti tokent eredményezett, míg ugyanennek a dokumentumnak a DocLang-változata csupán 5310 bemeneti és 498 kimeneti tokent igényelt. Emellett a DocLang alacsonyabb késleltetést produkált (2,7 másodperc a PDF 4,2 másodpercével szemben), és jobb minőségű eredményt adott: a PDF feldolgozása során az AI kihagyott egy alfejezetet, valamint hibásan kezelte egy táblázat összevonását. „Még a kezdeti szakaszban járunk, ezért nem szeretnénk eltúlozni az elfogadottság mértékét” – mondta Knisley. „A szabvány nyílt és szabadon felhasználható, a munkacsoport pedig aktívan várja további technológiai szolgáltatók és vállalatok csatlakozását. Az első visszajelzések biztatóak, és optimisták vagyunk a jövőjét illetően.” Forrás: https://www.theregister.com/