"A használatalapú árazás megöli a vibe-od - Így építhetsz saját helyi AI coding agentet"

A modellfejlesztők egyre agresszívabb rate limiteket vezetnek be, árakat emelnek, vagy akár teljesen elhagyják az előfizetéses modellt a használatalapú árazás kedvéért, így az a vibe-coded hobbiprojekt hamarosan jóval drágább mulatság lehet. Szerencsére azért van néhány lehetőség a költségek leszorítására. Az elmúlt hetekben láttuk, hogyaz Anthropic eljátszott a Claude Code legolcsóbb csomagokból való kivételével, miközben a Microsoft nem sokat óvatoskodott, hanema GitHub Copilotot részben használatalapú modellre állította át. Az egész ügy elgondolkodtatott minket: egyáltalán szükségünk van az Anthropic vagy az OpenAI csúcsmodelljeire, vagy meg tudjuk oldani egy kisebb, helyben futtatott modellel is? Persze lehet, hogy lassabb, kevésbbet tud és kicsit idegesítőbb vele dolgozni, de az ingyenesnél nehéz jobb árat mondani ... Feltéve, hogy a szükséges hardver már eleve megvan. Épp kapóra jön, hogy az Alibaba nemrég kiadta a Qwen3.6-27B-t, amelyről a felhő- és e-kereskedelmi óriás azt állítja, hogy "flagship coding power"-t kínál olyan kicsi csomagban, amely már egy 32 GB-os M-szériás Macen vagy egy 24 GB-os GPU-n is elfut. [...] Ebben a gyakorlati anyagban megnézzük, hogyan lehet helyi modelleket, például a Qwen3.6-27B-t telepíteni és beállítani saját gépen futó coding feladatokra, valamint áttekintünk néhány agent frameworköt, amelyeket ezekkel együtt használhatsz. [...] (via) Usage-based pricing killing your vibe - here's how to roll your own local AI coding agentshttps://t.co/bIRvv3BM2c — The Register (@TheRegister)May 2, 2026 Qwen 3.6-35B-A3B-t próbáltam a minap OpenCode-dal (M4 Max). Volt, amit megcsinált rendesen, de volt, ahol végtelen ciklusba tette magát. ha a helyben futtatott llm sebességét elégnek tartod lehet hasznosnak találod a huggingface-en az ilyen distilled modelleket megnézni, tenni velük egy próbát pl. deepseek distilled ezeket a distilled modelleket a nagy Rx vagy Opus válaszain finomhangolják pl. qwen / lama indulva, és egész jól mímeli hogy ő is hasonlóan okos. Tiltakozott is miatta az anthropic. lassú, de ez nem azt jelenti hogy pár év múlva egy moe distilled local llm ne lenne egy teljesen életképes használat akár összetett autonóm spec alapú fejlesztéshez komplett merge reuestig ut/it, release notes stb. valami github speckit-szerű eszköüzrendszerrel dolgozva. Itt és most ha arra kell a lokális modell, hogy mit csinál egy függvény, írjon függvényt kommentből gyártson unittesztet, szóval nem túl komplex dolgokra és jó ha elpörög az agent loop a maga worktreejében tart amíg tart elérni az exit feltételeket, akkor akár még hasznosnak is fogod ezeket a distilled modelleket tartani. Harness függő, de úgy általában mind sebességre mind tudásra eddig elég impresszív. Érdemes segíteni neki: hobbi projekt esetén gitnexus, a projekt alapján válogatott skill-ek és jó agent vezérlő fájlok esetén gyorsan megtalálja mihez kell nyúlni és egész ügyesen meg is oldja. Méretéhez képest ugye nagy a context (default 256k, de ha van memória, 1m-ig bírja), így nem kell teljesen csak az alap tudására építeni, lehet "tömni a fejébe". Amire baromi jó a helyi modell, hogy megtanul optimalizálni az ember, mint az informatika hőskorában, és ez a tudás a felhős cuccok esetén utána szó szerint aranyat ér Es akkor meg engem neztek hulyenek, hogy miert nem vagyok hajlando semmi olyan AI modelt hasznalni, amit nem tudok lokalisan futtatni. I hate myself, because I'm not open-source. Ismét kiderül, hogy a cloud az csak valaki más számítógépe? "kiderult" Mi derult ki pontosan? Hát, hogy drága a memória. Mert megeszi az AI. És mivel drága a memória, drágult az AI-számítás is. Ördögi kör! És kiszop? Az egyszeri ember. De úgy kell neki, mert ő generál mindenféle fasz videókat AI-vel nyakra-faszra. trey @ gépház De onprem olcso a memoria? Vagy hogy jon ide a cloud? Btw az, hogy "dragult az AI-szamitas", az igy nem teljesen pontos, a beeteto idoszak kezd veget erni. Ma ugyanannyiert vasarol a ceg 1M tokent, mint egy honapja. Az ilyen tamogatott aru himi-humi subscriptionok kezdenek eltunni, az igaz. Mindenhol drága a memória. trey @ gépház Nem, onprem se olcsó, csak az AI felhőszolgáltató is rájött, hogy a jelenlegi árazással nem tud profitot termelni, ezért plusz bevételt kell generálni. Pl. úgy, hogy használatarányosan kell fizetni. Meg mindig nem ertem. Mi az az AI felhoszolgaltato? Ha az Anthropictol veszem az Opus-t, 25 dollar az ara. Ha az AWS-tol, akkor is 25 az ara. Ha mi ertekesitjuk tovabb, akkor is 25 dollar az ara. Mindenhogy 25 dollar az ara, raadasul ez nemhogynem emelkedett, hanem az Opus 4.5 megjelenesevelharmadaracsokkent az output tokenek ara. Milyen felho? Milyen plusz bevetel? Egy dolog szunt meg, az ingyen ebed, amit a befekteto penzebol finansziroznak. Ha meg localban futtatod, akkor egyszer megveszed a vasat, utána fizeted a villanyszámlát. Meg cseréled a vasat, ha majd egyszer lerohad. Az én állításom, hogy ez tud olcsóbb lenni, mint a cloudban futtatott AI, mert ő még ezeken a költségeken felül hasznot is remél. Most azt a részét ne feszegessük, hogy az ingyenes modellek mennyire jók a fizetősökhöz képest, csak számítási feladat szempontjából nézzük a kérdést. A stabil workload-ra méretezett lokál vas olcsóbb ha elég nagy vagy és így eloszlik az ember költség. Ha 80% alatt vagy erőforrás kihasználtságban vagy kevés szerver van de ugye ugyanolyan drága ember kell 1 vasra mint 100-ra, akkor irány a felhő azt a részét ne feszegessük Pedig pont ez a lényeg, hogy mire jó és miben jó. Amit localhoston tudsz futtatni, annak kevés képességbeli köze van a frontier llm-ekhez - már, ha llm kell. Van sok olyan mesterséges intelligencia módszer ami hasznos, viszont semmi köze az llm-ekhez, és azokhoz pár százezer ft-ból is meglehet a HW. Ha meg localban futtatod, akkor egyszer megveszed a vasat, utána fizeted a villanyszámlát. Meg cseréled a vasat, ha majd egyszer lerohad. Nem egyszer veszed meg a vasat, hanem kb. 3 évente, és kb. ~5000 dollárért, ha havi ~100 dollárnál többet költesz AI API hívásokra, akkor nyilván megéri. Ha viszont nem költesz annyit, akkor nem éri meg. Most fog kiderülni, hogy hosszú távon milyen áron tudnak szolgáltatni felhőben, úgy, hogy a vas 90+ százalék kihasználtsággal pörög, ha épp nincs generic hívás, akkor megy rá flex hívás, ha az sincs, akkor meg batch. Így csökkenő árazással. https://iotguru.cloud Ha valaki munkára vagy komoly hobbira használ AI-t, akkor a jelenlegi token árak mellett top tier modellekkel óránként elmegy 50-100 dollár. Ugye kb esélytelen folyamatosan kitömni értelmes munkával (a cseszel takarítani a context window-t mert úgyis elfér, az nem az) így a nettó érdemi futás programozó vagy heavy irodai munka esetén 1-4 óra naponta. Ne a kapudrog fix áras előfizetést nézd, hanem hogy mennyi ha api-n veszed, nagyobb cégeknek ugye nincs is nagyon már más opció. A helyi vas olcsóbb, ha ki tudod tömni, de nem tudod, mert a fránya dolgozók mind ugyanabban a pár órában nyúznák, utána meg csak az áramot fogyasztja Döntsd el: top tier modellekkel óránként elmegy 50-100 dollár vs. A helyi vas olcsóbb, ha ki tudod tömni Franko számítása szerint havi 100$ felett megtérül a saját vas. Mondjuk a számításának több részét sem értem, pl. honnan jött a három éves csere periódus, szerintem egy GPU azért ennél többet kibír, az más kérdés ha annyit fejlődünk majd három év alatt, hogy amúgy is cserélni kellene. Viszont egy RTX Pro 6000 sem 5000$, hanem inkább kétszer annyi (most), és akkor a gép többi részéről még nem is beszéltünk. Pláne nem a B200-B300 kategóriáról, amit nem is tudom hogy halandóként meg lehet-e venni. Persze be lehet érni kevesebb RAM-al is, de érdemes? A legnagyobb ökörség beruházni valamibe, de azért annyira nem, hogy használható is legyen. Egy ilyen GPU ki tudhat szolgálni néhány (<10) usert. Nyilván ha már egész csak ezzel kódolnak, akkor más lesz a matek. De amikor nem pörög, akkor meg áramot sem annyit fogyaszt, messze nem. De vegyük már észre: a cloudban futtatott AI is ugyanerre az irgalmatlan drága vasra támaszkodik. Igen, elvileg jobban ki tudja használni. Nagy tételben olcsóbban kaphatja a vasat. Olcsóbban kaphatja az áramot. Ez ugyanakkor bármiféle IT szolgáltatásra igaz lenne, és mégse költözött MINDEN cloudba. Ahol igen, ott is inkább a humán erőforrás hiány miatt, mintsem az árazás miatt. Én azért élnék a gyanúval, hogy jelenleg messze túlárazva kínálják a cloud csomagokat, de egyelőre pontos számítást senkitől sem láttam, csak bemondott számokat. Mondjuk a számításának több részét sem értem, pl. honnan jött a három éves csere periódus, szerintem egy GPU azért ennél többet kibír, az más kérdés ha annyit fejlődünk majd három év alatt, hogy amúgy is cserélni kellene. Céges viszonylatban kb. 3 év a csereperiódus. Vagy elavul technikailag vagy beledöglik a használatba vagy ledolgozta az idejét. Viszont egy RTX Pro 6000 sem 5000$, hanem inkább kétszer annyi (most), és akkor a gép többi részéről még nem is beszéltünk. Pláne nem a B200-B300 kategóriáról, amit nem is tudom hogy halandóként meg lehet-e venni. A cikkben írtakhoz írtam ezt, nyilván nem egy top tier long context modellhez való vasat írtam, hanem egy átlagos low-cost modellt, amihez elég a 32 GB VRAM. Ez kb. GPT-5.4-nano vagy GPT-5.4-mini igénye, ezekből pedig nem fogsz összehozni óránként 50-100 dolláros költséget felhőben sem. A GPT-5.5-pro igénye szerintem kb. 1-1,5 TB VRAM körül jár, az nem az a pénz, amit a cégnél meg fogsz engedni magadnak, ez milliós ár, dollárban. De vegyük már észre: a cloudban futtatott AI is ugyanerre az irgalmatlan drága vasra támaszkodik. Igen, elvileg jobban ki tudja használni. Ezek kurva drága vasak, itt nem egy kurrens desktop GPU az, amiről a felhős cuccoknál beszélünk... ezeket ki kell használni 90+ százalékban. Ez ugyanakkor bármiféle IT szolgáltatásra igaz lenne, és mégse költözött MINDEN cloudba. Ahol igen, ott is inkább a humán erőforrás hiány miatt, mintsem az árazás miatt. Sose volt arról szó, hogy minden felhőben kell legyen. Viszont van egy csomó dolog, ami felhőben - jól használva a felhőt - olcsóbb. Főleg akkor, ha on-prem oldalon is minden költséget meg kockázatot beleszámolunk, nem pedig úgy, ahogy az átlagember szokta az autóhasználatot és csak a benzinnel számol... https://iotguru.cloud Ha valaki munkára vagy komoly hobbira használ AI-t, akkor a jelenlegi token árak mellett top tier modellekkel óránként elmegy 50-100 dollár. Én használok sokféle munkára, nem megy el ennyi, ha mégis ennyi elmegy, akkor vagy nagyon rosszul használod vagy nagyon speciális célra használod. Ne a kapudrog fix áras előfizetést nézd, hanem hogy mennyi ha api-n veszed, nagyobb cégeknek ugye nincs is nagyon már más opció. Ez ismét értelmes használat kérdése. Nem kell minden feladatra a legdrágább modellt használni, amikor arra jó egy korábbi modell, ami fillérekbe kerül. Ezt is meg kell tanulni, hogy nem kell mindent a GPT-5.5-pro long context modelltől várni, amikor a feladata komplexitása szerint a tizedébe kerülő GPT-5.4 is jó vagy akár a századába kerülő GPT-5.2 is megoldja. Amikor el kell vinni A-ból B-be egy 5 kilós dobozt, akkor nem egy nyerges vontatót veszek/bérlek a feladatra. A helyi vas olcsóbb, ha ki tudod tömni, de nem tudod, mert a fránya dolgozók mind ugyanabban a pár órában nyúznák, utána meg csak az áramot fogyasztja Pont ez a lényege a felhős erőforrásoknak, hogy sokkal jobb a kihasználtsága a vasnak. Igen, keresni lehet vele, ha a jó az árazás, jelenleg azt tapogatja a piac, hogy milyen árazással lehet keresni rajta, mert véget ért az befektetői aranyláz időszaka, a befektetők most már szeretnének látni profitot. https://iotguru.cloud Az én állításom, hogy ez tud olcsóbb lenni, mint a cloudban futtatott AI, mert ő még ezeken a költségeken felül hasznot is remél. Ha az ido legnagyobb reszeben kihasznalod, akkor tud, igen. Ha mondjuk csak munkaidoben kell, akkor mar necces. A kapitalizmusban az a szep, hogy a termeloeszkoz a kapitalsita kezeben van, es biztositja azt a melosainak a termeles erdekeben. Ha nem ad kalapacsot, nem torod a kovet (BYOD, lol!). Eddig azert kaptuk ingyen, vagy egy marek szotyiert (ez meg mindig nem a valos ara a termeknek, az majd kimozogja magat), mert piacot akartak/akarnak szerezni a szolgaltato cegek. Es itt a hobbista vibekoder nem a celkozonseg, hanem az eszkoz, hogy konnyebben megnyerjek a fent emlitett kapitalista penzet. A "Mindnekinek AI-t otthonra" cikkeket meg az Nvidia es a hasonlo HW vendorok szponzoraljak.