- tompos blogja
- A hozzászóláshoz be kell jelentkezni
Hozzászólások
Meg jobban leforditom, hogy itt is ertsek, egy hasonlottal:
Ha a nyomtatot bedugod, nem kell az osszes tobbi kabeles eszkoz minden parameteret ujrakalkulalni, kb. a display-ek maximalis felbontasat is ujra bekerni. Es mint kiderult, ilyen pazarloan vannak leprogamozva a szilicium volgyi AI engine-ek, ami senkit nem zavart, mert lehetett mutogatni a befektetoknek, hogy "milyen sok GPU flops-szal tud szamolni".
Ugyanugy megvoltak a 90-es evekben azok, akik csodak csodajara sokkal gyorsabb C kodot irtak, csak nagyon lassan jutottak el az ipar szereploi oda, hogy hallgassanak rajuk. Nos, a kinaiaknal valaki hallgatott egy ilyen "eroforrasbarat AI" enginerre, aki amugy olyat mondott, amire meg "senki" (pontosabban senki olyan, aki sok penz kozeleben van) nem gondolt.
A kinaiak meg a harmadik ilyen jellegu pazarlas eszrevetele utan rajottek, hogy ez meg vizio-szintu gondolkodasnak se rossz.
Raadasul ott vannak az eros kozepes Kirin-es ARM SoC-aik, azok kisebb szamitasi kapacitasain igy tudnak majd emellett a vizio mellett jobbat mutatni - mindezt a Copilottal versenyezve. Ilyen teren is kapora jott a vizio.
- A hozzászóláshoz be kell jelentkezni
Bocs, lehet kerni ilyenkor egy szoveges copy-pastet? Nekem csak az elso tweet jon be, amelyben semmi konkret informacio nincs. Talan nem olyan nagy keres a thread idemasolasa, ctrl-a, crtl-c, ctr-v, semmi extra.
- A hozzászóláshoz be kell jelentkezni
ha érdekel lehet regisztrálni. ha meg nem érdekel ennyire se akkor ne dolgoztass mást. :D
- A hozzászóláshoz be kell jelentkezni
Asszem Hiena linkelt valami X-olvasot amibe bepaste-elve ezeket mentek reg nelkul. Nincs meg fejbol. :(
Kozkinccse kene tenni errefele mert gyakran visszatero issue, hogy emberek nem akarnak odaregelni, de nem tudjak meg igy, hogy mi lett onnan linkelve.
- A hozzászóláshoz be kell jelentkezni
Bármelyik nitter instance megfelelő amelyik épp/még működik. Az x.com domaint kicseréled pl. xcancel.com-ra.
[insert line here]
B.C. 3500 - DIY Vehicle / A.D. 30 - DIY Religion / A.D. 1991 - DIY OS
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
^-- egyikotok csinaljon belole blogposztot pls, hogy ne kethetente kelljen belinkelni valahova.
- A hozzászóláshoz be kell jelentkezni
Finally had a chance to dig into DeepSeek’s r1…
Let me break down why DeepSeek's AI innovations are blowing people's minds (and possibly threatening Nvidia's $2T market cap) in simple terms...
0/ first off, shout out to
@doodlestein
who wrote the must-read on this here: https://t.co/RLKwILlWbs
1/ First, some context: Right now, training top AI models is INSANELY expensive. OpenAI, Anthropic, etc. spend $100M+ just on compute. They need massive data centers with thousands of $40K GPUs. It's like needing a whole power plant to run a factory.
2/ DeepSeek just showed up and said "LOL what if we did this for $5M instead?" And they didn't just talk - they actually DID it. Their models match or beat GPT-4 and Claude on many tasks. The AI world is (as my teenagers say) shook.
3/ How? They rethought everything from the ground up. Traditional AI is like writing every number with 32 decimal places. DeepSeek was like "what if we just used 8? It's still accurate enough!" Boom - 75% less memory needed.
4/ Then there's their "multi-token" system. Normal AI reads like a first-grader: "The... cat... sat..." DeepSeek reads in whole phrases at once. 2x faster, 90% as accurate. When you're processing billions of words, this MATTERS.
5/ But here's the really clever bit: They built an "expert system." Instead of one massive AI trying to know everything (like having one person be a doctor, lawyer, AND engineer), they have specialized experts that only wake up when needed.
6/ Traditional models? All 1.8 trillion parameters active ALL THE TIME. DeepSeek? 671B total but only 37B active at once. It's like having a huge team but only calling in the experts you actually need for each task.
7/ The results are mind-blowing:
- Training cost: $100M → $5M
- GPUs needed: 100,000 → 2,000
- API costs: 95% cheaper
- Can run on gaming GPUs instead of data center hardware
8/ "But wait," you might say, "there must be a catch!" That's the wild part - it's all open source. Anyone can check their work. The code is public. The technical papers explain everything. It's not magic, just incredibly clever engineering.
9/ Why does this matter? Because it breaks the model of "only huge tech companies can play in AI." You don't need a billion-dollar data center anymore. A few good GPUs might do it.
10/ For Nvidia, this is scary. Their entire business model is built on selling super expensive GPUs with 90% margins. If everyone can suddenly do AI with regular gaming GPUs... well, you see the problem.
11/ And here's the kicker: DeepSeek did this with a team of <200 people. Meanwhile, Meta has teams where the compensation alone exceeds DeepSeek's entire training budget... and their models aren't as good.
12/ This is a classic disruption story: Incumbents optimize existing processes, while disruptors rethink the fundamental approach. DeepSeek asked "what if we just did this smarter instead of throwing more hardware at it?"
13/ The implications are huge:
- AI development becomes more accessible
- Competition increases dramatically
- The "moats" of big tech companies look more like puddles
- Hardware requirements (and costs) plummet
14/ Of course, giants like OpenAI and Anthropic won't stand still. They're probably already implementing these innovations. But the efficiency genie is out of the bottle - there's no going back to the "just throw more GPUs at it" approach.
15/ Final thought: This feels like one of those moments we'll look back on as an inflection point. Like when PCs made mainframes less relevant, or when cloud computing changed everything.
AI is about to become a lot more accessible, and a lot less expensive. The question isn't if this will disrupt the current players, but how fast.
/end
P.S. And yes, all this is available open source. You can literally try their models right now. We're living in wild times! 🚀
- A hozzászóláshoz be kell jelentkezni
"LOL what if we did this for $5M instead?" And they didn't just talk - they actually DID it
Ezt mennyire lehet ellenőrizni ma? Én még várnék az Open-R1 reprodukciós kísérlet mire jut. Nem lepne meg ha sikerül, főleg egy ennyire gyorsan fejlődő és ekkora figyelmet kapó iparágban de őszintén meglep hogy ez hard fact szinten van kezelve. Azt hogy egyébként $100M egy training ma is, mint ahogy 2-3 évvel ezelőtt, arra vannak hitelesebb források mint az állami/EU támogatásokért sorbanálló cégek szava?
A 7-es pont: hogy lesz olcsóbb training costból olcsóbb API cost? A megspórolt pénzt elégetik inferencere? Vagy az inference is 20x energiahatékonyabb?
- A hozzászóláshoz be kell jelentkezni
Ezt mennyire lehet ellenőrizni ma?
Annak ellenere mondom, hogy semennyire, siman kerulhetett $50M-be amibol $45M-et elkonyveltek hazepitesi vesztesegkent:
Burning venture capital money in Silicon Valley with mostly false AI promises egy valos es valosan tomeges jelenseg. Egeszen biztos, hogy tenyleg nagysagrendekkel kevesebb penzbol ki lehet GPT4 szintjen mukodo AI-t hozni, mint amennyit californiai befektetok rakoltottek. Az is biztos, hogy sokan nem is probaltak ezt eroforrasbaratra csinalni, mert egyszeruen igy mukodott az agya azoknak, akiknek "el akartak adni", hogy "jo befektetes" - "nezd 20 milliard GPU magot is hatekonyan kihasznal, csak kene ra penz".
- A hozzászóláshoz be kell jelentkezni
Ezt mennyire lehet ellenőrizni ma?
Kb. annyira, mint az indiai Mars-szonda kotseget egy amerikai sci-fi film koltsegehez kepest.
- A hozzászóláshoz be kell jelentkezni
Koszi szepen, jol jon a thread bemasolasa munkahelyi gepen, meg amugy mashol is, 20 sor szoveghez nem kell egy operacios rendszernyi javascriptet betolteni, hogy megjelenitse a soronkent kulon twitterposztra tordelt szoveget.
(Visszasirom a regi internetet, ahol a szoveget meg szovegkent tudtuk letolteni normalis szolgaltatasok segitsegevel, pl statikus Web vagy Usenet)
- A hozzászóláshoz be kell jelentkezni
A megpróbálom én is összefoglalni.
1-2 éve hangzott el valamelyik közismertebb AI kutató szájából (asszem Rob Miles volt, most nem kerestem utána), hogy a gépi tanulásban jelenleg sokkal több olyan ötlet van, amit eddig sosem próbált ki senki, mint amit eddig egyáltalán kipróbáltak.
Tehát semmi meglepő nincs benne, hogy időről időre valaki beletalál egy olyan - korábban ki nem próbált - módszerbe, ami akár 1-1,5 nagyságrendet is tud javítani a modellek méretén és/vagy a betanítás költségén.
Kb 1-1,5 éve ugyanez zajlott le, akkor a LoRA modellek voltak felkapottak, kb 3/4 év késéssel a GPT-3 szintjét tudták hozni lényegesen kisebb tanítási költséggel. Nyilván akkor nem szólt akkorát, mert addigra az OpenAI már éppen kinn volt a GPT3.5 modellekkel.
Az, hogy az nVidia, Anthropic, OpenAI és amerikai big-tech társai most hirtelen vesztettek az értékükből valójában csak azt jelenti, hogy mindenki túlvásárolta magát a részvényeikből. Tisztában vannak vele, hogy ez egy hype görbe, mindenki a tetején akar kiszállni emiatt mindenkinek idegesen rajta van az ujja az "Eladás" gombon. Ténylegesen nem jelent hosszú távon rossz hírt a fenti cégek számára, 1 év múlva az OpenAI modelljeibe is lazán be lesznek emelve a DeepSeek által behozott megoldások és megint ugyanott fogunk tartani, hogy akinek nagyobb datacentere van, az nyer.
Aztán megint jönni fog egy korábban ki nem próbált ötlet, ami egy ismeretlen startupot a reflektorfénybe helyez. És megint kb 1 múlva simán benn lesznek ezek a megoldások a nagy mamut játékosok modelljeiben.
Régóta vágyok én, az androidok mezonkincsére már!
- A hozzászóláshoz be kell jelentkezni
ezeket a modelleket mibol tanitottak? mert ugye a reddit is bezart regen, talan a stackoverflow is, nem olyan konnyu scrapelni az internetet szovegekert. es a sok szerzoijogi balhek miatt sokan masok is igy tehettek (wikipedia? ujsagok? ). akkor honnan van a minta? megoldottak "kinai modon", csak megy a kuss rola?
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!
- A hozzászóláshoz be kell jelentkezni
Egy dolog már elég világosan kiderült, hogy a GPT-4 modell kimenete tekintélyes mennyiségben előfordult a tanítóhalmazban. :)
Régóta vágyok én, az androidok mezonkincsére már!
- A hozzászóláshoz be kell jelentkezni
Arról nem beszélve, hogy az ipar sokkal hamarabb kapta fel az egész AI-t, mint kellett volna, és óriási volt a pressure a fejlesztőkön, hogy produkáljanak _valamit_ ami _eladható_, nem adva időt a refaktorra és az optimalizációra. Szóval semmi extra nem történt, IT business is being IT business again, majd jön Munkás István a garázsprojektjével, és szemberöhögi a piacot.
Sajnos ha elsősorban az innovációba öntöd a pénzt, és az optimalizálási kísérleteket elnyomod, az ilyen. És az informatika, mint olyan, könyörtelen: mindent beáraz.
- A hozzászóláshoz be kell jelentkezni
Akit mélyebben érdekel a téma és van ideje olvasni:
https://youtubetranscriptoptimizer.com/blog/05_the_short_case_for_nvda
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Én csak azt nem értem, hogy ez miért lefele húzta az Nvidia árfolyamát. Lehet ezzel bebukott a top grade kártyák piaca, de a gaming kártyák piaca meg minimum 1000x.
Autós hasonlattal élve: lehet Rolls-Royce kevesebb fogy majd, de Volvóból meg hirtelen ezerszer annyi.
Note magamnak: holnap kell megvenni az új gépbe a grafikus kártyát, mert amikor a jónép felébred, az összes gaming level kártyát meg fogják majd venni mindenhonnan, és az egekben lesznek az árak.
Csaba
- A hozzászóláshoz be kell jelentkezni