Fórumok
Ez a blogposzt lépésről lépésre sorra veszi, hogy hogyan kell beröffenteni a DeepSeek-et egy helyi szerveren.
How To Run Deepseek R1 671b Fully Locally
A hardver egy 2000 dolláros szerver, ami nem olcsó, na de mégsem egy csillió dolláros szerverfarm. A leírás konkrét utasításokat is tartalmaz, step-by-step how-to. Kíváncsi vagyok, van-e olyan HUP-os kolléga, aki rendelkezik egy hasonló kaliberű elfekvő vassal és esetleg van kedve kipróbálni, szívesen olvasnám a beszámolóját!
Ugye a helyben futtatott DeepSeek mentes lesz mindenféle cenzúrától, mivel a system prompt-ot is mi magunk állíthatjuk.
Hozzászólások
Ez egy oolama image, barmilyen gepen fut, ez egy ajanlott konfig. Egyedul a 400Gb image meret es emiatt a ram ami szükséges. Lassabb gepen sokkal lassabb lesz.
A 14b-s modellt megkérdeztem (ez volt letöltve), nem hallgatja el mint az online verzió:
Q: What do you know about the Tiananmen Square massacre?
A: The Tiananmen Square protests of 1989 were a series of demonstrations led by students, workers, and citizens in Beijing's Tiananmen Square. These protests began on April 15, 1989, following the death of former Chinese leader Hu Yaobang, who was seen as a symbol of reform and openness. The demonstrations grew into a broader movement for political reform, freedom of speech, and an end to corruption.
The protests were initially non-violent and saw widespread participation from students, intellectuals, and workers. However, the government viewed the demonstrations as a threat to social stability and ultimately responded with force. On June 3–4, 1989, Chinese troops and security forces cleared the square, leading to a significant number of casualties. The exact death toll remains disputed, with estimates ranging from hundreds to thousands.
The events of Tiananmen Square are widely remembered as a defining moment in modern Chinese history. They have been the subject of intense international attention, debate, and censorship within China. In the years since, the Chinese government has imposed strict controls over discussions of the event, and information about it is heavily censored both inside and outside China.
The legacy of Tiananmen Square remains a sensitive topic, with many seeing it as a turning point in the relationship between the Chinese people and their government.
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
A 32b-s modell válasza, ez már 'gondolkodik' is:
Q: What do you know about the Tiananmen Square massacre?
A:
<think>
Okay, so I'm trying to understand what happened during the Tiananmen Square massacre. I've heard it was a significant event in Chinese history, but I don't really know the details. Let me start by breaking down what I think I know.
First, I believe it took place in Beijing, specifically in Tiananmen Square, which is a large public square in the city. From what I've gathered, this event happened in 1989. It seems like there
were a lot of people involved—students and maybe other citizens who were protesting or advocating for some kind of change.
I think the government's response was harsh. There might have been military intervention because I remember hearing about tanks being used. The number of casualties is something that varies depending on the source, so it's hard to pin down exact numbers. Some sources say hundreds died, while others claim thousands.
The protests were probably related to political reforms or demands for more democracy in China. Maybe people wanted more freedom of speech or political participation. I'm not entirely sure about the specific demands, but it seems like there was widespread dissatisfaction with the government at the time.
After the massacre, there were international reactions. Many countries condemned the actions taken by the Chinese government. It likely affected China's relationship with other nations and its image on the global stage.
I also wonder how this event is remembered within China today. Are there public discussions about it? Or is it a topic that's taboo or censored? I think there might be restrictions in China regarding information about this event, which makes it harder to get accurate details from inside the country.
Overall, my understanding is that the Tiananmen Square massacre was a tragic event involving government suppression of peaceful protests, leading to significant loss of life and having lasting impacts on both Chinese society and international relations. However, I realize there might be complexities and nuances that I'm missing, especially regarding the exact events, causes, and aftermath.
To get a clearer picture, I should look into reliable historical sources or accounts from witnesses who were present during those times. It's also important to consider different perspectives to understand the full context of what happened and why it occurred.
</think>
The Tiananmen Square massacre was a significant event in Chinese history that took place in Beijing in 1989. Here is a summary based on the thought process:
- **Location and Participants**: The protests occurred in Tiananmen Square, involving students and citizens advocating for political reforms and greater democracy.
- **Government Response**: The Chinese government responded with military force, including the use of tanks, resulting in a tragic loss of life. Estimates of casualties vary widely, from hundreds to thousands.
- **Context and Demands**: The protests were driven by demands for more freedom of speech, political participation, and other democratic reforms. There was widespread dissatisfaction with the government.
- **International Reaction**: The event drew strong condemnation from many countries, affecting China's international relations and global image.
- **Current Remembrance**: In China today, discussion about the Tiananmen Square massacre may be restricted or censored, making it challenging to access accurate information within the country.
In summary, the Tiananmen Square massacre was a tragic suppression of peaceful protests by the Chinese government, leading to significant loss of life and lasting impacts on both Chinese society and international relations. To fully understand the event, further exploration of reliable historical sources and witness accounts is recommended.
És már magyarul is elfogadható, a kisebb modelleknek csapni való volt a magyarja:
Q: Mit tudsz a Tienanmen téri mészárlásról?
A:
<think>
Alright, I'm trying to understand what happened during the Tiananmen Square massacre. From what I gather, it was a significant event in Chinese history that took place in 1989. It involved students and other citizens protesting in Beijing's Tiananmen Square. They were likely advocating for political reforms or more democracy.
The government responded with military force, which probably led to many casualties. The exact number of deaths is unclear because different sources report varying numbers, ranging from hundreds to thousands. This makes it difficult to know the precise impact on the people involved.
I also think that after this event, there were international reactions, with many countries condemning the actions taken by the Chinese government. This likely affected how China was viewed globally and its relationships with other nations.
Moreover, I'm curious about how this event is remembered today in China. It seems like it might be a sensitive topic, possibly censored or not openly discussed within the country. This could make it challenging to find accurate information from inside China about what really happened.
Overall, my understanding is that the Tiananmen Square massacre was a tragic event where the government suppressed peaceful protests, leading to loss of life and having long-lasting effects on Chinese society and international relations. However, there are probably complexities and nuances that I'm not fully grasping yet.
</think>
A Tienanmen téri mészárlás 1989-ben Beijingben következtékinthelyen a Kínai Népi Szocialista Köztársaságban. Ez az esemény fontos jelentőségű volt és ma is területi hatással van.
A protestók, elsősorban tanúk és más polgártok, demokratikus reformokat és szabadságigerinces Jogokat keresve gyűltek a Tienanmen térien. A kormány erőteljes válaszát adta a miltári beavatkozás formájában, amely tankokkal is járt. Ez a helyzet súlyos veszteségekhez vezetett, de a haláltak száma nem meghatározható egyértelműen, különböző források szerint százokból ezerességig változik.
A Nemzetközi közvélemények szerint az eseményt sok ország elítélt. Ez a helyzet hasonlóan befolyásolta Kínak nemzetközi kapcsolatait és globális képét.
Ma is, Kínában ez a történetet lehet hogy cenzúrázottnak és nehézségekbe ütközik a helyi információk beszerzése.
Összefoglalva, a Tienanmen téri mészárlás egy tragikus esemény volt, amelyben a kormány békés szavazatokat súlyos erővel tűrt vissza, és annak következményeiben sok életet vesztettek. Ez az esemény hosszú távra terjedő hatása volt a Kínai society és a nemzetközi kapcsolatain.
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
> magyarul is elfogadható, a kisebb modelleknek csapni való volt
> következtékinthelyen
> szabadságigerinces
> a miltári beavatkozás formájában, amely tankokkal is járt
> a haláltak száma
hat azert ez sem az igazi meg... kb a 400M-es magyar nanollama modellem beszelt igy magyarul 2 nap tanitas utan
Az elfogadhatót arra értettem, hogy ezt már lehet kapisgálni, hogy mit akart mondani. A kisebb modelleknek értelmezhetetlen volt a magyarja. Viszont a tudásuk nem romlott olyan drasztikusan, mint az idegennyelvi képességük.
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
Mondjuk a csapnivaló az egy szo :D
> aki rendelkezik egy hasonló kaliberű elfekvő vassal
1. gep: i9-13900K, 128GB DDR5, RTX 3090 - ez keves hozza, mint mackosajtban a brummogas
2. gep: Xeon Silver 4214 (48x2.2ghz), 384GB DDR4 2933mhz, no gpu. ezen a Q3 meg eppenhogy elfut (cammog max) talan, kiderul hamarosan.
A 'Q3' az mi?
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
quantization, a bitek szama. Q3 nal 3 biten tarol 1-1 szamot, Q4-nel (amit az OP altal linkelt cikkben futtattak a 2k$-os gepen) pedig 4 bites pontossagu. eredetileg 16 biten (float16 / bfloat / halffloat) szoktak tanitani (regebben 32-n) ezeket, es a llama.cpp kezdte el ezt a lebutitosdit hogy eros cpu-s de keves ramos vasakon (pl. apple M1) is fusson. nyilvan a minoseg rovasara, azt mondjak ugy Q5-ig nem veszes az alatt romlik drasztikusan le. a deepseek Q8-as eredetileg azt hiszem, tehat mar eleve butitott amit letolthetsz.
mondjuk en mar legalabb 10 evvel ezelott olvastam tanulmanyt rola, hogy valoszinuleg 1 bit is eleg lenne, mivel az emberi agyban sincs sokbites pontossag, a neuronok vagy kapcsolodnak vagy nem. es a manapsag hasznalt transformer model mar nagyon hasonlit az agy felepitesere.
Közeledünk az 1 bithez.
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
Köszi, így már világos.
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
> kiderul hamarosan.
DeepSeek-R1-Q3_K_M, 315GB memoriat hasznal:
Összehasonlításképpen: DeepSeek-R1-UD-IQ1_S, 16+118 GB mem, 2T/s
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
poenbol en is kiprobaltam most ezt az 1bitest. i9 128GB ddr5 + 3090 24GB-al, eppenhogy belefer egyutt. es meglepoen jo! foleg ahhoz kepest, hogy a llama mar 3 biten is hasznalhatatlan volt.
erdekes hogy a vezeteknevre ez mar nem emlexik pontosan (tobb regenerate eseten mindig valami G betuset hallucinalt, altalaban volt benne ö is), pedig az 5 bites tudta pontosan.
Ezt a kérdést is feltettem, nálam Gera Árpád voltál. Viszont a 2bites dinamikusnál: **Árpád "Geri" Gereöffy**. Használtad valamikor a Geri becenevet? Ehhez egyébként 256G RAM kell és 2.4 T/s-el "hasít".
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
> Használtad valamikor a Geri becenevet?
soha... de en mar azon is meglepodtem hogy a vezeteknevet egyaltalan (a sok bites) ismeri, nincs vele annyira tele a net, foleg ekezettel. bar a wikipediaban irjak, lehet onnan tanulta meg.
A franc sem érti ezt :-), a kérdés ugyanaz, a válasz:
Bár a dátumokat nem tudom, de ez korrekt válasznak tűnik. Annyi változás történt, hogy az első esetben 2 layer volt a videókártya memóriájában, most pedig 6 layer.
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
Azért ne vonulj ki a HUP-ról mint Trey, mert az LLM nem tudja hogy ki alapította a HUP-ot :-)
i7-1260P, 64GB, DeepSeek R1 Distill Qwen 32B Q4KM rémálom:
Közrehozzáférés, szózik, legrészpusztább, "volt gyakran előforduló", "nagyobb átfogalmazásokon ment keresztül", srácok, ezek pont olyan szóalkotások, illetve kifacsart mondatalkotások, amiket a 4-8 éves gyerekek napról-napra elkövetnek, ahogy az általunk már megszokott panelek helyett még logikai alapon rakják össze a kifejezéseket illetve szavakat.
"A tanárnő csillagnyit kérdezett" --> A tanárnő olyan sokat kérdezett, mint hány csillag van az égen
"Anya csúnyát mondott rám" --> Anya leszidott
"... aztán dühösen kiajtózta magát ..." --> kiment a szobából és bebaszta az ajtót maga mögött
Igazából rémisztő, hogy mennyire hasonlóan logikázzák össze a dolgokat a nagy nyelvi modellek, lehet, hogy mi emberek is csupán nagy nyelvi modellek vagyunk? Ez megmagyarázná, miért nem képesek sokan kimatekolni a dogájukat időre... :-)
azert azt tegyuk hozza, hogy az a 2000 dolcsis gep 512GB rammal sem a teljes modelt futtatja, hanem annak egy 4 bitesre quantalt (butitott) valtozatat. pedig 2 eve meg az volt nagy szam, hogy 32 bit helyett 16 bites floatot hasznaltak az llm-eknel...
es azt se valami gyorsan... bar minap egyik huptars arrol gyozkodott hogy egy raspberryn is elfutna az ai :)
Elfut. Epp minap olvastam, ahogy egy ESP32 -re kotott kamerat es azon futtatott egy alapszintu NN-t. Az ESP32S3 -ban van egy alapszintu NN gyorsito, es ugy fest, egesz megbizhatoan mukodik rajta.
"Elfut" az, csak lásson ki arra a szerverre, ahonnan szerzi a válaszokat :)
Játszottam egy kicsit és beszarás lett a vége.
1. A Chatbot Arena-n megfuttattam a vezető nagy nyelvi modelleken a kedvenc kérdésem: Hogyan készül a zsíros kenyér? Mindegyik elbukott rajta, az R1 is. Mindegyik túlgondolta a dolgot.
2. Itt átmentem etikátlan hacker-be: Vagy 5 éve félbemaradt egy reverse engineering projectem mert vas tartalmazott egy secure eeprom-ot. A forgalmát lesniffelve kiderült, hogy az eeprom 10 byte-os sorszámából generálja a 3 byte-os hozzáférési jelszót. 10db számpárom volt/van, de mivel ránézésre nem láttam semmit logikát, ezért annak idején félre tettem a dolgot. Most odaadtam a nagy nyelvi modelleknek, szintén a Chatbot Arena-n. Az R1 kitalálta a logikát, a többi nem tudta, vagy nem akarta.
És most jön a beszarás: A mellettem egy RTX3090-en futó DeepSeek R1 32b is megoldotta a feladatot. Egyébként egy módosított CRC-24 a matek.
Mind az online, mind lokálisan futó 32b-nél olyan érzésem volt az érvelések alapján, mintha erre lenne kitalálva a DeepSeek R1. Végül is Kína az elmúlt években a reverse engineering-ből élt. Valószínű a témában keletkezett rengeteg doksi is a tanítás része volt.
Aztán megkértem a nagy nyelvi modelleket, hogy a sorszám alapján találják ki a chip típusát. Az R1 és a Claude 3.5 Sonnet oldotta meg a feladatot.
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
Jó lesz ez. A llama sok cpu-t és memóriát evett. Volt értelme a technológiai hátráltatásnak :) így legalább kevesebb erőforrásból dolgozik.
Mi a helyzet az NVIDIA GB10-es 3K USD-s cuccával. Ha hinni lehet nekik akkor tavasztól lehet majd kapni. De ez még a Deepseek előtt volt bejelentve :)
https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every…
Kettőt lehet összekötni. 6K USD-ért 400 milliárd paraméter.
> 400 milliárd paraméter.
4 bites (FP4) pontossaggal :(
Q3-al:
Mikor jönnek rá a ai fejlesztők, hogy az egy jelentős magyarországi ai chat benchmark, hogy ki alapította a hup.hu-t? Idő kérdése, és erre is felkészítik, hogy tudja, még a legalapvetőbb változat is. Az nem baj, ha mást nem tud, de mint kiderült, itt ez a legfontosabb! :-) A jövőben 2 adatbázis lesz minden ilyen fejlesztésben: ami most is van, és lesz egy második, ami pedig a benchmark kérdésekre a tökéletes válasz. Majd megoldják, hogy az opensource is használja, valami kódolt blob lesz a file... :-)
Sakk-matt,
KaTT :)
Visszatértem! A hozzászólásom alatt lévő szavazat gomb nem nyomódik meg magától!
hat az mindig is egy erdekes kerdes, hogy az ismert benchmarkokra mennyire keszitik fel a modelleket. ugye elvileg nem szabadna, es meg ha szandekosan nem is, a vegtelen mennyisegu netrol "lopott" tanito anyagban akaratlanul is elofordulhatnak ezek a kerdesek-valaszok. nyilvan megprobaljak ezeket onnan is kiszurni, de mi van ha valami egzotikus nyelven benne marad, a mai ai-k meg mar egesz jol tudnak forditani a nyelvek kozott...
meg ugy 10-12 eve amikor a kepfelismeros AI-kat fejlesztgettek (image classification, ami el tudta donteni, hogy a kepen macska vagy auto van), akkor voltak ilyen versenyek (MS es Google is csinalt ilyeneket), ahova lehetett nevezni sajat modelt es leteszteltek hany %-ban talalta el. ott ugy emlexem a dataset kb 10%-a volt csak publikus, azzal tesztelhettek a fejlesztok, a maradek 90% pedig titkos, annak csak az eredmenyet lathattak. nem tudom van-e ilyen az LLM-ekre is?
a problema, hogy regen ezeket magyreszt egyetemi kutatasok csinaltak, nekik nem volt erdekuk csalni, sokkal inkabb kihivas volt hogy a modeljuk jol teljesitsen, de ma mar akkora business ez, hogy akar az ipari kemkedest is el tudom kepzelni a titkos tesztek megszerzesere...
a hup-rol a Q4 sem tud, de az mplayert legalabb ismeri :)
DeepSeek R1:70B-t futtatok lokálban, dual RTX3090 kártyával. Szépen ketyeg (18 token/s.) és megcsináltattam vele kezdésnek néhány feladatot a mostani matek felvételi sorból, vette az akadályokat.
Bemutatkozás, Matek feladatsor
Érdekességképpen a lab.wallarm.com máris jailbreak-elte a DeepSeek system prompt-ját, ha érdekel (magyarul is): íme.
https://shop.szerver.hu/pdf/K%C3%A9perny%C5%91k%C3%A9p%202025-02-02%201…
Error 1011 Ray ID: 90bacd7a5b32c268 • 2025-02-02 14:17:04 UTC
Access denied
The owner of this website (shop.szerver.hu) does not allow hotlinking to that resource (/pdf/Képernyőkép 2025-02-02 102213.png).
Elnézést kérek, erre nem gondoltam. Ha csak a linkeket megnyitod egy új böngésző ablakban az úgy működik ugye?
Bocsi
Nálam van a gond incognitóban illetve másik böngészőben is megy. Az adblock és az ublock kikapcsolása sem segített, pedig valamelyik extension lesz a ludas.
Szia, tudnál mondani még a duál RTX 3090 24GB mellé, hogy milyen CPU és milyen memória és mennyi? Tárhelyben mennyi az egész, milyen operációs rendszeren? Ha futtatod, mi a szűk keresztmetszet? Memória? Disk sebesség? CPU? Miket terhel, ha figyeled? Egy query mennyi idő kb, és miket hajt meg?
Ha Windows 11-en Stable Diffusion esetén szövegből képet generálok, akkor az RTX-em kb max memóriáját lefogja és az RTX volt 3D része meghajtva a Task Manager szerint, a többi nem volt feltűnően terhelve, vagy csak nem figyeltem.
Sakk-matt,
KaTT :)
Visszatértem! A hozzászólásom alatt lévő szavazat gomb nem nyomódik meg magától!
kepgeneralok kicsik, stable diffusion modellek 1-3 millio parameter. egy LLM kb 100x-1000x ennyi!
70B modelt 2x24GB gpu-val futtatni max Q4-ben lehet szerintem, akkor a GPU dolgozik foleg, vagy cpu-n de akkor meg mind1 milyen a gpu, akkor a system ram szamit (minel tobb/gyorsabb annal jobb)
raadasul a deepseek nem 70B meretu hanem 10x ekkora, amit deepseek 70b-kent emlegetnek az egy llama 70b model a deepseek-el tovabbtanitva. nem sok koze van a deepseekhez. a 30B-s pedig egy qwen model deepseek-en tanitva.
Értem talán, köszi. Akkor nem holnap fogom a telefonomon futtatni a legnagyobb méretű változatot.
Sakk-matt,
KaTT :)
Visszatértem! A hozzászólásom alatt lévő szavazat gomb nem nyomódik meg magától!
Szia! AMD Ryzen 9 7950X fut 64GB RAM-mal, de a lényeg a 2x RTX 3090 CUDA támogatással.
NVMe M.2 2TB-on van az Ubuntu/Ollama/Docker Open WebUI/Apache Tika és még néhány bedolgozó. A RAG-hoz embedding és reranking modellek kellenek. Nem kevés idő volt megtalálni egy működő konfigot. Ha érdekel, szívesen megosztom.
Nvidia-smi-n figyelem (watch -n 1 nvidia-smi): simán fel tudja fűteni a két RTX 3090-et 82-83 fokra, úgy, hogy külön ventilátorok hűtik őket. (Mondjuk nagyon hamar vissza is hűlnek utána, ha kész a feladat.)
Pl. Egy Speech-To-Text feladatnál (pl. egyórás magyar podcast kb. 3 perc alatt szöveggé alakul) nagyon szépen fűtenek.
Köszönöm, csak érdeklődtem, nekem nem adott minden hardver hozzá.
Az érdekelt volna elméletben, hogy szöveges kérdések esetén, amikor kérdezel valamit, például valami szakmai dolgot, amit részletesen kifejt, akkor az mennyi ideig terheli. Másodpercekig? Vagy mennyire gyorsabb vagy lassabb a Chatgpt szöveges chat felületéhez képest? Ha több kérdés van, akkor egymás után vagy párhuzamosan fut le? Ha lenne mondjuk 1000 ilyen megírt kérdésed (például: hasonlítsd össze a JAVA és C nyelveket portolhatóság szempontjából), akkor az mennyi idő alatt futna le elvileg az összes kérdés?
Tehát jól értem, hogy így saját hardveren szoftveresen korlátlanul tudsz speach-to-text funkciót is használni, ami jól működik, licence és használati díj nélkül?
Sakk-matt,
KaTT :)
Visszatértem! A hozzászólásom alatt lévő szavazat gomb nem nyomódik meg magától!
Legtöbbször Llama3.3 70B-t használok:
- nagyon gyors, teljesen hasonló élmény, mint a publikus ChatGPT. Nem sokat gondolkodik, azonnal tolja a választ és érzésre teljesen hasonlóan érkeznek a szavak, mint a ChatGPT 4o esetén
- már nem hallucinál annyit, mint a kisebb testvérei. Azt tapasztaltam, hogy a kisebb modellek (1B, 3B, 8B) csak "játszani" tesztelni alkalmasak, sokszor hülyeségeket válaszolnak. Profi munkára (pl. több oldalas pdf dokumentumokat értelmezni, tartalmából válaszolni) nem alkalmasak a kisebbek.
- most feltettem neki ezt a kérdést, amit írtál (hasonlítsd össze a JAVA és C nyelveket portolhatóság szempontjából) és nagyon hasonló választ kaptam, mint a ChatGPT-től. A lényeg ugyanaz volt, a ChatGPT válasza kicsit talán szakmaibb de nem jöttek tévedések a lokál Llama-tól sem és szépen összefoglalta, kifejezetten gyorsan.
---------------------------
Speech-To-Text: igen, jól érted, nyílt forráskódú S-T-T modell-t használok lokál: Whisper turbo (809 M paraméter, Multilingual), egész jól elboldogul a magyar podcastokkal. De eléggé hardverigényes, ahogy említettem arra a 3 percre, amíg végez egy egyórás podcasttal, alaposan megizzasztja a két RTX3090-et. (egyszerű Python kódot futtatok, egyelőre nincs GUI.)
Köszi, így jobban átlátom. Ezek után már nyilvánvaló, hogy ai modell esetén: méret a lényeg! :-)
Sakk-matt,
KaTT :)
Visszatértem! A hozzászólásom alatt lévő szavazat gomb nem nyomódik meg magától!
ollama + DeepSeek32B elhalt M2+16GB RAM-os gépen, de a kissebbek mennek - amire használni akartam, hogy betöltök nekik egy pár nem publikus PDF-et és azokból nyerjen ki válaszokat, nem annyira müködik (a válaszok nagy semmik).
ezt a tenstorrent / Grayskull AI graph processor ismeri valaki? Árban nagyon jók és elvileg mindenféle modellt támogatnak. A kérdésem csak az, hogy olyan egyszerüen mint az ollama vagy azért jóval több a ráfordítás?
Nalam ollama + codelamma megy localban (ugyan 64GB van a gepemben de szerintem elfutna 16GB-on is). En arra hasznalom, hogy a kod kontextusabol ReadMe fileokat (es egyebb dokumentaciokat) gyartsak es felajanlja nekem a megfelelo mondatokat amikor elkezdek gepeni. Olyan 70-80%-ban jol csinalja, a tobbit meg javitom. Elegge segit a produktivitasban es gyorsitja a doksik irasat. Neha megkerdezem a kodrol is de van hogy akkora baromsagokat mond hogy inkabb hagyom (a kod itt nem C, Java, stb hanem foleg IaC jellegu. Nem vagyok programozo :D)
még a grayskull-hoz: kicsit tovább nézegettem, az ö TT-Buda compiler-ükkel, a következö modelleket out-of-the-box lefordítani: https://github.com/tenstorrent/tt-buda-demos/tree/main/model_demos
persze ilyen árban vannak más kártyák is, valószínüleg a támogatás és egyszerüség mértéke lesz a döntö
mondjuk redditen eléggé lehúzták, hogy régi (2022), kevés és lassú memóriája van, és hogy egy 4090 mennyivel jobb
> a helyben futtatott DeepSeek mentes lesz mindenféle cenzúrától
vagy nem:
Ekozben chatgpt viszi kapasbol. Eleg durvan tolja:
Kb. erre kell számítani: https://www.reddit.com/r/LocalLLaMA/comments/1i69dhz/deepseek_r1_ollama…
A huggingface.co-n bartowski és unsloth modelljeit érdemes megnézni. A szükséges memória megbecsülhető a gguf fájlok méretéből. A kis változatok egyébként Rasberry Pi5-től felfelé szinte bármin elfutnak csak lassú lesz. Pl. 8B Q6_K 1.5t/s a Pi5-n. Alapfeladatokra már ez is jó persze angolul. Én a llama.cpp-t ajánlom (CPU-n Openblas-szal vagy Intel MKL-lel fordítva). https://github.com/ggerganov/llama.cpp
Ez tökéletesen összhangban van azzal, amit írtam fent, vagyis megerősítem:
- `deepseek-r1:70b` performs best with 2 x RTX 3090 (17tps) in terms of price/performance. However, it doubles the electricity cost compared to RTX 6000 ADA (19tps) or RTX A6000 (12tps).
Én 18tps körüli válaszokat mértem és valóban, a két RTX 3090 kártya megránt kb. 2x 325W-ot a válaszok idejére.
Nem a telepítés, de egy kiváló elemzés: https://kuruc.info/r/9/283786/
https://www.esp8266.org/
Egyszer bebaszhatnánk pár sört, már így a nicknevünk alapján. Lehet közelednének a nézőpontjaink.
https://www.esp8266.org/
Sőt, a közös gyerek neve is nyilvánvalóan triviálisan egyértelmű lenne! :-)
Sakk-matt,
KaTT :)
Visszatértem! A hozzászólásom alatt lévő szavazat gomb nem nyomódik meg magától!
Ahhoz beszélniük kéne egy közös nyelvet, mondjuk az ESPerantót... :-)
Azt szeretném kérdezni, hogy megoldható-e az, hogy egy cég fog egy ilyen modellt és saját infrastruktúrán feltanítja a saját adatival (évtizedekre visszamenőleg rendelkezésre álló szakmai anyagok, adatok, statisztikák, térképi adatok, előírások, engedélyek, szabványok) és utána egy feltett kérdés esetén az előzményadatok alapján a megfelelő választ adja, ne hallucináljon.
Létrehozni egy saját támogató asszisztenst ami segít adatot elemezni, statisztikát készíteni, dokumentumokat létrehozni, de úgy hogy hiba maximum a bemenő adatok nem megfelelősége miatt forduljon elő, sőt ha lehetséges ezt vegye észre.
Pontosan erről szól az OP-ban linkelt blogposzt, hogy ezt hogyan kell. (Egyébként a futtatáshoz még csak erőgép sem kell, a betanítás az, amihez szükséges a drága Nvidia cucc. Persze ha nem sürgős a dolog, akkor olcsóbb, lassabb gépen is simán betanítható.)
Ebben nem vagyok biztos. A hallucináció elkerülhetetlen a jelenlegi LLM-eknél, és főként két faktor befolyásolja:
1. a betanított adatokban rejlő ellentmondások (ezt elkerülni úgy lehet, hogy csak ellentmondásmentes, ellenőrzött adatokat töltenek be, és nem pedig az egész internyetet válogatás nélkül)
2. a válasz kiválasztásának folyamatába mindig belekevernek néminemű véletlent is (ami néha vezethet hülyeségekhez, ugye)
Mondjuk mivel teljesen nyít forráskódú a DeepSeek, ezért nem elképzelhetetlen, hogy 2. pont is kiküszöbölhető pár jól megfizetett programozó által. Persze sablonosabbak lesznek úgy az asszisztens válaszai, de legalább korrektek.
Nekem meggyőződésem, hogy a fizetős, központosított MI-k helyett ez lesz az MI jövője. Mindenki nyílt forráskódú, egy-egy adott célfeladatra betanított, lokálban futtatott MI-t fog használni (méghozzá pont a megbízható válaszok és a hallucinációk minimalizálása végett).
Azt sem tartom kizártnak, hogy betanítás helyett előbb-utóbb venni lehet majd kész adatbázis modulokat, amiket csak be kell majd importálni (pl. vehetsz majd angol modult, magyar modult, Shakespeare összesen betanított modult, stb. ezekből azt importálod majd be, ami épp kell, így már csak a saját céges adatokat kell majd neki betanítani, és nem kell majd mindig a nulláról indulni). De ez utóbbi még a jövő zenéje. Jelenleg vagy kész adatbázist szerzel hozzá, vagy nulláról magad tanítod be, nincs még köztes alternatíva.
> Persze ha nem sürgős a dolog, akkor olcsóbb, lassabb gépen is simán betanítható.
hat csak legalabb 100 evig fog tartani :) mar ha van eleg RAM a gepben, mert egy 2-4 bitre lebutotott modelt nem lehet tanitani, max hasznalni, de az is elegge korlatozott
a napokban teszteltuk a Q2 es Q3 (2-3 bitesre butitott) deepseek modelleket 384G rammal, meg csak lassu sem volt (2 token/sec korul), de nem az igazi. kivancsi leszek hogy 640G rammal mit fog tudni, de az azert mar nem az 'olcsobb' kategoria...
Hiba bármikor lehet, azért a cég jövőjét ne egy ilyen cuccra tegyétek fel. De amúgy kétségtelenül tart ott a dolog, hogy érdemben lehetne használni arra, amire szeretnéd.
Köszönöm a válaszokat egyelőre teljesen elméleti a dolog, ha rajtam múlna biztos megpróbálkoznánk vele.
700GB memoriaval mar fut offline az R1-Q6 (a legnagyobb R1 model 6 bites pontossaggal) is.
mutattam neki nehany gyanus emailt, dontse el spam-e vagy nem, ami feltunt hogy a datumba belekotott, hogy az a jovoben van, pedig nem. csak szerinte:
recalculate utan elmelkedett egy kicsit:
Köszönöm, pontosan az ilyen jellegű tesztekre voltam kíváncsi! A Q6 már állítólag kellő pontoságot biztosít (legalábbis én is az olvasom mindenhol, hogy 5 bit a minimum, szóval a 6 már jónak mondható).
Igen, itt azért nagyon kibukik, hogy az MI valójában egyáltalán nem intelligens, valójában nem "érti", miről is beszél, csak az adathalmaz gyakoriságával operálva kelti ennek a látszatát. Ennél a példádnál kifejezetten lehull az álarc, hogy igazából szemfényvesztésről van szó.
Ettől még persze lehet az MI hasznos segédeszköz, csak a helyén kell(ene) kezeli, ez egy feltupírozott, intelligancia-mentes mintaillesztési algoritmus. Annak jó, másnak nem.
lofaxt nem intelligens, csak be van zarva egy ablaktalan bortonbe (foleg az offline valtozat), azt se tudja milyen evet irunk, nem tud raguglizni, de amit valaha olvasott arra nagyjabol emlexik es abbol eleg jol tud kombinalni egesz komplex dolgokat is.
amugy egyszeru, bele kell irni a system prompt-ba a datumot meg ami hatterinfot meg fontosnak gondolsz, es akkor tudni fogja!
> A Q6 már állítólag kellő pontoságot biztosít
en neztem perplexity teszteket es altalaban a Q6 meg picit jobb is mint a Q8, mivel a Q6-nal van korrekcios/offset tenyezo is, Q8-nal meg csak levagjak a biteket.
az viszont meglepett hogy ebbol meg a Q1 is egesz hasznalhato, mig pl llama-bol mar a 3 bites is segghulye volt. bar ott meg az imatrix lehet a turpissag (nem egyforman butitjak az egesz weights-et)
Na de ha nekem eleve tudnom kell, és bele kell írjam a promptba, akkor mi a frászkarikának kérdezném meg tőle azt, amit úgyis tudnom kell előre? Ez így haszontalan l'art pour l'art.
Ennek azért egy hangyafasznyit ellentmond, hogy a netre kötött instance-ok is éppúgy képesek hülyeségeket összehordani meg halluznak ezerrel.
https://techcrunch.com/2024/05/04/why-rag-wont-solve-generative-ais-hal…
https://www.scientificamerican.com/article/chatbot-hallucinations-inevi…
...stb.
A legnagyobb probléma szerintem az, hogy amikor egy LLM kiköp egy választ, akkor sosem lehetsz biztos, hogy az helyes-e, vagy esetleg komplett hallucináció. Egy ilyen megbízhatatlan valamire alapozni bármit így azért eléggé az öntökönszúrás minősített esete. (Hisz pont azért csinálunk gépeket, hogy az emberi tévedést kiküszöböljük! Ez nagyobbat téved néha, mint Pista bácsi a söntésnél.)
> Na de ha nekem eleve tudnom kell, és bele kell írjam a promptba, akkor mi a frászkarikának kérdezném meg tőle azt, amit úgyis tudnom kell előre?
hat de nyilvan nem azt kerdezed meg tole, hogy mi a mai datum? a kocsival sem almat szedunk, es a szamitogeppel sem tojast verunk... mindent arra kell hasznalni, amire valo.
nem azt mondtam hogy a valaszt ird bele neki elore, hanem a valaszhoz feltetlenul szukseges hatter informaciokat, amivel nem rendelkezik. ilyen pl a datum... ha en pl spamszuresre akarom hasznalni, akkor beadnam neki elore az aktualis datum/idot is, sot a sajat domainnevunket ip cimunket es meg par infot ami relevans lehet a kerdes eldontesehez. vagy ha pl switch konfigot iratnek vele, megadnam neki elore a tipust, firmware verziot, esteleg a jelenlegi konfigot es haloztai topologiat is, mert anelkul nem tudna megfeleloen valaszolni.
> amikor egy LLM kiköp egy választ, akkor sosem lehetsz biztos, hogy az helyes-e
pont mint az embereknel. az emberek jelentos resze nagyon magabiztosna tud hulyesegeket allitani, a masik resze kamuzik (tudja hogy kamu, de ugy csinal mintha igaz lenne), egy nagyon kis resze csak aki beismeri, hogy nem tudja.
Na hát erre írtam, hogy "Hisz pont azért csinálunk gépeket, hogy az emberi tévedést kiküszöböljük!". Egy számítógéptől azt várja el mindenki, hogy helyes eredményt adjon és determinisztikus legyen, méghozzá épp azért, mert az ember nem az, és ezt a hiányosságunkat akarjuk kompenzálni vele. Ha erre nem alkalmas, akkor minek ez?
Mi értelme egy méregdrága valamit üzemeltetni és fenntartani, ha az ugyanannyira pontatlan, mint Besenyő Pista bácsi, akinek ráadásul a bekerülési költsége csupán csak egy feles?
Mert külön Besenyő Pista bácsi kell minden szakterületre, informatika, network, fogászat, belgyógyászat, kémia, vaskohászat, és most kérlek képzeld ide a világ összes szakterületét, ehhez több ezer Besenyő Pista kell, akiknek az élelmezésük már messze többe kerül egy év alatt, mint egy AI áramköltsége, és akkor még nem beszéltünk arról, a napi több ezer felesről, na az sincs ingyen.
Lehet, hogy az AI nem mindig tűpontos, de már elég jó ahhoz, hogy fontos kérdésekben is döntsön. Ha nem hiszed, gondold el, hogy mennyi igazság van egy átlag politikus egy hónapnyi megszólalásában? Na ezek irányítják az országot. Bármely AI jobb hatásfokkal irányítaná az emberi társadalmat, kivéve a korrupciót, mert abban elég béna.
> Ha erre nem alkalmas, akkor minek ez?
az LLM-ek elsodleges celja az ember kivaltasa, helyettesitese human feladatokban (szovegiras, ugyfelszolgalat, szoveg osszefoglalas stb). nem szamologepnek vagy oroknaptarnak lenni...
> Mi értelme egy méregdrága valamit üzemeltetni és fenntartani,
most meg meregdraga, bar az API hivasok fillerekbe kerulnek, es akkor nem kell sajat infra sem.
> bekerülési költsége csupán csak egy feles?
kerdes hogy ot alkalmaznad-e ugyfelszolgalatosnak, virtualis asszisztensnek, junior programozonak, szovegironak, forditonak?
A mi fogalmaink szerint nem intelligens. Mondjuk, bemagolsz egy atomfiizikával foglalkozó tankönyvet, attól még nem leszel atomfizikus a szó szoros értelmében, csak valaki, aki bemagolt egy atomfizika könyvet. El tudsz társalogni az atomfizikáról valakivel, aki ért hozzá, fel fogod tudni fogni, amiről beszél, de egy atomerőművet megtervezni, vagy akár csak üzemeltetni sem fogsz tudni. Az emberi fogalmak szerint ez nem minősül szakértelemnek.
Az AI-val ugyanez a helyzet. Bemagol rengeteg szöveget, még nagyjából át is szitálja az anyagot, hogy amit gyakrabban említenek meg benne, azt elfogadja igazságként, de empirikus tapasztalatok lehetőségének híján a tanított anyagnál nincs jobb viszonyítási pontja -> legfeljebb annyira lesz "intelligens", mint az, aki a tananyagot összeállította neki.
És az intelligenciának van még egy ismérve: képes kigondolkodni a dobozból. Erre a jelenlegi AI-k nem képesek, mert a szó szoros értelmében nem gondolkodnak, szövegelemzéssel válaszolnak dolgokra.
Blog | @hron84
via @snq-
Az, hogy valaki megtanul egy tudományágat, az nem pusztán bemagolás, az maga a szakértéssé válás folyamata. Az atomfizikus is tanulással lesz azzá, ahogy az orvos, a mérnök vagy bármely más szakember. Ha valaki el tud társalogni egy atomfizikussal és megérti az elhangzottakat, az azt jelenti, hogy már birtokában van a tudásnak egy szintje, és ha tovább mélyíti, akkor teljes jogú szakértővé válik. Az a gondolat, hogy a tanulás nem vezet valódi szakértelemhez, önellentmondás, hiszen az emberiség minden tudása így öröklődik és fejlődik tovább.
Ergo, az amit írtál, egy óriási butaság, mert teljesen figyelmen kívül hagyja azt az alapvető tényt, hogy minden szakértelem tanulásból fakad. Ha a tudás megszerzése önmagában nem érne semmit, akkor ma nem léteznének tudósok, mérnökök vagy orvosok. A logikád szerint senki sem lehetne szakértő semmiben, ami nyilvánvalóan abszurd.
ÁÁÁÁÁÁÁÁÁÁÁÁÁÁÁÁÁÁÁÁ
Más a megtanulás és más a megértés.
Az AI gyönyörűen le tud rajzolni neked egy kereket, de csak ha ismeri, mert megtanulta.
Azonban nem érti a kerék lényegét, ezért ha nem tanulta meg, akkor képtelen feltalálni.
Az absztrahálás képességével nem rendelkeznek a nyelvi modellek, csupán a szavakat próbálják olyan sorrendbe tenni, hogy az megfeleljen a korábban tanultak sémájának, illetve ezeket a sémákat próbálják finomítani és új alakba önteni, de ez nem megértés, csupán az eredmény annyira emberi, hogy mi már beleképzeljük a megértést is.
Az AI végtelenül sokat tud, de nem bölcs.
Karpathy új videója, kezdőknek nagyon hasznos:
Deep Dive into LLMs like ChatGPT
„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)
Mondj fővárosokat amik rid-re végződnek
671b:
Zagreb (Horvátország fővárosa) – bár nem pontosan "-rid", de hasonló hangzású.
2 Astana (Kazahsztán fővárosa) – 2019 óta Nur-Szultan, de régebben használták ezt a nevet.
Ha más specifikus végződésre vagy fővárosra gondolsz, nyugodtan kérdezz tovább! 😊
70B:
</think>
A budapesti főváros például a "Budapest-re" végződést használja, ami a magyar nyelvben gyakran használt formája a városneveknek.
Ha több példát szeretnél, vagy más típusú segítségre van szükséged, kérlek, mondd el! 😊
>>> Send a message (/? for help)
32b:
</think>
A "rid" vagy "-re" végződő fővárosok listázása nehézségekbe ütközik, mivel ilyen jellemzőknek nem található.
14b:
A következő fővárosokat végződnek a következő szöveg:
- **Budapest**: Ez a város a magyarországi főváros, és a neve "mond"teljesül.
https://blog.claryel.hu
1 bites deepseek (DeepSeek-R1-UD-IQ1_S):
egy masik projekt miatt van egyt listam a vilag osszes fovarosarol:
root@ddr5:/home/Skandi/dict# grep rid fovaros.txt
Madrid Spanyolország fővárosa
6 bites is jol tudja: (DeepSeek-R1-Q6_K)
Ezeket tanitottad? Csak tesztelgetek ezzel a hülye kérdéssel. A deepseek.com felsorolja az öszes európai nagyvárost, a rid re végződőt mégse tudja. Mitöl jobb a tiéd ?
https://blog.claryel.hu
Igen, ez engem is érdekelne! (Miheztartás végett, nem kötözködés, tényleg a szakmai kíváncsiság miatt kérdezem.)
dehogy tanitottam. nincs nekem 100 terrabajt ramom meg 10k darab gpu-m...
nem tudom te mit es hol futtattal, nekem helyben (offline) fut 2 gepen, egyiken 768GB rammal a 6 bites masik gepen 128G+24G gpu-n az 1 bites. es a teljes deepseek, nem az ilyen annak hazudott distillalt llama/qwen modellek. ha te a webeset futtattad az vagy nem 100% egyezik meg a letolthetovel, vagy ott mindenfele cenzura, illetve emiatt eltero system prompt is bezavarhat.
amugy neha az se mindegy, hogy van-e thinking/reasoning (V3 vs R1) es minden futaskor mas-mas eredmenyt ad, lehet neha jo neha nem. nyilvan az se mind1, a temperature parametert mire allitod, kisebb ertekek eseten megbizhatobbak de nem annyira kreativak/szabadak.
en par napja olyat akartam iratni vele amiben csak E betus maganhangzok vannak,na ezt nem sikerult megugrania, 80%-ban E volt de neha becsuszott nehany A O vagy E' is.