tud valaki ilyenrol? gondolom nem annyira legalis, ezert johet privatba is a link/torrent ha van.
a publikusakat (MEK, project guttenberg) ismerem, de ott leginkabb lejart jogdiju es emiatt baromi regi konyvek vannak csak, regies nyelven es szohasznalattal, nekem jobb lenne 21 szazadi alapanyag.
nkoron van rengeteg friss konyv de onnan egyesevel kene letolteni ami vegtelen sok ido, nagyon nehezen automatizalhato, limitalt a letoltesek szama stb.
a (chat)GPT-t es a LLaMA-t is jelentos reszben konyvekkel (books 1/2/3 dataset) tanitottak, de ezek se annyira publikusak, es angol nyelvuek, en pedig kifejezetten magyar nyelvu modelt tanitok epp.
- 1198 megtekintés
Hozzászólások
ezzel a korpusszal találkoztál? bert tanítóformátumú.
- A hozzászóláshoz be kell jelentkezni
ezzel konkretan nem :) de a letolto linkek amugy se mukodnek mar benne.
a commoncrawl-bol en is csinaltam mar datasetet magyar nyelvre leszurve, de nagyon vegyes a minosege, inkabb szar mint jo :)
de ezek ugye weboldalak tartalmai, igy nem is csoda, hogy sok a szemet kozte :(
- A hozzászóláshoz be kell jelentkezni
nkór 5$ és nincs limit, rss feedből meg össze tudod szedni az összes könyvet szerintem, nem kell web crawler botot csinálni hozzá
- A hozzászóláshoz be kell jelentkezni
de rss-ben is csak akkor jelenik meg, ha egyesevel hozzaadom, nem? vagy lemaradtam valamirol?
es azert ha egyszerre 500+ letoltes elindul azt nem biztos hogy szeretni fogjak :)
- A hozzászóláshoz be kell jelentkezni
Megnéztem közelebbről, az rss-ben csak kb az utolsó 24 órányi feltöltött dolgok vannak, szóval a html parse-olást sajna mégsem lehet megúszni (bár nem bonyolult ahogy néztem és még magyarul is van). Némi hint
A párhuzamos letöltések miatt én nem aggódnék, mert p2p. De végülis be lehet állítani a kliensekben, hogy hány aktív letöltés legyen egyszerre, a többi meg megy a queue-ba.
- A hozzászóláshoz be kell jelentkezni
Lehet érdemes dobni nekik egy mailt a supportra :-D
- A hozzászóláshoz be kell jelentkezni
nekem van egy csomo, kuldok majd katalogust h erdekesek e meg megnezem az osszmeretet, jo nagy ugy remlik
- A hozzászóláshoz be kell jelentkezni
Silent Library Project, bár ők nagyon "csendesek" viszont nagy számú ebook-ra hatékonyabb a torrentnél.
- A hozzászóláshoz be kell jelentkezni
ez alapjan reg megszunt: https://hup.hu/node/124871
vagy annyira csendesek hogy meg a google se talal mukodo url-t hozza :)
- A hozzászóláshoz be kell jelentkezni
Pár éve még működött, egyébként nem volt nehéz rejtvény kitalálni az új címet. Egyszerűbb mint a hackthebox reg :) Most valóban nem megy. Talán a .ru domain problémás a mai időkben, vagy csak átmeneti üzemzavar. Olyan volt már több is. Jövő hónapban ránézek újra.
- A hozzászóláshoz be kell jelentkezni
Egy regi ismeros egykori szobatarsanak a konyveloje hallotta a 7-es buszon, hogy a pirazebay-en fenn van az slp teljes anyaga…
- A hozzászóláshoz be kell jelentkezni
es azt nem hallotta veletlen a kutyaja, hogy mire kell rakeresni? :)
- A hozzászóláshoz be kell jelentkezni
Viszont a Library Genesys még él.
- A hozzászóláshoz be kell jelentkezni
na ez hasznos volt, olvastam mar hogy a GPT-t tobbet kozt a Libgen-el tanitottak csak nem tudtam, hogy az mi lehet...
erdekes ez a site, le lehet tolteni a metadata sql dumpot (mint egy konyvtari katalogus) es szurni benne:
select count(Extension),Extension from updated where Language='Hungarian' group by Extension;
+------------------+-----------+
| count(Extension) | Extension |
+------------------+-----------+
| 671 | djvu |
| 5355 | pdf |
| 1279 | mobi |
| 20 | cbr |
| 179 | doc |
| 1612 | epub |
| 2 | odt |
| 109 | rtf |
| 27 | rar |
| 1 | pps |
| 7 | zip |
| 131 | azw3 |
| 21 | docx |
+------------------+-----------+
ps: hogy lehet ebbe a csoda hup szerkesztoben code/pre taget beirni?
- A hozzászóláshoz be kell jelentkezni
Jobbra a textbox fölött a <pre><code>Forráskód.</code></pre>
- A hozzászóláshoz be kell jelentkezni
Valamikor regen volt egy 7(8?)k magyar konyv pakk. Aztan volt valami 11k is. Vagy valami ilyesmi. Eleg sok cucc volt benne.
Azert en vigyaznek, mert sok e-book nagyon gyatra.
- A hozzászóláshoz be kell jelentkezni
a 7000 konyveset mar megtalaltam en is piratebay-en, az kb 2005-os es a nagy resze a MEK-essel egyezik, a maradek is eleg gyatra valoban... azert is gondoltam hogy az utobbi evtizedbol kellene, lehetoleg eleve ebook formatumban (is) megjelent (ami igy mentes az ocr-ezes hibaitol) konyveket hasznalni a tanitashoz...
- A hozzászóláshoz be kell jelentkezni
Off: Én is szeretnék ingyen könyveket, csak nem jutott eszembe ilyen jó indok.
- A hozzászóláshoz be kell jelentkezni
a regi angol nyelvu books datasetben direkt ossze vannak keverve a konyvek es az oldalak, igy egy nagy txt az egesz, ami konyvkent nehezen ertelmezheto/hasznalhato, de NLP tanitasara ugyanugy megfelel, amugy is szokas keverni (shuffle) az inputot.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
enkór oldalán pár éve csináltam ilyet monkeygrease scripttel, lapozgatott kategórián belül, letöltött minden fájlt. Szerverre átdobtam a fájlokat, rtorrentnek nem kottyan meg pár ezer torrent. Utána pdf-ek kuka, calibrevel a többit feldolgoztam és tetszôleges formátumba, egységes elnevezésekkel konvertáltam. Az eredmény változó volt, mert eleve sok esetben szar volt a forrás (ocr benézett egymáshoz közeli betûket), utána inkább vásároltam emiatt.
- A hozzászóláshoz be kell jelentkezni
Z-library jo lehet. Tor browser kell hozza normal esetben.
- A hozzászóláshoz be kell jelentkezni
megneztem, de itt nem lehet (vagy en vagyok bena) kilistazni az osszes magyar konyvet mondjuk 2022-bol, csak keresni lehet, nem tul rovid cim reszletre...
- A hozzászóláshoz be kell jelentkezni