magyar nyelvu ebook gyujtemeny AI (NLP, GPT) tanitashoz?

tud valaki ilyenrol? gondolom nem annyira legalis, ezert johet privatba is a link/torrent ha van.

a publikusakat (MEK, project guttenberg) ismerem, de ott leginkabb lejart jogdiju es emiatt baromi regi konyvek vannak csak, regies nyelven es szohasznalattal, nekem jobb lenne 21 szazadi alapanyag.

nkoron van rengeteg friss konyv de onnan egyesevel kene letolteni ami vegtelen sok ido, nagyon nehezen automatizalhato, limitalt a letoltesek szama stb.

a (chat)GPT-t es a LLaMA-t is jelentos reszben konyvekkel (books 1/2/3 dataset) tanitottak, de ezek se annyira publikusak, es angol nyelvuek, en pedig kifejezetten magyar nyelvu modelt tanitok epp.

Hozzászólások

ezzel konkretan nem :)  de a letolto linkek amugy se mukodnek mar benne.

a commoncrawl-bol en is csinaltam mar datasetet magyar nyelvre leszurve, de nagyon vegyes a minosege, inkabb szar mint jo :)

de ezek ugye weboldalak tartalmai, igy nem is csoda, hogy sok a szemet kozte :(

nkór 5$ és nincs limit, rss feedből meg össze tudod szedni az összes könyvet szerintem, nem kell web crawler botot csinálni hozzá

Megnéztem közelebbről, az rss-ben csak kb az utolsó 24 órányi feltöltött dolgok vannak, szóval a html parse-olást sajna mégsem lehet megúszni (bár nem bonyolult ahogy néztem és még magyarul is van). Némi hint

A párhuzamos letöltések miatt én nem aggódnék, mert p2p. De végülis be lehet állítani a kliensekben, hogy hány aktív letöltés legyen egyszerre, a többi meg megy a queue-ba.

nekem van egy csomo, kuldok majd katalogust h erdekesek e meg megnezem az osszmeretet, jo nagy ugy remlik

Silent Library Project, bár ők nagyon "csendesek" viszont nagy számú ebook-ra hatékonyabb a torrentnél. 

Pár éve még működött, egyébként nem volt nehéz rejtvény kitalálni az új címet. Egyszerűbb mint a hackthebox reg :) Most valóban nem megy. Talán a .ru domain problémás a mai időkben, vagy csak átmeneti üzemzavar. Olyan volt már több is. Jövő hónapban ránézek újra. 

na ez hasznos volt, olvastam mar hogy a GPT-t tobbet kozt a Libgen-el tanitottak csak nem tudtam, hogy az mi lehet...

erdekes ez a site, le lehet tolteni a metadata sql dumpot (mint egy konyvtari katalogus) es szurni benne:

select count(Extension),Extension from updated where Language='Hungarian' group by Extension;
+------------------+-----------+
| count(Extension) | Extension |
+------------------+-----------+
|              671 | djvu      |
|             5355 | pdf       |
|             1279 | mobi      |
|               20 | cbr       |
|              179 | doc       |
|             1612 | epub      |
|                2 | odt       |
|              109 | rtf       |
|               27 | rar       |
|                1 | pps       |
|                7 | zip       |
|              131 | azw3      |
|               21 | docx      |
+------------------+-----------+

ps: hogy lehet ebbe a csoda hup szerkesztoben code/pre taget beirni?

Valamikor regen volt egy 7(8?)k magyar konyv pakk. Aztan volt valami 11k is. Vagy valami ilyesmi. Eleg sok cucc volt benne.

Azert en vigyaznek, mert sok e-book nagyon gyatra.

a 7000 konyveset mar megtalaltam en is piratebay-en, az kb 2005-os es a nagy resze a MEK-essel egyezik, a maradek is eleg gyatra valoban... azert is gondoltam hogy az utobbi evtizedbol kellene, lehetoleg eleve ebook formatumban (is) megjelent (ami igy mentes az ocr-ezes hibaitol) konyveket hasznalni a tanitashoz...

Majd az A-rp-I bétát szívesen tesztelem.

READY.
󠀠󠀠‎‏‏‎▓

Off: Én is szeretnék ingyen könyveket, csak nem jutott eszembe ilyen jó indok.

Szerkesztve: 2023. 05. 02., k – 23:45

enkór oldalán pár éve csináltam ilyet monkeygrease scripttel, lapozgatott kategórián belül, letöltött minden fájlt. Szerverre átdobtam a fájlokat, rtorrentnek nem kottyan meg pár ezer torrent. Utána pdf-ek kuka, calibrevel a többit feldolgoztam és tetszôleges formátumba, egységes elnevezésekkel konvertáltam. Az eredmény változó volt, mert eleve sok esetben szar volt a forrás (ocr benézett egymáshoz közeli betûket), utána inkább vásároltam emiatt.

Z-library jo lehet. Tor browser kell hozza normal esetben.