Sziasztok,
Van egy Python szkriptünk, amiben dataset-et használunk, viszont az adat, ami be akarunk vele tölteni, több, mint dataset maximális mérete. Ezeket szétszedtük ezresével és úgy töltjük be. Tudtok valami módot arra, hogy 20MB-nál nagyobb méretű adatot töltsünk be Pythonnal?
- 309 megtekintés
Hozzászólások
Nem tudom :) Megnézzük ezt is. Elég sokat küzdöttek már vele.
- A hozzászóláshoz be kell jelentkezni
Konkréten benne van valamilyen dokumentációban ez a 20 MB, vagy tapasztalati érték?
- A hozzászóláshoz be kell jelentkezni
ez a 20MB, nagyon alacsonynak tünik, tutira többet is be lehet tölteni.
pandas dataframe-re 100GB dob fel a google search :)
persze a hasznalt dtype is sokat szamithat
- A hozzászóláshoz be kell jelentkezni
jut eszembe, ha RDBS-be töltitek nem lehet hogy a tranzakcio merte a limit? szoval sürübb commit kellene?
- A hozzászóláshoz be kell jelentkezni
Az a 100GB sokkal barátságosabban hangzik pandas dataframe-nél. Holnap előtúrom a kollégát és átdobom neki a fórum linkjét.
SQL Serverben lévő táblába töltjük be az infót.
- A hozzászóláshoz be kell jelentkezni
Milyen dataset? Pandas? Pytorch? Kb. hogy nez ki a kod? Mit hasznalsz benne? Nem ismeros 20MB-os limit. (magasabb biztos van, de nem futottam bele ilyen alacsonyba)
A strange game. The only winning move is not to play. How about a nice game of chess?
- A hozzászóláshoz be kell jelentkezni
Emlékeim szerint Pandas. A fejlesztést nem én csinálom, de ezt több helyen is mintha olvastuk volna. Én csak érintőre vettem a problémát a több tonna feladatom mellett :D
- A hozzászóláshoz be kell jelentkezni
Akkor fura. 150MB koruli pickle-m van a gepemen, amiben egy pandas dataset van egyben.
nyos@shodan:~$ python3
Python 3.8.10 (default, May 26 2023, 14:05:08)
[GCC 9.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy as np
>>> import pandas as pd
>>> y=pd.DataFrame(np.random.random((1000,100000)))>>> y.shape
(1000, 100000)
>>> y.memory_usage()
Index 128
0 8000
1 8000
2 8000
3 8000
...
99995 8000
99996 8000
99997 8000
99998 8000
99999 8000
Length: 100001, dtype: int64
>>> y.size
100000000
Amint latszik, 100 millio 64 bites szamot gyonyoruen kezel
A strange game. The only winning move is not to play. How about a nice game of chess?
- A hozzászóláshoz be kell jelentkezni