Python dataset max 20MB

Sziasztok,

Van egy Python szkriptünk, amiben dataset-et használunk, viszont az adat, ami be akarunk vele tölteni, több, mint dataset maximális mérete. Ezeket szétszedtük ezresével és úgy töltjük be. Tudtok valami módot arra, hogy 20MB-nál nagyobb méretű adatot töltsünk be Pythonnal? 

Hozzászólások

Streamelni nem lenne jobb?

zászló, zászló, szív

Szerkesztve: 2023. 06. 29., cs – 14:45

Konkréten benne van valamilyen dokumentációban ez a 20 MB, vagy tapasztalati érték?

ez a 20MB, nagyon alacsonynak tünik, tutira többet is  be lehet tölteni.

pandas dataframe-re 100GB dob fel a google search :) 

persze a hasznalt dtype is sokat szamithat

Milyen dataset? Pandas? Pytorch? Kb. hogy nez ki a kod? Mit hasznalsz benne? Nem ismeros 20MB-os limit. (magasabb biztos van, de nem futottam bele ilyen alacsonyba)

A strange game. The only winning move is not to play. How about a nice game of chess?

Akkor fura. 150MB koruli pickle-m van a gepemen, amiben egy pandas dataset van egyben.

nyos@shodan:~$ python3
Python 3.8.10 (default, May 26 2023, 14:05:08)  
[GCC 9.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy as np
>>> import pandas as pd
>>> y=pd.DataFrame(np.random.random((1000,100000)))

>>> y.shape
(1000, 100000)
>>> y.memory_usage()
Index     128
0        8000
1        8000
2        8000
3        8000
        ...  
99995    8000
99996    8000
99997    8000
99998    8000
99999    8000
Length: 100001, dtype: int64
>>> y.size
100000000

 

Amint latszik, 100 millio 64 bites szamot gyonyoruen kezel

A strange game. The only winning move is not to play. How about a nice game of chess?