polars.read_csv
与 polars.read_csv_batched
与 polars.scan_csv
有什么区别?
polars.read_csv
看起来等同于 pandas.read_csv
因为它们具有相同的名称。
在哪种场景下使用哪一个以及它们与 pandas.read_csv
的相似/不同之处?
正确答案
-
polars.read_csv_batched
非常相当于pandas.read_csv(iterator=True)
一个>. -
polars.scan_csv
不会执行任何操作,直到您对数据框执行类似dask.dataframe.read_csv
(延迟加载)。
场景:
-
我使用
pandas.read_csv
时我的数据比较杂乱或者结构比较复杂,而且数据量不太大 -
我使用
polars.read_csv
当我的数据文件非常大时(> 10GB)。
这是完全基于我(谦虚)意见的答案。