Parquet
parquet-tools は deprecated になっているらしく、parquet-cli をインストールして Parquet ファイルを読んでみた。 あと関連記事を調べると parquet-tools も紹介されていたりするけど,現時点では使えなくなっている $ brew install parquet-tools Error:…
Presto から見ると (parquetの)page単位で IO して、HDFS の API を叩いて、HDFS は DSDataInputStream とかで読んで、OSレイヤーからみると sendfile(2) で xfs などのファイルシステムのファイルを読んでということになってるのではないかと推察。— yohei.…
Amazon Linux で PyArrow を使ってみたメモ。 準備 PyArrow をインストールする $ sudo pip install --upgrade pip $ sudo yum install python36 python36-virtualenv python36-pip $ sudo python3 -m pip install pandas pyarrow データをコピーする $ mkdi…