ablog

不器用で落着きのない技術者のメモ

Parquet

parquet-cli で Parquet ファイルを読む

parquet-tools は deprecated になっているらしく、parquet-cli をインストールして Parquet ファイルを読んでみた。 あと関連記事を調べると parquet-tools も紹介されていたりするけど,現時点では使えなくなっている $ brew install parquet-tools Error:…

Presto で Parquet にクエリするとファイル中の必要な Column chunk のみを読んでいるか

Presto から見ると (parquetの)page単位で IO して、HDFS の API を叩いて、HDFS は DSDataInputStream とかで読んで、OSレイヤーからみると sendfile(2) で xfs などのファイルシステムのファイルを読んでということになってるのではないかと推察。— yohei.…

Amazon Linux で PyArrow を使ってみる

Amazon Linux で PyArrow を使ってみたメモ。 準備 PyArrow をインストールする $ sudo pip install --upgrade pip $ sudo yum install python36 python36-virtualenv python36-pip $ sudo python3 -m pip install pandas pyarrow データをコピーする $ mkdi…