Amazon Linux で PyArrow を使ってみたメモ。
準備
- PyArrow をインストールする
$ sudo pip install --upgrade pip $ sudo yum install python36 python36-virtualenv python36-pip $ sudo python3 -m pip install pandas pyarrow
- データをコピーする
$ mkdir amazon-reviews-pds-az $ cd amazon-reviews-pds-az/ $ aws s3 cp --recursive s3://amazon-reviews-pds/parquet ./
- test.py を作成する。
#!/usr/bin/python import pyarrow as pa import pyarrow.parquet as pq import pandas as pd table = pq.read_table('~/amazon-reviews-pds-az/product_category=Apparel/part-00000-495c48e6-96d6-4650-aa65-3c36a3516ddd.c000.snappy.parquet') df = table.to_pandas() print(len(df)) print(df.describe())
実行する
$ python3 test.py 589900 star_rating helpful_votes total_votes year count 589900.000000 589900.000000 589900.000000 589900.000000 mean 4.105531 0.985847 1.179207 2013.943150 std 1.258572 10.724705 11.296609 1.374692 min 1.000000 0.000000 0.000000 2001.000000 25% 4.000000 0.000000 0.000000 2014.000000 50% 5.000000 0.000000 0.000000 2014.000000 75% 5.000000 0.000000 1.000000 2015.000000 max 5.000000 3846.000000 3882.000000 2015.000000