ablog

不器用で落着きのない技術者のメモ

Amazon Linux で PyArrow を使ってみる

Amazon Linux で PyArrow を使ってみたメモ。

準備

  • PyArrow をインストールする
$ sudo pip install --upgrade pip
$ sudo yum install python36 python36-virtualenv python36-pip
$ sudo python3 -m pip install pandas pyarrow
  • データをコピーする
$ mkdir amazon-reviews-pds-az
$ cd amazon-reviews-pds-az/
$ aws s3 cp --recursive s3://amazon-reviews-pds/parquet ./
  • test.py を作成する。
#!/usr/bin/python

import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd

table = pq.read_table('~/amazon-reviews-pds-az/product_category=Apparel/part-00000-495c48e6-96d6-4650-aa65-3c36a3516ddd.c000.snappy.parquet')
df = table.to_pandas()

print(len(df))
print(df.describe())

実行する

$ python3 test.py
589900
         star_rating  helpful_votes    total_votes           year
count  589900.000000  589900.000000  589900.000000  589900.000000
mean        4.105531       0.985847       1.179207    2013.943150
std         1.258572      10.724705      11.296609       1.374692
min         1.000000       0.000000       0.000000    2001.000000
25%         4.000000       0.000000       0.000000    2014.000000
50%         5.000000       0.000000       0.000000    2014.000000
75%         5.000000       0.000000       1.000000    2015.000000
max         5.000000    3846.000000    3882.000000    2015.000000

環境