ablog

不器用で落着きのない技術者のメモ

2018-01-04から1日間の記事一覧

PySpark on EMR で S3 のテキストファイルを読む

EMR

ファイルを作成して S3 にアップロードする $ perl -le 'print for 1..100000000' > number.txt $ head -3 number.txt 1 2 3 $ tail -3 number.txt 99999998 99999999 100000000 $ aws s3 cp number.txt s3://az-sample/ EMR のマスターノードで PySpark か…