- ファイルを作成して S3 にアップロードする
$ perl -le 'print for 1..100000000' > number.txt $ head -3 number.txt 1 2 3 $ tail -3 number.txt 99999998 99999999 100000000 $ aws s3 cp number.txt s3://az-sample/
- EMR のマスターノードで PySpark からテキストを読む
$ pyspark >>> rdd = sc.textFile("s3://az-sample/number.txt") >>> rdd.first() u'1' >>> rdd.count() 100000000 >>> rdd.top(3) [u'99999999', u'99999998', u'99999997']
- その際、コアノードやタスクノードの通信スループットを見る
$ nethogs $ dstat -tncd 5