ablog

不器用で落着きのない技術者のメモ

EMR

Spark on EMR から Glue カタログにアクセスできない

事象 Spark on EMR で Glue カタログのデータベース名を表示しようとすると、"because no identity-based policy allows the glue:GetDatabase action" で AccessDeniedException が発生する。 $ pyspark >>> from pyspark.sql import SparkSession >>> spar…

PySpark on EMR で S3 のテキストファイルを読む

EMR

ファイルを作成して S3 にアップロードする $ perl -le 'print for 1..100000000' > number.txt $ head -3 number.txt 1 2 3 $ tail -3 number.txt 99999998 99999999 100000000 $ aws s3 cp number.txt s3://az-sample/ EMR のマスターノードで PySpark か…

コアノードから EMRFS への読み書きしているところを strace でシステムコールトレースを取得する

コアノードに strace をインストールする curl -L -O strace-4.19.tar.xz https://sourceforge.net/projects/strace/files/strace/4.19/strace-4.19.tar.xz/download -o strace-4.19.tar.xz tar xfvJ strace-4.19.tar.xz cd strace-4.19 ./configure make コ…