ablog

不器用で落着きのない技術者のメモ

Docker で Apache Spark UI から Glue のジョブ結果を確認する

Docker で Apache Spark History Server を起動し、Spark Web UI を表示したメモ。
macOS on Macbook Pro で Spark UI を使ってみた。

  • git をインストール
# macOS
$ brew install git
# Linux(RedHat系)
$ sudo yum -y install git
  • セットアップ
$ git clone https://github.com/aws-samples/aws-glue-samples.git
$ cd aws-glue-samples/utilities/Spark_UI/
$ docker build -t glue/sparkui:latest . 
  • 起動
$ LOG_DIR="s3a://spark-ui-tokyo/eventlog/"
$ AWS_ACCESS_KEY_ID="..."
$ AWS_SECRET_ACCESS_KEY="..."
$ docker run -itd -e SPARK_HISTORY_OPTS="$SPARK_HISTORY_OPTS -Dspark.history.fs.logDirectory=$LOG_DIR -Dspark.hadoop.fs.s3a.access.key=$AWS_ACCESS_KEY_ID -Dspark.hadoop.fs.s3a.secret.key=$AWS_SECRET_ACCESS_KEY" -p 18080:18080 glue/sparkui:latest "/opt/spark/bin/spark-class org.apache.spark.deploy.history.HistoryServer"

f:id:yohei-a:20200629022323p:plain