Spark on EMR から Glue Catalog を参照してみたメモ。
前提
- Glue カタログにすでにデータベースとテーブルは存在するものとする。
設定
Glue カタログを参照してみる
- PySpark REPL を起動する。
$ pyspark
- データベースを表示する PySpark のコードを実行する。
from pyspark.sql import SparkSession spark = SparkSession.builder. \ appName("ExamplePySparkSubmitTask"). \ config("spark.databricks.hive.metastore.glueCatalog.enabled", "true"). \ enableHiveSupport(). \ getOrCreate() print(spark.sparkContext.getConf().get("spark.databricks.hive.metastore.glueCatalog.enabled")) spark.sql("show databases").show() sql("SELECT COUNT(*) FROM ssbgz.gz_customer").show() spark.stop()
- 実行結果
>>> spark.sql("show databases").show() +------------+ |databaseName| +------------+ | default| | ssbgz| +------------+ >>> sql("SELECT COUNT(*) FROM ssbgz.gz_customer").show() +--------+ |count(1)| +--------+ | 3000000| +--------+