Glue の「接続」を作ってジョブにアタッチすると、VPC エンドポイント経由で S3 にアクセスできる。VPC エンドポイントポリシーでアクセス可能な S3 バケットを絞りたい場合は、業務で使うバケットに加えて Glue ジョブが使うスクリプトディレクトリ(デフォルト: aws-glue-scripts-{AWS Account ID}-{region})、一時ディレクトリ(デフォルト: aws-glue-temporary-{AWS Account ID}-{region}) も許可する必要がある。
- エラーログ
fatal error: An error occurred (403) when calling the HeadObject operation: Forbidden Error downloading script ★: fatal error: An error occurred (403) when calling the HeadObject operation: Forbidden
- ログ
--conf --conf spark.hadoop.fs.defaultFS=hdfs:// --conf spark.hadoop.yarn.resourcemanager.address= --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true --conf spark.dynamicAllocation.minExecutors=1 --conf spark.dynamicAllocation.maxExecutors=2 --conf spark.executor.memory=5g --conf spark.executor.cores=4 --conf spark.driver.memory=5g --JOB_ID j_d92fbdf94cb508d0ec9912ae6cf5d9aab616d829cc92da206f1a7f7849f3790e --JOB_RUN_ID jr_1d116a91943a03339a39f5e88a8ff16ac3a74a841f684f7547ab7999dcc44eb8 --job-bookmark-option job-bookmark-disable --scriptLocation s3://aws-glue-scripts-123456789012-ap-northeast-1/admin/PrivateTest ★ --job-language python --TempDir s3://aws-glue-temporary-123456789012-ap-northeast-1/admin ★ --JOB_NAME PrivateTest Detected region ap-northeast-1 Detected glue endpoint YARN_RM_DNS= JOB_NAME = PrivateTest PYSPARK_VERSION 3 python3 Specifying ap-northeast-1 while copying script. S3 copy with region specified failed. Falling back to not specifying region.
- 設定していた VPC エンドポイントポリシー
{ "Version": "2008-10-17", "Statement": [ { "Effect": "Allow", "Principal": "*", "Action": "*", "Resource": [ "arn:aws:s3:::datalake-landing", "arn:aws:s3:::datalake-landing/*", "arn:aws:s3:::datalake-main", "arn:aws:s3:::datalake-main/*" ] } ] }
- 実行した Glue ジョブのコード(PySpark)
import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init('test job') df ="s3://datalake-landing/test.csv") df.coalesce(1).write.mode('overwrite').csv("s3://datalake-main/")
{ "Version": "2008-10-17", "Statement": [ { "Effect": "Allow", "Principal": "*", "Action": "*", "Resource": [ "arn:aws:s3:::glue-private-test", "arn:aws:s3:::glue-private-test/*", "arn:aws:s3:::log-raw-az", "arn:aws:s3:::log-raw-az/*" ] }, { "Effect": "Allow", "Principal": "*", "Action": "s3:GetObject", "Resource": [ "arn:aws:s3:::aws-glue-scripts-123456789012-ap-northeast-1", "arn:aws:s3:::aws-glue-scripts-123456789012-ap-northeast-1/*" ] }, { "Effect": "Allow", "Principal": "*", "Action": [ "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::aws-glue-temporary-123456789012-ap-northeast-1", "arn:aws:s3:::aws-glue-temporary-123456789012-ap-northeast-1/*" ] } ] }
- 上記は東京リージョンでデフォルトのケース。--scriptLocation や --TempDir を明示的に指定する場合はそのバケットの ARN を指定する。
- --scriptLocation - ETL スクリプトが s3://path/to/my/ のような形式で配置されている Amazon Simple Storage Service (Amazon S3) の場所。これは、JobCommand オブジェクトで設定されているスクリプトの場所を上書きします。
- --TempDir - ジョブの一時ディレクトリとして使用できるバケットへの Amazon S3 パスを指定します。
'--TempDir': 's3-path-to-directory'
