2020-05-01から1ヶ月間の記事一覧
Glue の Python shell ジョブでは Python 2.7 と 3.6 が使える。パッチレベルを知りたかったので、表示させるコードを Python Shell ジョブの中で記述して実行してみたら、3.6.9 だった(東京リージョン、2020/5/6時点)。 コード import sys print(sys.vers…
マネジメントコンソールでEBSボリュームを選択して、[ボリュームの変更] でボリュームサイズを大きくする。 パーティションを拡張する。 $ lsblk $ sudo growpart /dev/nvme0n1 1 ファイルシステム(XFS)を拡張する。 $ sudo xfs_growfs -d / meta-data=/de…
@maropu さんの TPCDS data generator for Apache Spark を使って TPC-DS のデータを生成してみた。 準備 EC2 インスタンス作成 EC2 インスタンスを作成する git と JDK 8 をインストールする $ sudo yum -y install git java-1.8.0-openjdk-devel.x86_64 Sp…
データセット Open Data on AWS Big Data And AI: 30 Amazing (And Free) Public Data Sources For 2018 Large Dataset for Bigdata · Jian Zhou Big Data Analytics Dataset List データ生成ツール GitHub - maropu/spark-tpcds-datagen: All the things ab…
準備 Amazon Linux 2 に Python をインストールする Amazon Linux 2 に pyenv をインストールする - ablog $ sudo yum -y install git \ bzip2 \ bzip2-devel \ gcc \ git \ libffi-devel \ make \ openssl \ openssl-devel \ readline \ readline-devel \ s…
yoheia/kds_put2stream.py at master · yoheia/yoheia · GitHub #!/usr/bin/env python3 import boto3 import json from datetime import datetime import calendar import random import time my_stream_name = 'KDS-ThroughputTest' kinesis_client = boto…
Spark とは Spark とは Apache Sparkについて from BrainPad Inc. SparkはBDAS(Berkeley Data Analytics Stack)の一部 Apache Sparkについて from BrainPad Inc. Haddop エコシステムとの対応 Spark in Action - 1.4. SPARK ECOSYSTEM - Figure 1.6 アーキ…