Glue の Python shell で使われている Python のパッチレベルを調べる

AWS

Glue の Python shell ジョブでは Python 2.7 と 3.6 が使える。パッチレベルを知りたかったので、表示させるコードを Python Shell ジョブの中で記述して実行してみたら、3.6.9 だった（東京リージョン、2020/5/6時点）。コード import sys print(sys.vers…

2020-05-05

Amazon Linux 2 で EBS ボリュームを拡張する

AWS

マネジメントコンソールでEBSボリュームを選択して、[ボリュームの変更] でボリュームサイズを大きくする。パーティションを拡張する。 $ lsblk $ sudo growpart /dev/nvme0n1 1 ファイルシステム（XFS）を拡張する。 $ sudo xfs_growfs -d / meta-data=/de…

2020-05-05

TPCDS data generator for Apache Spark で TPC-DS のデータを生成した

AWS

@maropu さんの TPCDS data generator for Apache Spark を使って TPC-DS のデータを生成してみた。準備 EC2 インスタンス作成 EC2 インスタンスを作成する git と JDK 8 をインストールする $ sudo yum -y install git java-1.8.0-openjdk-devel.x86_64 Sp…

2020-05-05

データセットリンク集

Big data

データセット Open Data on AWS Big Data And AI: 30 Amazing (And Free) Public Data Sources For 2018 Large Dataset for Bigdata · Jian Zhou Big Data Analytics Dataset List データ生成ツール GitHub - maropu/spark-tpcds-datagen: All the things ab…

2020-05-05

Kinesis Data Stream に並行でレコードを Put する

AWS

準備 Amazon Linux 2 に Python をインストールする Amazon Linux 2 に pyenv をインストールする - ablog $ sudo yum -y install git \ bzip2 \ bzip2-devel \ gcc \ git \ libffi-devel \ make \ openssl \ openssl-devel \ readline \ readline-devel \ s…

2020-05-03

Kinesis Data Streams に put するだけの Python スクリプト

AWS

yoheia/kds_put2stream.py at master · yoheia/yoheia · GitHub #!/usr/bin/env python3 import boto3 import json from datetime import datetime import calendar import random import time my_stream_name = 'KDS-ThroughputTest' kinesis_client = boto…

2020-05-02

Apache Spark パフォーマンス分析・チューニング

Spark とは Spark とは Apache Sparkについて from BrainPad Inc. SparkはBDAS（Berkeley Data Analytics Stack）の一部 Apache Sparkについて from BrainPad Inc. Haddop エコシステムとの対応 Spark in Action - 1.4. SPARK ECOSYSTEM - Figure 1.6 アーキ…

ablog

不器用で落着きのない技術者のメモ

2020-05-01から1ヶ月間の記事一覧

Glue の Python shell で使われている Python のパッチレベルを調べる

Amazon Linux 2 で EBS ボリュームを拡張する

TPCDS data generator for Apache Spark で TPC-DS のデータを生成した

データセットリンク集

Kinesis Data Stream に並行でレコードを Put する

Kinesis Data Streams に put するだけの Python スクリプト

Apache Spark パフォーマンス分析・チューニング