ablog

不器用で落着きのない技術者のメモ

git の検索結果:

YCSB から DynamoDB に結果整合性と強い整合性で負荷をかけてみて、レイテンシを計測してみた

AWS

…TE], 99thPercentileLatency(us), 17407 [UPDATE], Return=OK, 49909 CloudWatch メトリクス DynamoDB EC2 参考 読み込み整合性 - Amazon DynamoDB YCSBでDynamoDBを殴ってみた | DevelopersIO YCSB/dynamodb/conf/dynamodb.properties at master · brianfrankcooper/YCSB · GitHub

Redshift Serverless に負荷をかけてCloudWatch メトリクスをモニタリングしてみる

$ git clone https://github.com/awslabs/amazon-redshift-utils.git $ cd amazon-redshift-utils/src/CloudDataWarehouseBenchmark/Cloud-DWB-Derived-from-TPCH/100GB/

AWS SDK はファイルを S3 にアップロードする際にチェックサムで整合性をチェックしてくれる

AWS

…o/boto3 · GitHub x-amz-sdk-checksum-algorithm Indicates the algorithm used to create the checksum for the object when using the SDK. This header will not provide any additional functionality if not using the SDK. When sending this header, t…

pandas で df[df[列番号]==数値] と df[df[列番号].isin([数値])] のどちらが速いか(数値編)

…/pandas · GitHub def isin(comps: ListLike, values: ListLike) -> npt.NDArray[np.bool_]: """ Compute the isin boolean array. Parameters ---------- comps : list-like values : list-like Returns ------- ndarray[bool] Same length as `comps`. """ …

MacBook Pro M1 セットアップメモ

…tps://raw.githubusercontent.com/Homebrew/install/master/install.sh)" % (echo; echo 'eval "$(/opt/homebrew/bin/brew shellenv)"') >> /Users/azekyohe/.zprofile % eval "$(/opt/homebrew/bin/brew shellenv)" git % brew install git Python pyenv で P…

YCSB を Amazon KeySpaces にベンチマークをかけれるようカスタマイズしたメモ

…タマイズしたメモ。 GitHub - yoheia/YCSB: Yahoo! Cloud Serving Benchmark 前提 前提条件および環境セットアップ手順 Amazon Linux 2023 on EC2 Amazon Linux 2023 on EC2 を使用 OS ユーザーは ec2-user を使用 Python 2.7.18 がインストールされていること パッケージをインストール $ sudo yum -y install git \ bzip2 \ bz…

リモートリポジトリからブランチを指定して git clone する

git

$ git clone -b 3.x-Driver-Compatible https://github.com/aws/aws-sigv4-auth-cassandra-java-driver-plugin.git 参考 リモートから特定のブランチを指定してcloneする方法 git clone -b ブランチ名 https://リポジトリのアドレス リモートから特定のブランチを指定してcloneする - Qiita

Amazon KeySpaces に SigV4 認証でアクセスするサンプル Java アプリを実行する(DataStax Java Driver 3.x 版)

…andra 向け) GitHub - aws/aws-sigv4-auth-cassandra-java-driver-plugin at 3.x-Driver-Compatible 前提 JDK がインストールされていること Amazon Linux 2023 に JDK 8 をインストールする - ablog Apache Maven 3.6.3 以降がインストールされていること Amazon Linux 2023 に Maven をインストールする - ablog EC…

YCSB から Amazon KeySpaces に SigV4 認証でアクセスする

AWS

…r = clusterBuilder.build(); ビルドする $ mvn clean package 参考 Cassandra Java クライアントドライバーを使用した Amazon Keyspaces へのプログラムアクセス - Amazon Keyspaces (Apache Cassandra 向け) GitHub - aws/aws-sigv4-auth-cassandra-java-driver-plugin at 3.x-Driver-Compatible

Amazon KeySpaces に SigV4 認証でアクセスするサンプル Java アプリを実行する(DataStax Java Driver 4.x 版)

AWS

…andra 向け) GitHub - aws-samples/aws-sigv4-auth-cassandra-java-driver-examples: Coding Example for aws-sigv4-auth-cassandra-java-driver-plugin, a SigV4 authentication plugin for use with DataStax java driver and Apache Cassandra. 前提 JDK がインスト…

grep で特定のディレクトリを対象外にしたい場合

log ディレクトリ以外を対象として grep する例。 $ grep -Ri --exclude-dir log cassandra * 参考 grepコマンドで特定のディレクトリを検索対象から除外する | 晴耕雨読

Amazon Linux 2023 に Python 2.7 をインストールする

AWS

…up.py Installing pip from https://bootstrap.pypa.io/pip/2.7/get-pip.py... Installed Python-2.7.18 to /home/ec2-user/.pyenv/versions/2.7.18 参考 pyenv install 2.7.8 command failed: "patch: command not found" · Issue #677 · pyenv/pyenv · GitHub

Amazon Linux 2023 に YCSB をインストールして実行する

AWS

…og YCSB $ git clone https://github.com/brianfrankcooper/YCSB.git $ cd YCSB/ $ mvn clean package Python 2.7 Amazon Linux 2023 に Python 2.7 をインストールする - ablog テーブル作成 cqlsh で接続する $ cqlsh cassandra.ap-northeast-1.amazonaws.com 9142 --ssl KeySpac…

cqlsh から Amazon KeySpaces に接続する(Amazon Linux 2/パスワード版)

…tps://raw.githubusercontent.com/aws-samples/amazon-keyspaces-toolkit/master/cqlsh-expansion/cqlsh_expansion/cqlshrc_template ${HOME}/.cassandra/cqlshrc を編集する [connection] port = 9142 factory = cqlshlib.ssl.ssl_transport_factory [ssl] valida…

cqlsh から Amazon KeySpaces に接続する(パスワード認証版)

…tps://raw.githubusercontent.com/aws-samples/amazon-keyspaces-toolkit/master/cqlsh-expansion/cqlsh_expansion/cqlshrc_template ${HOME}/.cassandra/cqlshrc を編集する [connection] port = 9142 factory = cqlshlib.ssl.ssl_transport_factory [ssl] valida…

cqlsh から Amazon KeySpaces に接続する(Sigv4 認証版)

AWS

…tps://raw.githubusercontent.com/aws-samples/amazon-keyspaces-toolkit/master/cqlsh-expansion/cqlsh_expansion/cqlshrc_template ${HOME}/.cassandra/cqlshrc を編集する [connection] port = 9142 factory = cqlshlib.ssl.ssl_transport_factory [ssl] valida…

Amazon Linux 2023 に pyenv をインストールする

AWS

…y install git \ bzip2 \ bzip2-devel \ gcc \ git \ libffi-devel \ make \ openssl \ openssl-devel \ readline \ readline-devel \ sqlite \ sqlite-devel \ zlib-devel \ xz-devel pyenv をインストール $ curl -L https://raw.githubusercontent.com/pyenv/pyen…

Amazon Linux 2 に cqlsh をインストールする

環境の確認 $ cat /etc/system-release Amazon Linux AMI release 2018.03 $ uname -r 4.14.238-125.422.amzn1.x86_64 インストールする $ pip install cqlsh==4.1.1 $ cqlsh --version cqlsh 4.1.1 参考 How to install cqlsh only on Linux? · GitHub

Amazon KeySpaces の性能(スループット)とリトライ制御などについてのメモ

AWS

…s (for Apache Cassandra) リトライや流量制御はクライアント側(DataStax Java Driver for Apache Cassandra)で実装する必要がある。 GitHub - aws-samples/amazon-keyspaces-java-driver-helpers に推奨設定例があ。 料金(Apache Cassandra 向け Amazon Keyspaces の料金 – アマゾン ウェブ サービス) RI はない - 知らんけど

amazon-keyspaces-java-driver-helpers を使ってみる

AWS

…ファイルを取得 $ git clone https://github.com/aws-samples/amazon-keyspaces-java-driver-helpers.git リージョンを ap-norhtaset-1 に書換え $ find . -type f -regex '.*\.\(conf\|java\).*' -print0|xargs -0 perl -i.org -pe 's/us-east-[0-9]/ap-northeast-1/gi' amazo…

DataStax Java Driver を使って Amazon KeySpaces にアクセスする場合のリトライポリシーの設定方法

…neficial. GitHub - aws-samples/amazon-keyspaces-java-driver-helpers DataStax Javaドライバーは、アプリケーションに対して透過的に冪等リクエストをリトライする。 Amazon Keyspaces で NoHostAvailableException が発生する場合、デフォルトのリトライポリシーをこのリポジトリで提供されているものに置き換えると効果的である。 AmazonKeyspacesRetryP…

Amazon Redshift の SYS_QUERY_HISTORY の elapsed_time は queue_time を含む

検証結果 queue_time は elapsed_time に含まれる 検証手順 手動WLMで Default queue の同時実行数を 1 に設定する。 Cloud-DWB-Derived-from-TPCH の 3TB のデータをロードする。 Cloud-DWB-Derived-from-TPCH の 3TB 用のクエリをシリアル実行する。 $ nohup ./exec_all.sh & 別セッションで以下のクエリを実行する(同時実行数が1なのでキュー待ちになる) d…

Parquet のタイプ(型)について

…te arrays GitHub - apache/parquet-format: Apache Parquet Logical Types Logical Types はプリミティヴな型をどのように decode、interpret するかを定義している。 Logical types are used to extend the types that parquet can be used to store, by specifying how the primitive …

Amazon Redshift で結合キーでKEY分散 vs EVEN 分散

AWS

…t-utils · GitHub 分散キーなし データベース作成 create database tpch_3tb_no_distkey collate case_insensitive isolation level snapshot; テーブル作成・データロード create table customer ( c_custkey int8 not null , c_name varchar(25) not null, c_address varchar(40) not n…

Amazon Redshift で結合キーに関数を使うとソートマージ結合にならないパターン

AWS

Amazon Redshift で結合キーに関数を使うとソートマージ結合にならないパターン。 検証結果 結合キーに collate 関数を使用 クライアントからみた実行時間は25分47秒。 select a.l_linenumber, avg(a.l_quantity) from lineitem a, lineitem b where collate(a.l_orderkey, 'case_insensitive') = collate(b.l_orderkey, 'cas…

Amazon Redshift のソートマージ結合とハッシュ結合を比較する

AWS

ソートマージ結合になる条件 両テーブルの結合キーが分散キーとソートキーに指定されている 結合対象表の未ソート率が20%未満 Merge Join Typically the fastest join, a merge join is used for inner joins and outer joins. The merge join is not used for full joins. This operator is used when joining tables …

Amazon Redshift でソートキーの順番による IO 量の差を見る

AWS

…t-utils · GitHub TPC-H 3TB のデータセットで、lineitem と orders のソートキーを変更したもの(遅いパターン) データベース作成 create database tpch_3tb_other_key collate case_insensitive isolation level snapshot; テーブル作成・データロード create table lineitem ( l_orderkey int8 not null , l_pa…

Amazon Redshift で Cloud Data Warehouse Benchmark Derived from TPC-H を実行してみる

AWS

Amazon Redshift で Cloud Data Warehouse Benchmark Derived from TPC-H を実行してみる。 ue-east-1 に Amazon Redshift クラスターを作成する ra3.4xlarge x 4 node Cloud Data Warehouse Benchmark Derived from TPC-H の 100GB のデータセットをロードする データベースを作成し、分離レベルを SNAPSHOT に設定す…

シンプルでシステマチックな Amazon Redshift クエリチューニング

AWS

…/yoheia · GitHub psql での実行を想定 -- 現在時刻を取得する select getdate(); -- 実行時間の計測を有効にする \timing on -- pager を OFF にする \pset pager off -- Redshift のリザルトキャッシュを無効化する set enable_result_cache_for_session=off; -- 計測対象クエリを実行する \i lineorder_count.sql -- 実行した…

Redshift でテーブルの制約を調べる

AWS

…BLE "profile" CONSTRAINT "profile_id_stream_fkey" FOREIGN KEY (id_stream) REFERENCES stream(id) postgresql — PostgreSQLのテーブルのすべての制約をリストする方法は? 関連 amazon-redshift-utils/v_generate_tbl_ddl.sql at master · awslabs/amazon-redshift-utils · GitHub