ablog

不器用で落着きのない技術者のメモ

2018-09-01から1ヶ月間の記事一覧

アクティビティ発生後 CloudTrail でログ出力されるまでのタイムラグ

AWS

CloudTrail typically delivers log files within 15 minutes of account activity. In addition, CloudTrail publishes log files multiple times an hour, about every five minutes. These log files contain API calls from services in the account tha…

Athena で CloudTrail のイベントを集計する

AWS

CloudTrail を S3 に保存しておき(設定方法はコチラ)、Athena で集計してみた。 eventsource で集計 select eventsource, count(1) as cnt from default.cloudtrail_logs_cloudtrail_do_not_delete group by eventsource order by cnt desc eventsource co…

Prestoで結果セットをファイルに出力する

Simple answer : presto --execute "select * from foo" --output-format CSV > foo.csv You can use these formats : ALIGNED VERTICAL CSV TSV CSV_HEADER TSV_HEADER How to export result of select statement in prestodb.io - Stack Overflow とすれば…

Hive テーブル作成時に "java.lang.IllegalArgumentException: java.net.UnknownHostException" と怒られる

事象 Hive テーブルを作成しようとすると "FAILED: SemanticException java.lang.IllegalArgumentException: java.net.UnknownHostException: " と怒られる。 hive> CREATE TABLE parquet.amazon_reviews_parquet( marketplace string, customer_id string, …

presto-cli で pager を off にする

You can set the variable permanently in bash using the export command. For example, to set the pager to the cat program, execute: export PRESTO_PAGER=cat To disable the pager entirely execute: export PRESTO_PAGER= command line interface - …

Prestoでparquetファイルにクエリをかける

データをコピーする $ s3-dist-cp --src s3://amazon-reviews-pds/parquet/ --dest /amazon-reviews-pds/parquet/ $ hadoop fs -ls /amazon-reviews-pds/parquet/|head -10 Found 43 items drwxr-xr-x - hadoop hadoop 0 2018-09-29 20:12 /amazon-reviews-p…

パッブリックデータセット

https://registry.opendata.aws/

HDFS の I/O サイズ

emr-5.17.0 で /etc/hadoop/conf/core-site.xml を確認すると以下の通り*1。 <property> <name>io.file.buffer.size</name> <value>65536</value> </property> Note that HDFS Readers do not read whole blocks of data at a time, and instead stream the data via a buffered read (64k-128k typically). Th…

EMR の Web インターフェース

AWS

Name of interface URI YARN ResourceManager http://master-public-dns-name:8088/ YARN NodeManager http://slave-public-dns-name:8042/ Hadoop HDFS NameNode http://master-public-dns-name:50070/ Hadoop HDFS DataNode http://slave-public-dns-name:…

Parquet についてのメモ

Apache Impalaパフォーマンスチューニング #dbts2018 from Cloudera Japan 「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR | DevelopersIO Diving into Spark and Parquet Workloads, by Example …

HDFS キャッシング

HDFS のブロックはファイルシステムに保存されるため、Linux カーネルのページキャッシュを自然に使っていたが、ユーザー空間から制御できないため、HDFSキャッシング(Hadoop 2.3.0 以降)という機能がある。 HDFS上のデータの読み書きの際には、ディスクか…

Amazon Linux で PyArrow を使ってみる

Amazon Linux で PyArrow を使ってみたメモ。 準備 PyArrow をインストールする $ sudo pip install --upgrade pip $ sudo yum install python36 python36-virtualenv python36-pip $ sudo python3 -m pip install pandas pyarrow データをコピーする $ mkdi…

HDFS の下の OS レイヤーを覗いてみる

Big Data Forensics: Learning Hadoop Investigations作者: Joe Sremack出版社/メーカー: Packt Publishing発売日: 2015/08/24メディア: ペーパーバックこの商品を含むブログを見る HDFS collections through the host operating system Targeted collection…

PySpark から Parquet ファイル on HFDS にクエリを実行してみる

AWS

準備 EMRクラスターを作成する。 EMR のセキュリティグループで ssh でのアクセスを許可する。 マスターノードに ssh でログインする。 $ ssh -i ~/us-east-1.pem hadoop@ec2-**-***-**-**.compute-1.amazonaws.com HDFS にディレクトリを作成して S3 からデ…

Cloudera Altus Director でクラスターの作成に失敗する

事象 ログを確認すると "In order to use this AWS Marketplace product you need to accept terms and subscribe. To do so please visit https://aws.amazon.com/marketplace/pp?sku=aw0evgkw8e5c1q413zgy5pjce" とメッセージが出力されている。 /usr/loca…

Cloudera Altus Director のログの場所

macOS Sierra での Cloudera Altus Director 6.0 のログ出力先は以下の通り。 /usr/local/Cellar/cloudera-director-client/6.0.0/libexec/logs /usr/local/Cellar/cloudera-director-server/6.0.0/libexec/logs 以下は調べてみたメモ。 /usr/local/bin/clou…

Parquet

AWS

検証結果 Athena # クエリ 実行時間 I/O量 1 select count(*) from amazon_reviews_parquet 5.6秒 0KB 2 select count(year) from amazon_reviews_parquet 6.63秒 2.58MB 3 select count(review_body) from amazon_reviews_parquet 5.7秒 34.05GB 4 select *…

db tech showcase 2018 Day 2

2018/9/20(木)に開催された db tech showcase 2018 Day 2 のメモ。 GPUとNVMEでPostgreSQLの限界に挑む 〜クエリ処理速度10GB/sを越えて〜 概要 講師: 海外 浩平さん(HeteroDB,Inc - チーフアーキテクト 兼 代表取締役社長) 講師略歴: PostgreSQL開発者…

Cloudera Altus Director でクラスターの作成中に " java.net.ConnectException: Connection refused" と怒られる

事象 Cloudera Altus Director でクラスターの作成中に " java.net.ConnectException: Connection refused" と怒られる。 /usr/local/Cellar/cloudera-director-server/6.0.0/libexec/logs/application.log [2018-09-23 02:16:09.087 +0900] ERROR [p-201411…

Cloudera Altus Director を使ってみる

MacBook Pro (macOS Sierra) に Cloudera Altus Director をインストールして AWS に Hadoop クラスターを作成してみた。 Cloudera Altus Director のインストール Cloudera Director Server をインストールする $ brew tap takabow/cloudera $ brew install…

db tech showcase 2018 Day 3

2018/9/21(金)に開催された db tech showcase 2018 Day 3 のメモ。 Pythonから使える列指向ファイルフォーマット・Parquetを使おう Parquetの例で @shiumachi のツイートが紹介されてる #dbts2018 https://t.co/3TvkfdLd1R— Tatsuo Kawasαki (@kernel023) …

PostgreSQL のクエリーリライトはコストベースではなく一定のルールでリライトされる

PostgreSQL のクエリーリライトはプラン(実行計画)を生成する前に一定のルールで書き換えられる。 http://ikubo.x0.com/PostgreSQL/pdf/IK07_postgres_041214.pdf リライタのエントリポイントは、pg_rewrite_queries() であり、クエリの木のリストをもらっ…

db tech showcase 2018 Day 1

DB

年に一度のデータベース界の同窓会的なイベント db tech showcase 2018 Day 1 に参加してきた。写真は懇親会でのマグロ解体ショー。 小幡さん、おつかれさまでした! 以下は聴講したセッションのメモ。 顧客理解のためのDWHにおける、ビッグデータ品質マネジ…

AWS Glue の Zeppelin ノートブックで PySpark を実行して CSV を加工してみた

AWS

AWS Glue で開発エンドポイントを作成して、Zeppelin のノートブックで PySpark を実行して S3にある CSV を加工(行をフィルタ)してS3に書いてみた。S3 から読んだ CSV は Glue の DynamicFrame から SparkSQL DataFrame に変換してフィルタした後、Dynami…

Spark の RDD、DataFrame、DAG と Glue の DynamicFrame などについて

AWS

Sparkとは ビッグデータを支える技術―刻々とデータが脈打つ自動化の世界 (WEB+DB PRESS plus)作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2017/09/22メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るP.100 「Apache Spark」も、Ma…

Athena に JDBC Driver 経由で接続してクエリを発行する

AWS

簡単な Java プログラムを作成して JDBC Driver 経由で Athena に接続してみた。CloudTrail を確認すると、JDBC接続しても JDBC Driver に同梱されている AWS SDK for java から API を実行していることが分かる。 準備 Open JDK をインストールする JDBC Dr…

Amazon Linux に OpenJDK をインストールする

AWS

$ sudo yum search java $ sudo yum -y install java-1.7.0-openjdk-devel.x86_64 参考 https://www.yoheim.net/blog.php?q=20180101 追記(2020/5/5): Amazon Linux2 に JDK 8 をインストールした。 $ sudo yum -y install java-1.8.0-openjdk-devel.x86_64

AWS Glue とは

AWS

カタログ データベース テーブル 分類子(Classifier) 組み込み分類子 カスタム分類子 ETL ジョブ トリガー 開発エンドポイント セキュリティ ETL Hiveメタストア Hive がテーブルのスキーマやその他の システムメタデータを永続化するため の独立したリレ…

EC2インスタンス作成後に自動割り当てパブリックIPを割り当てることはできない

AWS

手動でパブリック IP アドレスをインスタンスに関連付けること、また、手動でインスタンスから割り当て解除することはできません。場合によって、パブリック IP アドレスはインスタンスから解放されたり、新しいインスタンスに割り当てられたりします Amazon…

「AWS Cloudtrail Logs を AWS Glue と Amazon Quicksight 使って可視化する」をやってみた

AWS

AWS Cloudtrail Logs を AWS Glue と Amazon Quicksight 使って可視化する | Amazon Web Services ブログ を試してみた。 Lambda用ロールの作成 名前: CloudTrailWatchLogs インラインポリシー { "Version": "2012-10-17", "Statement": [ { "Effect": "Allo…