2018-09-01から1ヶ月間の記事一覧
CloudTrail typically delivers log files within 15 minutes of account activity. In addition, CloudTrail publishes log files multiple times an hour, about every five minutes. These log files contain API calls from services in the account tha…
CloudTrail を S3 に保存しておき(設定方法はコチラ)、Athena で集計してみた。 eventsource で集計 select eventsource, count(1) as cnt from default.cloudtrail_logs_cloudtrail_do_not_delete group by eventsource order by cnt desc eventsource co…
Simple answer : presto --execute "select * from foo" --output-format CSV > foo.csv You can use these formats : ALIGNED VERTICAL CSV TSV CSV_HEADER TSV_HEADER How to export result of select statement in prestodb.io - Stack Overflow とすれば…
事象 Hive テーブルを作成しようとすると "FAILED: SemanticException java.lang.IllegalArgumentException: java.net.UnknownHostException: " と怒られる。 hive> CREATE TABLE parquet.amazon_reviews_parquet( marketplace string, customer_id string, …
You can set the variable permanently in bash using the export command. For example, to set the pager to the cat program, execute: export PRESTO_PAGER=cat To disable the pager entirely execute: export PRESTO_PAGER= command line interface - …
データをコピーする $ s3-dist-cp --src s3://amazon-reviews-pds/parquet/ --dest /amazon-reviews-pds/parquet/ $ hadoop fs -ls /amazon-reviews-pds/parquet/|head -10 Found 43 items drwxr-xr-x - hadoop hadoop 0 2018-09-29 20:12 /amazon-reviews-p…
https://registry.opendata.aws/
emr-5.17.0 で /etc/hadoop/conf/core-site.xml を確認すると以下の通り*1。 <property> <name>io.file.buffer.size</name> <value>65536</value> </property> Note that HDFS Readers do not read whole blocks of data at a time, and instead stream the data via a buffered read (64k-128k typically). Th…
Name of interface URI YARN ResourceManager http://master-public-dns-name:8088/ YARN NodeManager http://slave-public-dns-name:8042/ Hadoop HDFS NameNode http://master-public-dns-name:50070/ Hadoop HDFS DataNode http://slave-public-dns-name:…
Apache Impalaパフォーマンスチューニング #dbts2018 from Cloudera Japan 「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR | DevelopersIO Diving into Spark and Parquet Workloads, by Example …
HDFS のブロックはファイルシステムに保存されるため、Linux カーネルのページキャッシュを自然に使っていたが、ユーザー空間から制御できないため、HDFSキャッシング(Hadoop 2.3.0 以降)という機能がある。 HDFS上のデータの読み書きの際には、ディスクか…
Amazon Linux で PyArrow を使ってみたメモ。 準備 PyArrow をインストールする $ sudo pip install --upgrade pip $ sudo yum install python36 python36-virtualenv python36-pip $ sudo python3 -m pip install pandas pyarrow データをコピーする $ mkdi…
Big Data Forensics: Learning Hadoop Investigations作者: Joe Sremack出版社/メーカー: Packt Publishing発売日: 2015/08/24メディア: ペーパーバックこの商品を含むブログを見る HDFS collections through the host operating system Targeted collection…
準備 EMRクラスターを作成する。 EMR のセキュリティグループで ssh でのアクセスを許可する。 マスターノードに ssh でログインする。 $ ssh -i ~/us-east-1.pem hadoop@ec2-**-***-**-**.compute-1.amazonaws.com HDFS にディレクトリを作成して S3 からデ…
事象 ログを確認すると "In order to use this AWS Marketplace product you need to accept terms and subscribe. To do so please visit https://aws.amazon.com/marketplace/pp?sku=aw0evgkw8e5c1q413zgy5pjce" とメッセージが出力されている。 /usr/loca…
macOS Sierra での Cloudera Altus Director 6.0 のログ出力先は以下の通り。 /usr/local/Cellar/cloudera-director-client/6.0.0/libexec/logs /usr/local/Cellar/cloudera-director-server/6.0.0/libexec/logs 以下は調べてみたメモ。 /usr/local/bin/clou…
検証結果 Athena # クエリ 実行時間 I/O量 1 select count(*) from amazon_reviews_parquet 5.6秒 0KB 2 select count(year) from amazon_reviews_parquet 6.63秒 2.58MB 3 select count(review_body) from amazon_reviews_parquet 5.7秒 34.05GB 4 select *…
2018/9/20(木)に開催された db tech showcase 2018 Day 2 のメモ。 GPUとNVMEでPostgreSQLの限界に挑む 〜クエリ処理速度10GB/sを越えて〜 概要 講師: 海外 浩平さん(HeteroDB,Inc - チーフアーキテクト 兼 代表取締役社長) 講師略歴: PostgreSQL開発者…
事象 Cloudera Altus Director でクラスターの作成中に " java.net.ConnectException: Connection refused" と怒られる。 /usr/local/Cellar/cloudera-director-server/6.0.0/libexec/logs/application.log [2018-09-23 02:16:09.087 +0900] ERROR [p-201411…
MacBook Pro (macOS Sierra) に Cloudera Altus Director をインストールして AWS に Hadoop クラスターを作成してみた。 Cloudera Altus Director のインストール Cloudera Director Server をインストールする $ brew tap takabow/cloudera $ brew install…
2018/9/21(金)に開催された db tech showcase 2018 Day 3 のメモ。 Pythonから使える列指向ファイルフォーマット・Parquetを使おう Parquetの例で @shiumachi のツイートが紹介されてる #dbts2018 https://t.co/3TvkfdLd1R— Tatsuo Kawasαki (@kernel023) …
PostgreSQL のクエリーリライトはプラン(実行計画)を生成する前に一定のルールで書き換えられる。 http://ikubo.x0.com/PostgreSQL/pdf/IK07_postgres_041214.pdf リライタのエントリポイントは、pg_rewrite_queries() であり、クエリの木のリストをもらっ…
年に一度のデータベース界の同窓会的なイベント db tech showcase 2018 Day 1 に参加してきた。写真は懇親会でのマグロ解体ショー。 小幡さん、おつかれさまでした! 以下は聴講したセッションのメモ。 顧客理解のためのDWHにおける、ビッグデータ品質マネジ…
AWS Glue で開発エンドポイントを作成して、Zeppelin のノートブックで PySpark を実行して S3にある CSV を加工(行をフィルタ)してS3に書いてみた。S3 から読んだ CSV は Glue の DynamicFrame から SparkSQL DataFrame に変換してフィルタした後、Dynami…
Sparkとは ビッグデータを支える技術―刻々とデータが脈打つ自動化の世界 (WEB+DB PRESS plus)作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2017/09/22メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るP.100 「Apache Spark」も、Ma…
簡単な Java プログラムを作成して JDBC Driver 経由で Athena に接続してみた。CloudTrail を確認すると、JDBC接続しても JDBC Driver に同梱されている AWS SDK for java から API を実行していることが分かる。 準備 Open JDK をインストールする JDBC Dr…
$ sudo yum search java $ sudo yum -y install java-1.7.0-openjdk-devel.x86_64 参考 https://www.yoheim.net/blog.php?q=20180101 追記(2020/5/5): Amazon Linux2 に JDK 8 をインストールした。 $ sudo yum -y install java-1.8.0-openjdk-devel.x86_64
カタログ データベース テーブル 分類子(Classifier) 組み込み分類子 カスタム分類子 ETL ジョブ トリガー 開発エンドポイント セキュリティ ETL Hiveメタストア Hive がテーブルのスキーマやその他の システムメタデータを永続化するため の独立したリレ…
手動でパブリック IP アドレスをインスタンスに関連付けること、また、手動でインスタンスから割り当て解除することはできません。場合によって、パブリック IP アドレスはインスタンスから解放されたり、新しいインスタンスに割り当てられたりします Amazon…
AWS Cloudtrail Logs を AWS Glue と Amazon Quicksight 使って可視化する | Amazon Web Services ブログ を試してみた。 Lambda用ロールの作成 名前: CloudTrailWatchLogs インラインポリシー { "Version": "2012-10-17", "Statement": [ { "Effect": "Allo…