ablog

不器用で落着きのない技術者のメモ

Hadoop

メモ

Apache Impalaパフォーマンスチューニング #dbts2018 from Cloudera Japan Effective Data Lakes - ユースケースとデザインパターン from Noritaka Sekiyama Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud from Noritaka Sekiyama Apac…

Parquet ファイルに Presto でクエリ時の Column Projection について調べた

確認したかったこと Parquet ファイルに対して Presto で select count(year) のように特定カラムのみ参照するとそのカラムのみをストレージから読んでいる。 select count(*) すると Parquet ファイルのフッターのメタデータ(Row group の num rows)のみ…

Prestoで結果セットをファイルに出力する

Simple answer : presto --execute "select * from foo" --output-format CSV > foo.csv You can use these formats : ALIGNED VERTICAL CSV TSV CSV_HEADER TSV_HEADER How to export result of select statement in prestodb.io - Stack Overflow とすれば…

Hive テーブル作成時に "java.lang.IllegalArgumentException: java.net.UnknownHostException" と怒られる

事象 Hive テーブルを作成しようとすると "FAILED: SemanticException java.lang.IllegalArgumentException: java.net.UnknownHostException: " と怒られる。 hive> CREATE TABLE parquet.amazon_reviews_parquet( marketplace string, customer_id string, …

presto-cli で pager を off にする

You can set the variable permanently in bash using the export command. For example, to set the pager to the cat program, execute: export PRESTO_PAGER=cat To disable the pager entirely execute: export PRESTO_PAGER= command line interface - …

Prestoでparquetファイルにクエリをかける

データをコピーする $ s3-dist-cp --src s3://amazon-reviews-pds/parquet/ --dest /amazon-reviews-pds/parquet/ $ hadoop fs -ls /amazon-reviews-pds/parquet/|head -10 Found 43 items drwxr-xr-x - hadoop hadoop 0 2018-09-29 20:12 /amazon-reviews-p…

HDFS の I/O サイズ

emr-5.17.0 で /etc/hadoop/conf/core-site.xml を確認すると以下の通り*1。 <property> <name>io.file.buffer.size</name> <value>65536</value> </property> Note that HDFS Readers do not read whole blocks of data at a time, and instead stream the data via a buffered read (64k-128k typically). Th…

HDFS キャッシング

HDFS のブロックはファイルシステムに保存されるため、Linux カーネルのページキャッシュを自然に使っていたが、ユーザー空間から制御できないため、HDFSキャッシング(Hadoop 2.3.0 以降)という機能がある。 HDFS上のデータの読み書きの際には、ディスクか…

HDFS の下の OS レイヤーを覗いてみる

Big Data Forensics: Learning Hadoop Investigations作者: Joe Sremack出版社/メーカー: Packt Publishing発売日: 2015/08/24メディア: ペーパーバックこの商品を含むブログを見る HDFS collections through the host operating system Targeted collection…

Cloudera Altus Director でクラスターの作成に失敗する

事象 ログを確認すると "In order to use this AWS Marketplace product you need to accept terms and subscribe. To do so please visit https://aws.amazon.com/marketplace/pp?sku=aw0evgkw8e5c1q413zgy5pjce" とメッセージが出力されている。 /usr/loca…

Cloudera Altus Director のログの場所

macOS Sierra での Cloudera Altus Director 6.0 のログ出力先は以下の通り。 /usr/local/Cellar/cloudera-director-client/6.0.0/libexec/logs /usr/local/Cellar/cloudera-director-server/6.0.0/libexec/logs 以下は調べてみたメモ。 /usr/local/bin/clou…

Cloudera Altus Director を使ってみる

MacBook Pro (macOS Sierra) に Cloudera Altus Director をインストールして AWS に Hadoop クラスターを作成してみた。 Cloudera Altus Director のインストール Cloudera Director Server をインストールする $ brew tap takabow/cloudera $ brew install…

Spark SQL on EMR に JDBC 接続する

Spark SQL on EMR に JDBC 接続したメモ。 EMRクラスタを作成する Release label:emr-5.12.0 Hadoop distribution:Amazon 2.8.3 Applications:Hive 2.3.2, Pig 0.17.0, Hue 4.1.0, Zeppelin 0.7.3, Spark 2.2.1, Presto 0.188 ssh でマスターノードにログイ…