Hadoop
Apache Impalaパフォーマンスチューニング #dbts2018 from Cloudera Japan Effective Data Lakes - ユースケースとデザインパターン from Noritaka Sekiyama Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud from Noritaka Sekiyama Apac…
確認したかったこと Parquet ファイルに対して Presto で select count(year) のように特定カラムのみ参照するとそのカラムのみをストレージから読んでいる。 select count(*) すると Parquet ファイルのフッターのメタデータ(Row group の num rows)のみ…
Simple answer : presto --execute "select * from foo" --output-format CSV > foo.csv You can use these formats : ALIGNED VERTICAL CSV TSV CSV_HEADER TSV_HEADER How to export result of select statement in prestodb.io - Stack Overflow とすれば…
事象 Hive テーブルを作成しようとすると "FAILED: SemanticException java.lang.IllegalArgumentException: java.net.UnknownHostException: " と怒られる。 hive> CREATE TABLE parquet.amazon_reviews_parquet( marketplace string, customer_id string, …
You can set the variable permanently in bash using the export command. For example, to set the pager to the cat program, execute: export PRESTO_PAGER=cat To disable the pager entirely execute: export PRESTO_PAGER= command line interface - …
データをコピーする $ s3-dist-cp --src s3://amazon-reviews-pds/parquet/ --dest /amazon-reviews-pds/parquet/ $ hadoop fs -ls /amazon-reviews-pds/parquet/|head -10 Found 43 items drwxr-xr-x - hadoop hadoop 0 2018-09-29 20:12 /amazon-reviews-p…
emr-5.17.0 で /etc/hadoop/conf/core-site.xml を確認すると以下の通り*1。 <property> <name>io.file.buffer.size</name> <value>65536</value> </property> Note that HDFS Readers do not read whole blocks of data at a time, and instead stream the data via a buffered read (64k-128k typically). Th…
HDFS のブロックはファイルシステムに保存されるため、Linux カーネルのページキャッシュを自然に使っていたが、ユーザー空間から制御できないため、HDFSキャッシング(Hadoop 2.3.0 以降)という機能がある。 HDFS上のデータの読み書きの際には、ディスクか…
Big Data Forensics: Learning Hadoop Investigations作者: Joe Sremack出版社/メーカー: Packt Publishing発売日: 2015/08/24メディア: ペーパーバックこの商品を含むブログを見る HDFS collections through the host operating system Targeted collection…
事象 ログを確認すると "In order to use this AWS Marketplace product you need to accept terms and subscribe. To do so please visit https://aws.amazon.com/marketplace/pp?sku=aw0evgkw8e5c1q413zgy5pjce" とメッセージが出力されている。 /usr/loca…
macOS Sierra での Cloudera Altus Director 6.0 のログ出力先は以下の通り。 /usr/local/Cellar/cloudera-director-client/6.0.0/libexec/logs /usr/local/Cellar/cloudera-director-server/6.0.0/libexec/logs 以下は調べてみたメモ。 /usr/local/bin/clou…
MacBook Pro (macOS Sierra) に Cloudera Altus Director をインストールして AWS に Hadoop クラスターを作成してみた。 Cloudera Altus Director のインストール Cloudera Director Server をインストールする $ brew tap takabow/cloudera $ brew install…
Spark SQL on EMR に JDBC 接続したメモ。 EMRクラスタを作成する Release label:emr-5.12.0 Hadoop distribution:Amazon 2.8.3 Applications:Hive 2.3.2, Pig 0.17.0, Hue 4.1.0, Zeppelin 0.7.3, Spark 2.2.1, Presto 0.188 ssh でマスターノードにログイ…