ablog

不器用で落着きのない技術者のメモ

2017-06-29から1日間の記事一覧

Parquet-tools で Parquet ファイルのメタデータや中身を見る

Apache Parquet とは 2010年に Google が発表した Dremel 論文の "record shredding and assembly algorithm" の内容をベースに Twitter と Cloudera が開発した列指向データ構造で、現在は Apache プロジェクトになっている。 詳しくは Retty 林田さんのこ…

parquet tools ビルド時に "thrift failed error: /bin/sh: thrift: command not found" で失敗する

手順 parquet tools をビルドする。 $ brew install maven32 $ git clone https://github.com/Parquet/parquet-mr.git $ cd parquet-mr/parquet-tools/ $ mvn clean package -Plocal エラー内容 Downloaded: https://repo.maven.apache.org/maven2/com/googl…