ablog

不器用で落着きのない技術者のメモ

2018-09-23から1日間の記事一覧

Amazon Linux で PyArrow を使ってみる

Amazon Linux で PyArrow を使ってみたメモ。 準備 PyArrow をインストールする $ sudo pip install --upgrade pip $ sudo yum install python36 python36-virtualenv python36-pip $ sudo python3 -m pip install pandas pyarrow データをコピーする $ mkdi…

HDFS の下の OS レイヤーを覗いてみる

Big Data Forensics: Learning Hadoop Investigations作者: Joe Sremack出版社/メーカー: Packt Publishing発売日: 2015/08/24メディア: ペーパーバックこの商品を含むブログを見る HDFS collections through the host operating system Targeted collection…

PySpark から Parquet ファイル on HFDS にクエリを実行してみる

AWS

準備 EMRクラスターを作成する。 EMR のセキュリティグループで ssh でのアクセスを許可する。 マスターノードに ssh でログインする。 $ ssh -i ~/us-east-1.pem hadoop@ec2-**-***-**-**.compute-1.amazonaws.com HDFS にディレクトリを作成して S3 からデ…