2018/9/21(金)に開催された db tech showcase 2018 Day 3 のメモ。
Pythonから使える列指向ファイルフォーマット・Parquetを使おう
Parquetの例で @shiumachi のツイートが紹介されてる #dbts2018 https://t.co/3TvkfdLd1R
— Tatsuo Kawasαki (@kernel023) 2018年9月21日
概要
- 講師: 玉川 竜司さん(Sky株式会社)
- 講師略歴: 本職はセキュリティソフトの開発。Pythonは2000年くらいから使用し始めている。db tech showcaseでは、MongoDBの人としてデビュー。本業の傍ら、オライリージャパンから「SRE サイトリライアビリティエンジニアリング」「初めてのSpark」「ヘルシープログラマ」「Google BigQuery」「Sparkによる実践データ解析」など技術翻訳書を多数発刊。
- 内容: 大量のデータをCSVで保存するのは非効率です。そのデータを分析に利用するなら、列指向のフォーマットでデータを保存することで、保存に必要なストレージ容量や処理に必要なCPUパワーを大幅に削減できます。本セッションでは、Pythonから使える列指向のファイルフォーマットであるParquetについて、実例と共に説明します。
スライド
- To be uploaded
メモ
- 「指定したフィールドだけを読み取ることによるI/O削減」はファイルシステムからブロック単位で読むという意味だろうか?同じファイルに複数列の値が入っているが。
- 主にfastparquetとPyArrowの2つのライブラリがある。Hadoop エコシステムの親和性では PyArrow のほうが優れているかも。
parquetのpredicate pushdownの話。やはりこれがparquetの価値だよね #dbts2018
— Sho Shimauchi (@shiumachi) 2018年9月21日
parquet で列指定するとI/O量が減るのは、例えばファイルサイズが256MBだとしてメタデータを元にファイルシステムなどのブロック単位で位置指定して読んでるんだろうか。システムコールトレース取って調べてみたい。AWSはCloudTrailで。#dbts2018
— yohei.az (@yoheia) 2018年9月21日
質疑応答
- Parquet は Date 型が使えないが、それも考慮に入れた上で、ORC と Parquet でどちらが良いか。
- メモリ空間を効率的に利用できてると思うが数値的に調べたことがありますか?
- そこまでは調べてない
Deep Dive on the Amazon Aurora PostgreSQL-compatible Edition
概要
- 講師: 江川 大地さん(アマゾン ウェブ サービス ジャパン 株式会社 - 技術統括本部 エンタープライズソリューション部 ソリューションアーキテクト)
- 講師略歴: ソリューションアーキテクトとして、Amazon Web Services (AWS)を利用するお客様へ技術支援を行なっています。クラウドのメリットを活かしたシステムが増えるよう、日々活動しています。
- 概要: Amazon Auroraは、クラウド時代にAmazonが再設計したRDBMSです。本セッションでは昨年リリースされたPostgreSQLと互換性を持つエンジンについて、そのアーキテクチャや特徴をご紹介します。
スライド
- To be uploaded
MVCCにおけるw-w/w-r/r-wのあり方とcommit orderのあり方の再検討〜Sundial: Harmonizing Concurrency Control and Caching in a Distributed OLTP Database Management Systemを題材に
概要
- 講師: 神林 飛志(株式会社ノーチラステクノロジーズ - 代表取締役会長)
- 講師略歴: 2011年〜ノーチラステクノロジーズ代表取締役 Hadoopでの分散処理フレームワークAsakusaの開発・導入に従事 各社の原価計算システムの構築にも従事
- 内容: サーバアーキテクチャの変更は、そのままデータベース・アーキテクチャへの否が応でもの変革を促します。特に、MVCCはP. Bernstein以降の理論的な枠組みのまま、現在のOCCの流れを無理矢理合流させたところもあり、その理論的な難易度と実装のリソース逼迫から一度見送られた風潮がありました。しかし、近年のサーバアーキテクチャの大幅な高進はMVCCに必要なリソースを提供できるだけの状態になり、MVCCは再検討/再実装の中で無視できないうねりになっています。他方、その理論的な難易度から「見てみないふりをした実装」も散見されるようになり、ユーザサイドではややもすれば「anomalyだだ漏れのバグというかこれは仕様ですDB」に直面することになります。今回はこのような状況をうまく捌くために、避けることのできないMVCCの理論的な枠組みについて、その内容を丁寧に後追いし、今後のあり方について模索を行う。
スライド
- 非公開
Amazon Aurora - Latest innovations and updates behind Aurora’s torrid growth
概要
- 講師: 星野 豊さん(アマゾン ウェブ サービス ジャパン 株式会社 - Aurora/RDS Specialist SA)
- 講師略歴: Amazon AuroraやAmazon Relational Database Serviceのパフォーマンス・チューニングや新機能の活用など技術的な支援を行っています。新技術・ハイボリュームなトラフィックを扱うシステムが大好きです。
- 内容: システムを構築する上で切り離すことはできないデータベース。 本セッションでは、Amazon Aurora がリリースされてから行ってきた機能追加や安定性向上に対する取り組みと、その内部アーキテクチャをご紹介し、実環境で運用する際に注意する点などの Tips もご紹介します。
スライド
- to be uploaded
メモ
- backtrack は最大72時間前まで戻せる。今どこにいるかの LSN を変えるだけなので戻しが速い。実データを書き換えているわけではない。Actual Backtrack Window で barck track できる実際の時間を確認できる。
- Aurora Serverless は Ci/CD などテスト環境に適している。25〜30秒でスケールアウト/スケールダウンする。NLBの後ろにインスタンスがある。Warm Pool からインスタンスを取るのでスケールアウトが速い。
- Performance insights はAPIでデータ取得することもできる。過去分のデータも参照できる。
- 本日 Parallel Query が Aurora が利用できる全リージョンで GA した。EXPLAIN で実行計画が Parallel Query になっているかどうか確認できる。
- Multi Master はWriter を複数立てておいて1つの Writer だけ更新用途で使うと F/O が速い。後は複数の Writer に別のページを更新する(conflictしない)処理を流してスループットを上げる。
Platinumホルダーが選ぶ! 現場で役立つOracle Database18c新機能
概要
- 講師: 五十嵐 一俊(株式会社コーソル/Japan Oracle User Group - Oracleサービスグループ)
- 講師略歴: コーソル入社後、Oracle製品のサポート/コンサルティング業務を経て、Oracle ExadataのDBA業務に従事する。自社技術力向上にも取り組んでおり、その成果として3年連続ORACLE MASTER Platinum取得者数No.1を達成した。
- 内容: Oracle Databaseを日々愛用(酷使)するコーソルのORACLE MASTER Platinum 12c保持エンジニアが、非常に多くの18c新機能から厳選した、必ず知っておくべき新機能、地味ながら絶対に現場の役に立つ新機能をご紹介します。
スライド
- to be uploaded