Spark Meetup Tokyo #2 (Spark+AI Summit EU 2019) - connpass に参加してきた。今度は Spark について、どうでもいことに Dive deep して話してみるのも面白そう。
Spark+AI Summit Europe 2019 セッションハイライト
- by 萩原 悠二/Yuji Hagiwara and 酒井 遼平/Ryohei Sakai @ NTT Data
Koalasの開発状況 (Updates)
- by Takuya Ueshin (Twitter:@ueshin) @ Databricks
- Koalas の開発状況の紹介。Koalas は Apache Spark 上に pandas DataFrame API を実装し, データサイエンティストのビッグデータに対する生産性向上を目的としたプロジェクト。 pandas (tests, smaller datasets) と Spark (distributed datasets) の両方で動く単一のコードベースとできることを目指している。
Quick Overview of Upcoming Spark 3.0 + α(SAIS Europe 2019で個人的に興味のあった発表紹介)
- by Takeshi Yamamuro (Twitter:@maropu) @ NTT
- Spark 3.0 Preview Release の Adaptive Execution in Spark SQL、Dynamic Partition Pruning、New Option in EXPLAIN、Dataframe Cogroup、Join Strategy Hints、PostgreSQL Dialect Support の紹介、Facebook の Hive から Spark への移行や Script Transformation の紹介など。
Project Hydrogenの最新情報
- Kazuaki Ishizaki (Twitter:@kiszk) @ IBM Research - Tokyo
- SparkとAIフレームワークを統合するHydrogenプロジェクトの紹介。想定しているユースケース、分散学習、推論 – 実際の使い方、使われ方 – 最近の更新について。
Delta アーキテクチャ
- by Paulo Gutierrez (Twitter:tokyodataguy) @ Databricks
- Spark用のストレージレイヤ「Delta Lake」を利用したDelta アーキテクチャの紹介。Delta Lake は ACIDトランザクション(テーブル単位)、タイムトラベル(任意の時点の過去データを参照可能)、スキーマバリデーション(スキーマ変更も可能)などの機能を提供する。Lambda->Kappa->Delta というアーキテクチャの変遷。