ablog

不器用で落着きのない技術者のメモ

Spark Meetup Tokyo #2 (Spark+AI Summit EU 2019) に参加してきた

Spark

f:id:yohei-a:20191201004037j:plain
Spark Meetup Tokyo #2 (Spark+AI Summit EU 2019) - connpass に参加してきた。今度は Spark について、どうでもいことに Dive deep して話してみるのも面白そう。

Spark+AI Summit Europe 2019 セッションハイライト

by 萩原悠二/Yuji Hagiwara and 酒井遼平/Ryohei Sakai @ NTT Data

Spark+AI Summit Europe 2019 セッションハイライト（Spark Meetup Tokyo #2 講演資料） from NTT DATA Technology & Innovation

Koalasの開発状況 (Updates)

by Takuya Ueshin (Twitter:@ueshin) @ Databricks
Koalas の開発状況の紹介。Koalas は Apache Spark 上に pandas DataFrame API を実装し, データサイエンティストのビッグデータに対する生産性向上を目的としたプロジェクト。 pandas (tests, smaller datasets) と Spark (distributed datasets) の両方で動く単一のコードベースとできることを目指している。

Koalas: Unifying Spark and pandas APIs from Takuya UESHIN

Quick Overview of Upcoming Spark 3.0 + α（SAIS Europe 2019で個人的に興味のあった発表紹介）

by Takeshi Yamamuro (Twitter:@maropu) @ NTT
Spark 3.0 Preview Release の Adaptive Execution in Spark SQL、Dynamic Partition Pruning、New Option in EXPLAIN、Dataframe Cogroup、Join Strategy Hints、PostgreSQL Dialect Support の紹介、Facebook の Hive から Spark への移行や Script Transformation の紹介など。

Quick Overview of Upcoming Spark 3.0 + α from Takeshi Yamamuro

Project Hydrogenの最新情報

Kazuaki Ishizaki (Twitter:@kiszk) @ IBM Research - Tokyo
SparkとAIフレームワークを統合するHydrogenプロジェクトの紹介。想定しているユースケース、分散学習、推論 – 実際の使い方、使われ方 – 最近の更新について。

SparkTokyo2019NovIshizaki from Kazuaki Ishizaki

Delta アーキテクチャ

by Paulo Gutierrez (Twitter:tokyodataguy) @ Databricks
Spark用のストレージレイヤ「Delta Lake」を利用したDelta アーキテクチャの紹介。Delta Lake は ACIDトランザクション（テーブル単位）、タイムトラベル（任意の時点の過去データを参照可能）、スキーマバリデーション（スキーマ変更も可能）などの機能を提供する。Lambda->Kappa->Delta というアーキテクチャの変遷。

Delta Architecture from Paulo Gutierrez

LT1: Koalasのココが良いよね

by Harutaka Kawamura (Twitter:harupy) @ ARISE
Koalas の特徴や良いところの紹介。

docs.google.com