ablog

不器用で落着きのない技術者のメモ

Big Data Architecture Pattern (Polyglot/Lambda/Kappa)

仕事の都合で残念ながら聞けなかったが、db tech showcase 2017 での諸橋さんのセッション「polyglot data acces」の内容を polyglot data access - JPOUG in 15 minutes at db tech showcase Tokyo 2017 - wmo6hash::blog で拝見した。とても勉強になる内容だったのでメモ。


An Enterprise Architect’s Guide to Big Data Reference Architecture Overview より

Big Data Architecture Patterns

Polyglot
  • 透過的にデータベースから外部のデータソースにアクセスする構成
Lambda
  • Twitter(当時) の Nathan 氏が挙げたアーキテクチャ*1
  • バッチレイヤとリアルタイムレイヤを並行して実行し、結果をマージして表示する構成
Kappa
  • LinkedIn(当時) の Jay 氏が挙げたアーキテクチャ*2
  • Lambda Architectureの複雑性に対して問題を提起
  • ストリーム処理システムでバッチと同様の 精度を保証する対処をして構成をシンプル化 した構成


今回の dbts で佐藤さんが紹介していた Apache Kudu*3 や Big Query の Stream Insert は Lambda アーキテクチャのような複雑が不要でシンプルだと思う。