ablog

不器用で落着きのない技術者のメモ

Amazon Redshift とは

Amazon Redshift は高速で完全マネージド型、ペタバイト規模のデータウェアハウスです。既存のビジネスインテリジェンスツールを使用して、すべてのデータをシンプルかつコスト効果の高い方法で分析できます。

Amazon Redshift(高速でシンプルなデータウェアハウス)|AWS

Amazon Redshift, a hosted data warehouse product, forms part of the larger cloud-computing platform Amazon Web Services. It is built on top of technology from the massive parallel processing (MPP) data-warehouse company ParAccel (later acquired by Actian).[1] Redshift differs from Amazon's other hosted database offering, Amazon RDS, in its ability to handle analytics workloads on big data data sets stored by a column-oriented DBMS principle. To be able to handle large scale data sets and database migrations[2] Amazon makes use of massive parallel processing.

Amazon Redshift is based on PostgreSQL 8.0.2. PostgreSQL 9.x includes features not supported in Amazon Redshift. In addition, there are important differences between Amazon Redshift SQL and PostgreSQL 8.0.2.[3] PostgreSQL 8.0.2 was released in 2005 and PostgreSQL has seen massive development since then. Many PostrgreSQL features are not supported[4].

Amazon Redshift - Wikipedia

登壇者の方の話は、このビデオの6:00頃から始まり、Redshiftの元になった製品、Actian Matrixの話は11:45頃あたりになります。表示スライドも下記のブログに掲載されてます。旧製品名は「ParAccel」。
(中略)
NetezzaとRedshiftは、同じエンジニアにより生み出された兄弟だというのです。なんと!そういうことでしたか。
(中略)
Redshiftの名前の由来について調べてみました。
QuoraというQAサイトに投稿がありまして、Redshiftの名前の由来を質問しているのですが、回答が2件ありました。Redshiftの日本語訳は、天文学用語の「赤方偏移」(せきほうへんい)になります。 「赤方偏移」は遠方の銀河からの光が、可視光で言うと赤い方にずれる現象を指します。 これは宇宙が膨張しているために起こると考えられます。 Quotaでの回答の1つは、 AWSは「データウェアハウスの爆発」の意味を込めて「Redshift」の名前を付けたのでは?という回答でした。みなさんはどう思われますか?

Redshiftのルーツを紐解く | DevelopersIO

『Matrix』と『Netezza』の開発者はアメリカ人のBarry Zane (バリー・ゼイン) 氏。アメリカトップクラスのカーネギーメロン大学を卒業後、Prime Computer社へ入社。1983年にApplix社に移り、CTOに就任、13年間在籍しました。(Applix社は2007年にCognos社により買収。)

その後、2000年にNetezza社を立ち上げ、PostgeSQLをベースに開発したデータベースアプライアンス製品である『Netezza』を開発しました。『Netezza』は、「エンタープライズ向けDWHアプライアンスとは」を再考して開発され、革新的なアーキテクチャ、サーバー、データベース、ストレージをひとつのマシンに統合することで、大量データの分析を可能にしました。
(中略)
その後、『Netezza』では出来なかった「カラム型かつ、コモディティハードウェアで動作するスケールアウト型のデータベース」を作るため、ParAccel社を立ち上げ、『ParAccel MPP』というデータベースを作りました。(この記事によると、『ParAccel MPP』は『Amazon Redshift』の元となったデータベースとのことです。すごい!) そしてBarry Zane氏、現在はSparql Cityという会社を立ち上げ、Hadoopをベースにしたスケーラブルかつコモディティハードウェアで動作するグラフ分析エンジンを開発しているようです。

Barry Zane氏: Netezzaを作り, ParAccel MPP (Matrix)を作り, 今はグラフ分析エンジンを手がける ビッグデータ分析向けデータベースのスーパーアーキテクト | Insight Technology, Inc.

The company is lead by CEO Barry Zane, former founder and CTO of big data analytics company ParAccel (acquired by Actian in April 2013, creators of the core technology underlying Amazon Redshift). He has a long history in the domains of data management, storage and business intelligence, previously spending 5 years as Cofounder and VP of Architecture at Netezza (acquired by IBM in 2010) and 17 years before that as CTO of Applix (acquired by Cognos in 2007).

Serial Entrepreneur Barry Zane Raises $10M for SPARQL City, Helping Data Scientists & Analysts Manipulate Big Data [Updated] - Mattermark

Back in July, Data Warehouse vendor ParAccel announced it had a new investor: Amazon. Then yesterday, Amazon announced its new cloud Data Warehouse as a service offering: Redshift. And, none too surprisingly, it turns out that Redshift is based on ParAccel’s technology. I spoke to Rich Ghiossi and John Santaferraro, ParAccel’s VPs of Marketing and Solutions/Product Marketing, respectively, who explained some of the subtleties to me and helped me think through some others.

Amazon Redshift: ParAccel in, costly appliances out | ZDNet

Actian Matrix (Formely ParAccel)  - Architecture and SQL (Tera-Tom Genius Series Book 17) (English Edition)

Actian Matrix (Formely ParAccel) - Architecture and SQL (Tera-Tom Genius Series Book 17) (English Edition)

アーキテクチャ

特殊なハードウェアで高速化するのではなく、予め分析に適したデータ構造で格納することで、問合せ時に最低限の仕事量で並列処理することで速くする戦略をとっている。
列指向・圧縮・ゾーンマップ・ソートキーでI/O量を削減し、分散キーを使ってデータを分散配置することで並列処理を可能にしている。
私の パフォーマンスチューニングの三原則で整理すると、以下の通り。

仕事量を減らす
  • 列指向
  • 圧縮
  • ゾーンマップ
  • ソートキー
並列化
  • MPP
  • シェアードナッシング
  • 分散キー
高速化
  • 特殊なハードウェアは使用していない