クラウドネイティブなELTツールMatillionで多テーブルの結合処理

クラウドを前提にしたELTツールのMatillionを使うと、意外な驚きに出くわします

 

多くのETLツールは、BigQueryをデータソースとして前処理を行うと、一度BQよりデータをツール側に取り出して処理を行います。これは、BQの力を最大限に活かせず、処理は、できるだけBQ側のリソースで行えるツールが欲しくなります。Matillionは、そんなことを手軽にできるツールです。

 

そんなツールで、多数のテーブルの結合処理が一つのコンポーネントだけで、なかなか面白い感じで記述できるので紹介します。

 

f:id:gri-blog:20200604204736j:plain

オレンジの3つがBigQueryの3つのテーブルで、赤枠で囲まれたJoinコンポーネント1つで、この3つのテーブルの結合処理を記述できます。よくあるETLツールは、一つのJoinコンポーネントで2つのテーブルを結合する記述です。たくさんのテーブルの結合をまとめて記述できれば、データフローを直感的に記述できます。今までのツールだと、プロのマエショリストが多段の結合処理をする場合、どの順番で結合するかを考えるのが腕の見せ所でしたが、Matillionだと、これらの処理はMatillionが適当にSQL文にしてBQに投げてくれる感じです

 

より詳しくは公式のYouTube動画を

www.youtube.com

 

古幡征史