コラム詳細
はじめに
セラクCCCのSalesforce推進部Tableau担当のUです。データ抽出・加工は精度の高い分析に不可欠ですが、「データ分析にかかる時間の8割は前処理である」と言われるほど大変な作業です。Tableauはこの負荷を軽減するため、データの抽出・加工作業を効率化する専門ツール『Tableau Prep Builder(タブロープレップビルダー)』を用意しています。
しかし『Tableau Desktop』にも分析前のデータ整理の機能が備わっており、使い分けや効果的な操作方法に悩むユーザも少なくないため、本記事では『Tableau Prep Builder』の基礎知識について解説します。
『Tableau Prep Builder(タブロープレップビルダー)』は、分析に使うデータを整えるデータクリーニングツールです。ユーザの知識を問わず直感的なドラッグ&ドロップ操作だけで、データクリーニング作業を進められるようにデザインされています。
『Tableau Prep Builder』はCreatorライセンスを契約することで利用できます。Tableauを利用するためには最低でも1アカウントのCreatorライセンスが必要なため、Tableauユーザにとって、『Tableau Prep Builder』を利用するための追加コストは不要です。
データクリーニングとは、表記を統一する、重複レコードを削除するといった方法でデータ品質を向上させる作業です。クリーニングが不十分だと、表記が異なる場合に同じモノを意味するレコードを別物だとカウントしてしまい正確に分析できません。分析結果のクオリティを担保するためにもクリーニング作業は重要ですが、時間をかけすぎると分析が疎かになってしまう点には注意が必要です。
<データクリーニングのイメージ>
「Tableau Prep」を冠する製品は『Tableau Prep Builder』だけではありません。よく似た名称の『Tableau Prep Conductor』という機能も「準備(Prep)」を主眼としていますが、用途はまったく異なります。
『Tableau Prep Builder』はデータクリーニングツールです。体裁の異なる複数のデータを分析に利用するため、欠損があって利用できないレコードを削除して表記を統一するといった工程は、Tableauを使ったデータ分析ほぼすべての場合に欠かせません。
一方『Tableau Prep Conductor』は、『Tableau Cloud』や『Tableau Server』で作成しておいたデータクリーニングの作業フローを、スケジュールに従って自動実行する機能です。
クリーニング作業を自動化できて便利ですが、事前に『Tableau Prep Builder』でフローを作成しておく必要がありサーバを利用するため、ローカル環境で動作する『Tableau Desktop』では利用できず、利用機会は限られます。
「Tableau Prep」と省略した場合、多くは『Tableau Prep Builder』を指します。『Tableau Prep Conductor』の方が後発の機能であり、また使用頻度が大きく異なるためです。
データ分析は目的ではなく手段であり、ビジネス上の課題を素早く解決することが期待されるため、分析サイクル全体の高速化は不可欠です。
ユーザがデータ分析に習熟することで、「どのようなグラフを使ってデータを表現するか?」「表現したデータから何を読み取るか?」といった作業は効率化できます。しかし「複数のCSVファイルをそれぞれ開いて表記を統一する」といったデータ加工作業の高速化はユーザの習熟に頼るだけでは困難です。そこでデータ分析サイクル全体を高速化するために、データクリーニング工程を技術活用で効率化するという考え方が普及し、さまざまなツールが開発されてきました。ツールを使わない手作業やETL、『Tableau Desktop』のクリーニング機能との違いに着目して、『Tableau Prep Builder』の強みを効果的に活かせるようにしましょう。
分析に使うデータは多くの場合、Excelで開ける形式でエクスポートできる、もしくはExcelで開ける形式で管理されています。そのためExcelを利用したデータクリーニングは、ファイルを開くための別ソフトが必要ない、多くの端末で利用できる、操作できるユーザが多く作業を標準化しやすいといったメリットがあります。しかし、メリットよりデメリットの方が大きくなりがちなため、オススメできません。
多くの企業では複数の部署で複数の担当者がデータを入力しており、項目の種類や数、表記ルールが異なります。そのため分析に使おうとデータをまとめる際に、項目を整理する、表記揺れを統一するといった作業が必要です。目視で確認して手作業でこの工程を進めると、単純に時間がかかるだけでなくミスのリスクも高くなってしまいます。
『Tableau Prep Builder』を使えば、項目の種類やブランクの行と列など確認が必要な部分を表示して必要に応じて加工する、表記揺れを検索して一括変換するといったことが可能です。また、データクリーニング手順をフロー形式で記録してコピーやカスタマイズできるため、同じデータソースを定期的に分析に利用するといった際に時間を大幅に短縮してミスを減らせます。ほかにも、Excelファイルはデータ量が大きくなるほどメモリの使用量が増えて動作が遅延してしまうため、Excelファイルでデータクリーニングするのは避けた方がよいでしょう。
ETLとは、Extract(抽出)、Transform(変換)、Load(格納)というデータ統合の各プロセスの頭文字をとったものです。
ETLツールは、大規模なデータ分析を専門家に任せる際に、DWHと組み合わせて使うと効果的です。データベースからデータを抽出し、DWH(データウェアハウス)という整理されたデータを蓄積するシステムに格納、DWHに蓄えられたデータは主にデータ分析や意志決定に利用されます。
<ETLツールを使ったデータ管理のイメージ>
データソースやDWHと連携してクリーニングしたデータをDWHに蓄積できると考えると、ETLツールはTableauを使ったデータ分析の際にも便利に思えます。
しかし、「現場の担当者が自分の業務に関わるデータを随時分析する」といった使い方が想定されている、TableauのようなセルフサービスBIと組み合わせて使うのはオススメできません。
ETLツールはデータベース言語SQLを使って操作するエンジニア向けの製品であり、『Tableau Prep Builder』は非エンジニアである各部署の現場担当者や経営層が直感的に操作できるようデザインされています。
データ分析前にクリーニングを行うという使い方に着目して、「『Tableau Prep Builder』はETLツールである」と説明される場合もありますが、正確な比較はできないことに注意が必要です。
『Tableau Desktop』にはデータクリーニング機能があり、『Tableau Prep Builder』を使わずとも、複数のデータを結合してクリーニングできます。では、わざわざ操作を覚える手間をかけて『Tableau Prep Builder』を使うメリットとは何でしょうか。
最も大きな違いは、『Tableau Prep Builder』と『Tableau Desktop』のUI(ユーザインターフェース)の違いです。両製品のUIは画面上部と左のメニュー配置など全体的によく似ていますが、画面上部が大きく異なります。『Tableau Prep Builder』の画面上部には[フローペイン]という領域があり、設定したデータクリーニング作業がフロー形式で表示されます。この領域を確認すれば、フロー作成者だけでなく誰もが設定されているクリーニング処理順序を簡単に把握でき便利です。
<画面上のフローペイン>
データ処理のタイミングによって、マシンへの負荷や処理速度にも差がでます。
『Tableau Desktop』のデータクリーニング機能を使う場合、一度すべてのデータを読み込んだ後で表示だけを絞り込みます。『Tableau Desktop』でグラフを作成する際にも、この絞り込み処理を繰り返すためマシンへ負荷がかかり、データ量が多い場合には操作からレスポンスまでの時間が長くなりがちです。『Tableau Prep Builder』を使い、データを整理して容量を小さくまとめてから『Tableau Desktop』で読み込むことで、この問題を解決できます。
またデータソースを『Tableau Cloud』や『Tableau Server』にアップロードして分析作業を進めるといった使い方の場合、『Tableau Prep Builder』を使いこなせるなら、『Tableau Desktop』を使う必要はありません。
使用するデータの項目やレコード数が少ない、分析に携わるのは自分だけ、社内の特定のパソコンからしかアクセスしないといった理由で、『Tableau Prep Builder』と『Tableau Desktop』の違いを実感しにくいケースもあることには注意しましょう。
利用頻度が高くて便利な『Tableau Prep Builder』の機能を3つ紹介します。
『Tableau Prep Builder』を使うと、『Tableau Desktop』で作業をするよりも表記統一を高速化できます。数クリックで簡単に作業できるうえ、各項目の件数概算を視覚的に把握できるため、元データを目視で確認する手間も不要です。
[値のグループ化]は、左上のフローから処理フローを追加して[クリーニングステップ]をクリックして実行できます。
<フロー上での[クリーニングステップ]の追加>
[クリーニングステップ]を選ぶと各レコードの背景にデータ件数の分布が灰色の棒グラフで表示されます。[値のグループ]から[手動選択]を選び、[1つにまとめる]項目をチェックして完了です。
<棒グラフで視覚化されたデータ件数の分布>
<[値のグループ]から[手動選択]を選択>
『Tableau Prep Builder』は、「苗字と名前」や「都道府県と市区町村」の間にある余分なスペースを削除してデータを整理できます。この機能を使うことで、同じ内容がスペースのために別の内容だと認識されてしまう問題を簡単に解決できます。
対象となるレコードの[クリーニング]から[余分なスペースを削除]をクリックするだけで作業完了です。
<[クリーニング]から[余分なスペースを削除]を選択>
『Tableau Prep Builder』は空欄のあるレコード処理も高速化できます。
空欄(Null)の項目をクリックすると元データの同じ行のデータが強調表示されるため、元データを開いて目視で項目を確認する必要がなく、『Tableau Prep Builder』上で作業は完結します。
空欄が項目名の抜けである場合は、右クリックから項目名を変更可能です。
空欄が合計を示す項目である場合は、分析には不要なため右クリックから[除外]で削除しておくとよいでしょう。
<Nullデータのチェック>
まとめ
データクリーニング作業はデータ分析を行うたびに繰り返すため、少しでも効率化して適切なグラフ選択や価値あるインサイトを得る工程に時間を使いたいものです。『Tableau Prep Builder』を活用することで、分析前のデータ加工作業を効率化できます。定期的に行う分析やよく使うデータソースに合わせて作業フローを作成しておき、コピーやカスタマイズして2度目以降のデータクリーニングをさらに高速化する、といった使い方もできます。
「Tableauの効果的な使い方を知りたい」「Tableau関連の社内勉強会を開催したいが詳しいスタッフが足りない」などお困りの場合はぜひご相談ください。当社には300名(24年6月時点)超のSalesforce/Tableau専門コンサルタントやセキュリティ技術者が在籍。データに基づいた効率的な活動を実現するため、ツールの効果的な使い方のノウハウ伝授や現場の課題解決をサポートしています。
Salesforceでお悩みなら、
まずはお気軽に
お問い合わせください
Salesforceでお悩みなら、
まずはお気軽に
お問い合わせください