自動化するまで気付かなかったデータディスカバリーのすべて

Yellowfin 7.4のリリースでは、データディスカバリーの自動化モジュールを紹介しました。このモジュールの開発を始めた当初、正直なところわたしたちは、既存のデータディスカバリーツールでアナリストが直面する多くの課題をしっかりと理解できていませんでした。しかし次第にBI業界は、データディスカバリーの作業を、アナリストによるデータ操作にまかせていたことがわかってきました。BIプラットフォームは、データアナリストなしでは適切に分析できなかったのです。

一度そのことに気づくと、データディスカバリーについての新たな道筋がひらけてきました。そして、業界標準からの抜本的な脱却と、他のベンダーがデータディスカバリーとその処理について、どのように考えているのかが、みえてきたのです。

 

必要なことをユーザーに尋ねる

 

データディスカバリーの課題を認識するにつれ、二つの大きな盲点が明らかになってきました。

一つ目の盲点は業界全体に言えることですが、わたしたちは自社製品の機能を見てそれを他社と比較し、すべてを網羅していると思っていました。自動データディスカバリーのように、市場でまだどの製品にも存在しない重要な機能があることを考慮していませんでした。

二つ目の盲点は、BI製品がどのように使用されるかの前提です。データディスカバリーを自動化するために、わたしたちはデータサイエンティストがデータに対して疑問に思うであろうことを、正確に理解しなくてはいけませんでした。そのため、何年にも渡りわたしたちは数多くのデータサイエンティストと対話し、彼らが分析のデータ準備において疑問に思うことを明確にしてきました。これは奇妙に聞こえるかもしれませんが、このプロセスを経るにつれて、わたしは、これまでに同様の質問をしたことのあるベンダーは、他にいないという確信を持ちました。

今までのところ多くのベンダーは、人々がデータに対して疑問に思う内容を本質的に捉えていないように見えました。しかしこれは、人々が簡単に質問をし、即座に答えを得ることのできるインターフェイスを構築するうえで重要なステップになります。ベンダーの役割は、これらの質問が何であるのかを想定するのではなく、これを自動化することです。

盲点が明らかになることで、自動化のプロセスもより困難になりました。最初の仕様は素早く完成しましたが、レイヤーを細分化することにしたため、これまでにあまり考慮や検討をしてこなかった点がさらに見つかったのです。しかし、すべてのピースをひとつにまとめ始めることで楽しさも広がりました。

 

データディスカバリーのニュアンス

 

既存のデータディスカバリーは、完全に手作業のプロセスでした。アナリストはデータを準備し、それを手動で細分化していました。その結果、データディスカバリーによって明らかになるはずだった詳細を見逃しやすくなっていたのです。

比較分析を例にあげてみましょう。四半期の財務、ある地域と他の地域、予算と実費、事例の比較など、比較分析はすべてのデータアナリストの作業の中で重要な役割を担っています。データの比較を行うためには、ロウデータを取得し、データセットを作成しなくてはいけません。そしてこれらのデータセットにはフィルターを適用し、ある範囲のデータに渡る変動係数を決定しなくてはいけません。

包括的な比較分析実行に必要な作業は、手動での実施がほぼ不可能ですが、データアナリストは、適切な答え見つけるために、膨大な時間を費やして、可能性のあるすべての組み合わせを試していました。BIツールは、これらの情報をアナリストに提供すべきなのに、今までのところ、これに対応できているプラットフォームはただひとつだけです。比較分析を自動化することで、データアナリストは、比較分析を手作業で実行するために無駄な時間を費やす必要がなくなりました。

また別の例として、収益性の指標があります。これは、比較的単純に手作業での実施が可能ですが、データのインサイト取得に要求される比較分析は、より複雑になります。これを調査することで、わたしたちは既存製品との間にある、外れ値の識別などのギャップを明確にすることができました。

例えば、航空旅費が、ある四半期から別の四半期で大幅に増加した場合、大きな外れ値を識別するのは容易でしょう。ファーストクラスを利用した人が何名かいたのかもしれません。しかし、特定の航路の価格が劇的に変化していたなど、外れ値があまり明確に示されていない場合、それをデータから手作業で発見するのは非常に困難です。アナリストは今まで、これらの外れ値を見つけるために、データの細分化に数日を費やしてきました。しかし、本当の価値は、これらの情報をいち早く見つけ出し、理解しそれをビジネスに提供することです。

これらのニュアンスを手作業で検知するのは簡単ではありませんが、わたしたちはデータディスカバリーのプロセスを自動化するまで、顧客が特定できるであろうさらに多くのインサイトを見出すことができていませんでした。

わたしたちは業界の前提やルールにとらわれず、人々が製品をどのように使用しているのかを本質的に把握することで、ユーザーが実行しやすい分析を提供することができました。 ユーザーは今では、ビジネスへのインサイトと価値を提供するタスクに集中して取り組むことができます。