2021.07.07

ビジネスに貢献するデータサイエンティスト:ビジネスサイエンティストへ進化

2012年にHarvard Business Reviewの記事:Data Scientist: The Sexiest Job of the 21st Centuryは世の中に広く響いて、データサイエンティストという職種は迅速に人気が集まり、業界ではデータサイエンティストの人材を確保するため、人材採用・人材育成に最優先でリソースを投入した。このデータサイエンスの過熱の波のおかげで、企業では、データドリブンの思考・施策が増えて、生産力が向上したとはいえ、データサイエンスはすべて課題解決の銀の弾丸ではないので、データサイエンティストに対する期待には添えなく、近年では、データサイエンティストの真の価値を疑う視点がどんどん増えてきた。この記事は少し大げさではあるが、”データサイエンスの幕が下す、ビジネスサイエンスの時代が来る”と宣告した。このような論点を踏まえて、今回は、データサイエンティストのミッションに関して、私見を述べさせていただきます。

データは、この自然世界や社会世界に対する定量的かつ客観的(主観的も?)な測定情報である。データサイエンティストの仕事の本質は、この定量情報に基づきの意思・行動を決定することである(通常は、決定者が別の主体なので、決定支援とも言える)。データ基づきの問題解決アプローチは、人類の早期文明から既に存在するわけで、将来も必ず存続していくだろう。中国では2500年前、敵が残したかまどの数量から兵力の変化を推定し作戦を決める先例がある。だが、データサイエンスを呼ぶのは、近年から、情報革命の中に、データを集める・操る能力が高くなり、統計学・機械学習などを用いるデータ活用の技術が高度発展してきたおかげだろう。物理学のサイエンティストは物理現象を対象とする研究者、生物学のサイエンティストは生物を対象とする研究者、という一般的な定義と違い、データサイエンティストは、データを対象とする研究者よりは、企業に身を置くことが多くて、ビジネス問題をデータからどう解決する研究者という定義は相応しいと思われる。

データサイエンティストの大半は、データサイエンスの方法論の研究より、データサイエンス理論を応用し、ビジネス課題を解決することがメインなので、ビジネスサイエンティストと呼んでもよいだろう。そうであれば、データサイエンティストのミッションは、どうビジネスに貢献していくことになる。

それでは、どうやってビジネスに貢献できるだろう?その前提は、ビジネス課題や業務プロセスを深く理解し、サイエンスの視点で、問題本質をモデリングし、形式化することである。ビジネスサイドの人々は、ビジネスプロセスを日常に実践し、管理しているが、サイエンティストは科学的なアプローチで、この流れを抽象化し、図式で表現できること。それにより、ビジネス問題を数値計算問題に落とし、つまり実問題をコンピューティング問題にマッピングし、データサイエンスの武器を使い始める。次のステップは、貢献したかどうかを評価するため、ビジネスKPIを定義すること。それは、機械学習のプロセスの中に用いる、モデル精度のような評価指標と相当する。機械学習のタスクやデータの特性により、RMSEやR-Squared、又はAUCやF1のような評価指標を使い分けると同じ、ビジネスKPIも、大きく3種類が分けられる:売上拡大、コスト削減、効率向上。その3種類KPIは、最終的に、収益改善という親KPIに帰着することである。データサイエンティストのミションは、言い換えれば、法律やリソースなどの制約条件の中に、収益改善を最大化するためのビジネス施策を見つけること。一見して、企業の利益最優先をしたら、ユーザ価値を損なったり、社会問題を起こしたり、色んな不合理性が出るようですが、これは、KPI策定方法により上手く回避できると思い、ここでは詳しく述べないことにする。親KPIは収益改善で、子KPIは売上拡大などにしても、大雑把すぎで、効果測定には、まだまだ正しくできないので、一般的には、さらに、Sub-KPIに分解し、個々問題に合わせて、施策から効果までの因果関係明確のKPIを作ることはお勧めである。

ビジネス課題をコンピューティング問題に落とし、ビジネス効果評価関数(KPI)を決めたら、次は、データサインエスの技法を用い、目標を達成するプロセスに入る。データサイエンスの技法は、機械学習・深層学習、数理統計、データマイニング、集計可視化などを含めるが、ビジネス課題解決の視点から見ると、このような4つに分類される:

(1)Descriptive Analysis

現状は何か起きているか(What happened)に関する分析で、ビジネス課題を把握し、解決に向ける第一歩である。ここでは、良く用いる方法は、統計集計や可視化であり、BIツールが一番器用するところである。このステップでは、基本検診なので、一般的に処方箋(解決策)を出さないが、ここでもう答えが分かって、問題解決できることもよくある。

(2)Diagnostic Analysis

なぜこんなことか(Why happened)に関する分析で、課題の原因を理解することである。機械学習や因果推論を行い、時には可視化して、定量的論理的に解明すること。課題の複雑さにより、このステップは、一発で真の原因を見つけることができなく、仮説が立って、反復検証することが必要である。当然、原因が分かれば、対策がすぐ立てることが多くて、ここで問題解決で終了することはよくある。

(3)Predictive Analysis

将来は何が起こるか(When it will happen/what will happen)に関する分析で、ビジネスの出来事を予測することである。ここでは、深層学習(特にSequential モデル)や時系列分析、又は統計法を用い、予測していく(分類問題として捉えることもある)。予測問題は、基本的に難しさが増え、時には、解決できないことで終わる。

(4)Prescriptive Analysis

課題をどう解決していく(How to solve)、又はどうやってゴールを達成する(How to achive)に関する分析で、ビジネス成功に導くトータルソリューションを出すもので、データサイエンスの最終形である。基本的には、このステップで綺麗に活用できた事例が多くないが、機械学習(強化学習も含め)やデータマイニングなどを用い、レコメンデーションシステムを作るのは、一つ未熟の事例だと思う。意思決定まで自動的に決まるのは、このステップの特徴ではあるが、現時点のデータサイエンスはあくまでも行動・施策を決めるまでの支援なので、Human-in-the-loop(HITL)という中間形になるだろう。

データサイエンスの具体技術はここで展開しないが、幾つかの重要な問題について、私見を述べる。

(1)不確実性ある上に効果評価:Evaluation under uncertainty

No evaluation No improvementという名言がある。逆に言うと、効果を正確に評価できれば、一番シンプルなグリッドサーチを利用しても、確実に改善方向に向かっていく。モデルの性能評価(R-squaredやF1スコア)は大体簡単にできるが、こちらの効果評価は、ビジネス効果測定のKPI相当するものである。KPI変化自体は、簡単に計測できることが多いが、今の施策(データ基づきの決定)はどのくらい効果があるかに関しては、外部要因や内部要因による相互作用によって、正確に測定できない。不確実性を取り除ききれない前提で、効果を測定してPDCAを回していくのは、データ解析の肝になる。

(2)現実問題と理論モデルの間の乖離:Real/Model Gap (Assumptions Error)

前述の通り、現実のビジネス問題をモデリングするのはデータサイエンス空間の入り口である。ただし、実問題を完全にモデリングすることができなく、必ず何か仮定をして作ることになる。この仮定(Assumptions)は、当然誤差があり、又は誤ったこともある。この実問題とモデル(Simulationも含め)の乖離があることで、モデル世界では、正しく問題を解決した(精度よく分類・予測できた)としても、現実問題に応用すると、効果が劣化することや全然上手く行けないことはよくある。”All models are wrong, but some are useful”という格言は正にこの問題を指している。

(3)過去・未来の間の乖離:Past/Future Gap (Distribution Drift)

データ解析やモデル学習のインプットはすでに発生したことに生んだ過去データである。過去のデータでも、将来のデータと同じ性質(分布)がもつという前提で、過去のデータを学習して得られた結果は未来(未知のデータ)に生かしても、同じ効果が出るだろう。(ここでは、未来のデータは時間軸だけではなく、学習サンプル以外の未知データも含める)。だが、過去のデータは未来のデータとの間には、良く乖離が発生する(所謂、分布ドリフト)。場合により、この乖離は、すべての解析結果を台無しになる。

最後に、ビジネスに貢献できるデータサイエンティストはビジネスインパクトを優先に考え、データより業務にフォーカスする。ビジネス施策の効果測定には、不確実性あり、データには分布乖離が発生し、モデルには、仮定誤差が生じることで、データサイエンティストは、まずビジネスプロセスを明確する(Clarify your business)、次は、データを理解する(Understand your data)、更にモデルを解明する(Disclose your model)という三つのジョブがある。

次世代システム研究室では、データサイエンティストとビッグデータ解析プラットホームの設計・開発を行うアーキテクトを募集しています。興味を持って頂ける方がいらっしゃいましたら、ぜひ募集職種一覧からご応募をお願いします。
一緒に勉強しながら楽しく働きたい方のご応募をお待ちしております。

Pocket

関連記事