入試の出題であってはいけないこと

今回は分野外のトピックです。近頃は外出しないお陰で普段目を向かない事を省みる機会に恵まれています。普段データサイエンス教育に携わっている立場から「教育や学習とは何か」について改めて考える一貫として、(一番勉強したのは15-25歳でしたし)母校の入試問題を2020年から遡って解くことに充実しています。同時に出題担当の教授の意図を推測します。例えば2020年の国語第一問は「身の丈問題」の現れでしょうか …

 

さて、その中で今回取り上げるのは如何にも controversy に溢れそうけど、不思議に炎上の様子がまだ見つからない2020年の英語の第一問B のうちの1箇所です。下の図は関与部分です。

(出典)Darwin Come to Town  (人工世界で進化する生態系)
https://www.kirkusreviews.com/book-reviews/menno-schilthuizen/darwin-comes-to-town/
問題文全体:
https://www.yomiuri.co.jp/nyushi/sokuho/k_mondaitokaitou/tokyo/mondai/mondai/1317194_5409.html

f:id:gri-blog:20200405162457p:plain

図1a

f:id:gri-blog:20200405162517p:plain

図1b

図1(a) の (  ア ) に入るように 図1(b) の言葉を並べ替える、という至って普通の文法かつ解釈を問う問題です。あなたは何と答えますか?

 

私の回答は直感的に

Thanks to that mosquitoes get trapped in cars   ….(A)

 

一方で元出典、つまり必然的に各予備校がやむを得なく公開する回答は以下です。

Thanks to mosquitoes that get trapped in cars ……(B) 

 

少ないサンプル3名を相手にした調査では、

  • 日本人・母校OB(理系):B   ➡︎ 後ほど私に説得されてAが良いと納得
  • 日本人・母校OG(文系、現在米国にて留学中):A ➡︎強くAを支持
  • 日本在住の中華系アメリカ人:B ➡︎ A,B両方とも可 との意見

そのうち私も答えはA, Bともに許されるではないかと飲み込めるようになったが、断然A(出典の文章とは違う方)が良いと思い、理由は以下です。

穴埋めの後の部分に来る  “…. its genes spread from city to city, but at the same time it also cross-breeds with ….” では、 "its "や "it "は段落前方にある "the Underground mosquito" という「種」を指しています。それなのに B のように mosquitoes を主人公としている文節を持ってくると "Thanks to mosquitoes that get trapped in cars and planes, its genes spread from city to city, but at the same time it also cross-breeds with ….”  となり、 its → their, it →they にしない限り非常に違和感がありませんか。

文法や綺麗さの問題だけではないです。Bだと「トラップされた数匹の蚊ゆえに」になり、話が小さすぎると思います。それに対してAは「一般的に蚊が乗り物に閉じ込められる」という現象全体を語っているのもAを強く支持する理由です。

とはいえ、やはりBの文章は(itが種を指しているだけあって)完全にNGにするわけにはいきません。

 

私が本質的に不可解なのは、答えがはっきり決まらない文法問題を何故東大入試に出すのか、です。 数分でも考えれば英語の専門家が誰でも答えが2つあると気づくし、入試英語の問題の作成・採点にはネーティブスピーカーも関わっているはずです。

 この事態になった理由も考えてみました。

  • (可能性1)Thanks  to というよくある文法問題を出したいだけで、実は深く考えなかったゆえに答えが2つある問題になってしまった
  • (可能性2)実は…. 実は….. Aは元出典のBよりも英語のセンスが良く、かつ表現を使いこなすために高い英語力を要するため、元出典とは違うAを書いた学生にはプラス1点を付けて差別化している(Bを書いた学生は減点せず)

(可能性2)は、意地悪ではなく、試験問題の作成を外部に委託する体制(英語をTOEFLにするなど)を間接的に批判したい心があるかもしれません。というのも、問題1Bで並べ替え問題が出題されるのは東大入試の歴史の中で今年が初めてです。

 

私はどうか(可能性2)であることを祈っています。全く点数の差をつけるつもりなく「どちらも回答でもいい」問題は母校の入試では許されません(笑)。まあ、笑える話ではなく、出題ミスとして事後にトラブルになったり、コンプライアンス問題になる可能性だってあります。受験生が答えを2つ書けない上、「1つしか選べないと指示しているのに正しい回答が2つある」というのは矛盾です。今回Aを答えた受験生が一人もいないことはあり得ないと思います。

 

最後に、調査の国際色を増やすために、日本在住の元同僚イギリス人物理学研究者(英語に相当こだわりを持つ人)にも「この文章どう思いますか」を聞こうと思ったが、とwittyな彼の場合、おそらく「ummmm...  I agree that subway mosquitoes are scary」しか帰ってこないでしょう。

 

ヤン ジャクリン

 

Ikigai(いきがい)について

4月は新入社員の季節なので、最近アメリカで注目されている日本語 "Ikigai"(いきがい)について書いてみます。注目されている背景を知るには、ステレオタイプな表現ですが、30代以下の典型的なアメリカ人の生活を見ると伝わりやすいです。世界一学費の高いアメリカの大学を自分で学生ローンを組んで、借金と共に卒業します。資本主義の中心地ですので、先に借金をして自分の市場価値をあげて、将来お釣りが来るはずでした。先輩世代は、それでうまくいっていた訳ですが、実態経済が良くない状況が長引き、仕事つまんないなって思ってしまっている人が意外と多かったりします。週末の休暇を待つためだけの働き方。それは日本でも同様かもしれません。

 

そんな中、英語には翻訳しづらい言葉「いきがい」が日本語にあり、その言葉の持つ意味がアメリカ人の心を揺さぶりました。つまらないはずの仕事を楽しみながら、心が豊かで「自分らしい」生活を送れる。そんな素敵な人生の過ごし方ができるなら、自分もそんな人生を送りたい。そのヒントになるのが「いきがい」という言葉です。いきがいは次の4つが合わさっている状態です。

  • 好きなこと
  • 必要とされていること
  • 稼げること
  • 得意なこと

 f:id:gri-blog:20200331224339j:plain

就職したての人にとって、「好きなこと」をするつもりで働き始めても、気付いたら上手くいかないことや嫌なことなどが積み重なり、だんだん仕事が嫌いになってしまうことがあります。そうすると、自分にはもっと適した仕事があるんじゃないかなぁって、自分探しみたいなものをはじめたくなります。

 

そんな人にお薦めするのは、まず「得意なこと」を作ることです。他の誰にも負けない得意なことがあれば、その良さを気付いてくれる人とめぐり合うことで「専門職」となれます。専門職として認められれば、多く稼げ自信やプライドが付いてきます。誇れる自分は、その仕事がどんどん好きになり、「情熱」もついてきます。やがて、世の中で「必要とされること」って認められ、自分にとっての「いきがい」を感じるようになります。

 

また、「得意なこと」を杭に例えると、それは誰にも負けないくらい深い所まで根差していると、とても強固な「得意なこと」になると思います。さらに欲を言えば、もう1本深い杭をさすことができるならば、そこにはボーナス・ステージが待っています。2つの得意なことは、それぞれ線でしか表現できないのですが、線と線で張られる面が全て自分の個性に変身し、自分のオリジナリティある世界観を作ることができます。はじめは、なかなか2つの得意なことを作るのは難しいですが、会社の同僚と得意なことを出し合って、面白い世界観を表現した働き方をする人生はいかがでしょうか?

 

古幡征史

AutoML(自動機械学習)サービスの比較‗ForecastFlowとPredictionOne

本記事は2つの会社が提供している予測分析のできるサービスを使ってみた記録です。

・ForecastFlow(GRI社提供)

・Prediction One(SONY社提供) 

を使用しました。どちらも初めて使いました。というかAutoMLサービスを初めて使いました。こんな人でも使える!

 

ForecastFlowとPrediction Oneの比較

以下のリンクのデータを使用して予測分析を行い、使い方や出力結果などを比較しました。

The ViralML Show! Modeling for Actionable Insights with XGBoost - What Can You Do about Your Predictions?

これは顧客の解約リストです。この予測分析は顧客解約予測(Customer Churn)、というものになりますが今回は両サービスの比較にとどまっているので結果の解釈については行いません。

 

予測分析の手順は

①学習用のデータセットを用意する

②予測モデルを作成する

③予測モデルを用いてなんらかの結果を予測をする

となります。今回は②予測モデルを作成するところの使用感を見ていきます。

 

予測モデル作成設定

予測ターゲットは”Churn?(解約した?)”にしました。解約した/してないで2値のデータになります。

予測モデルの精度を検証するのに必要な精度検証用データを設定します。どちらもデフォルト値にしました。(ForecastFlowは学習用:検証用=7:3、Prediction Oneは9:1)

次に特徴量カラムの設定をします。ForecastFlowは特徴量カラムに”採用しない”カラムを指定できます。相関係数が高い特徴量カラム同士は予測モデルへの寄与を打ち消しあってしまうのでどちらかを省いたほうがいい場合があるためです。ForecastFlowでは相関係数が高いカラム、および欠損率が高いカラムをあらかじめ表示してくれるので適宜特徴量カラムから外します。今回は”通話時間(分)”に関するカラムを3つ外しました。

Prediction Oneでは手動でカラムを指定してくれます。特に注意書きなどは出なかったのですべての特徴量カラムを予測モデルに設定しました。

 

結果の出力

出てきた予測モデルの概要と詳細を保存しました。

ForecastFlowは精度評価などの計算結果がcsvファイルで出力されました。BIツール等でより詳細な分析・可視化ができるようです。

Prediction Oneは画像ファイルでした。見やすいんだと思います。

(そのうち画像を貼ります)

 

結果

どちらも精度評価の値と感度分析の結果が出てきました。

精度評価値

ForecastFlowはF値/Precision/Recall/Supportが表示されました。

Prediction OneはF値/AUC/Precision/Recall/Accuraryが表示されました。また、データ数を増やせば予測モデルの精度が向上するとの表示も出ました。

F値を比べたところ、

ForecastFlow   : F=0.726(解約した), 0.963(してない)

Prediction One: F=0.6667

となり、ForecastFlowのほうがF値が大きかったです。

感度分析

予測ターゲットの変動に重要な特徴量(寄与度が高かった特徴量)が表示されます。

ForecastFlowは上位10個の特徴量と感度分析のシミュレート結果を出してくれます。対象の特徴量の変動に対し、予測ターゲットがどのような変動をもたらしそうかをシミュレートしてグラフで表示しています。

Prediction Oneはすべての特徴量について重要度順に並べてくれます。特徴量のランキングの他、特徴量の数値(単語だったら単語)ごとに解約した/してないの予測確率増加に寄与する度合いも表示されました。

ここで特徴量の重要度がForecastFlowとPrediction Oneで異なりました。ここはどの事象を重要視して解約予測に活かすかという話になってくるのでこの差をどう扱ったらいいのでしょうか。私にはわかりませんが…。

(そのうち画像を貼ります)

 

それぞれの良いところ

ForecastFlow

・省いたほうがいい特徴量カラムを出してくれるのがうれしい

・結果の出力がcsvになっているのでいろいろ使える

・感度分析シミュレートグラフがある

 

 Prediction One

・マニュアルとチュートリアルが非常に親切、本当に読んでやってみたらだいたい分かる

・オフラインで作業ができるため社外に出したくないデータセットに適している

・”データ数を増やせば精度が上がる”という表示が出るのはうれしい

 

PythonとFoliumで簡単!地図上に位置情報の可視化

はじめに

アナリティクス&デベロップメント部のNです。
最近、Foliumという地図上に位置情報を可視化するライブラリの存在を知り、使ってみました。
Foliumというのは、Leafletというjavascriptの地図ライブラリをPythonから使えるようにしたものです。
html形式で地図を保存できるだけでなく、Jupyter上で綺麗に位置情報を可視化することができる便利なライブラリです。
この記事ではJupyterでのFoliumの簡単な使い方をまとめました。

Jupyterで地図上に位置情報を可視化

準備

ここから先ではJupyterLabを使います。
まずは、pip install foliumでFoliumをインストールしておきましょう。
インストールできたらJupyterを開き、Foliumのimportをしましょう。
ついでに、この記事で用いる位置情報をそれぞれ変数に格納します。

import folium

tokyo_station = [35.681236, 139.767125]
tokyo_tower = [35.658581, 139.745433]
gri = [35.6597, 139.75195]

位置情報の座標はそれぞれ[緯度, 経度]として宣言しています。
ちなみに、各座標は
・東京駅
・東京タワー
GRI
の2020年3月現在における位置を表しています。

地図の表示

f:id:gri-blog:20200316121830p:plain
Foliumで表示したOpenStreetMap

次に、上の地図をJupyter上に表示してみます。
以下のコードをセルに入力して実行してみましょう。

m = folium.Map(location=gri,
           tiles='OpenStreetMap',
           zoom_start=13)
m

folium.Mapの部分で地図レイヤを作成して表示しています。
locationは地図の中心となる座標、
tilesは表示する地図のタイルを指定しています。
ここではtilesとしてOpenStreetMapを使用していますが、StamenやMapboxなども使うことができます。

マーカーや座標を繋いだ線の表示

f:id:gri-blog:20200316124215p:plain
マーカーと線の表示

次はこの地図上に上の画像のように位置情報を可視化します。
座標を示すマーカー、線、ポリゴン、円などを表示できます。
ここではマーカーと線を表示してみます。 以下のコードをセルに入力して実行してみましょう。

marker = folium.Marker(
    location=[35.6597, 139.75195], 
    popup='hogehoge',                    
    icon=folium.Icon(color='orange'))

line = folium.vector_layers.PolyLine(
            locations=[tokyo_station,                     
                       gri,                          
                       tokyo_tower],                   
            color='black',                                  
            weight=10)

# マーカーと線の地図レイヤへの追加
m.add_child(marker)
m.add_child(line)
m

最初にfolium.Markerの部分でマーカーを作成しています。
locationは座標、
popupはクリックしたときに表示されるポップアップのテキスト、
iconはマーカーとして表示するアイコンを指定しています。

次にfolium.vector_layers.PolyLineの部分で線を作成しています。
locationsは線を引くための座標の系列、
colorは線の色、
weightは線の太さ(ピクセル数)を指定しています。

これらのマーカーや線を.add_childで地図レイヤの子として追加することで、地図上に表示することができます。

おわりに

いかがだったでしょうか?
PythonとFoliumでお手軽に、地図上に位置情報を可視化することができました。
地図上にマーカーなどを表示することで、位置だけでなく、周りにどのようなものがあるかを表示できます。
ぜひ使ってみてください。

NAKATA

私の情報収集方法、公開します!

こんにちは、アナリティクス&デベロップメント部のTです。

以前から「Tさんって、どうやって技術や業界トレンドの情報集めてるんですか?」的な質問を受けることがちょくちょくあるので、 思い切って公開しようと思います。

3つの原則

まず、情報収集で重要なポイントとして、以下の3点を挙げます。

  • 情報収集源を一ヶ所に集約する
  • なるべく英語の記事にあたる
  • 一次情報源を調べる癖をつける

情報収集源の集約

情報ソースはいろんな媒体に散らばりがちですので、 なるべく一か所にまとめてそこだけ見ればよいようにしましょう。

複数のブログやarXivを毎回巡回して更新チェックするのは、非効率です。

英文検索のススメ

これを見たあなた、今すぐGoogle検索は英語で入力しましょう。

英語の記事の方が、量・質ともに優れているケースが多く、何よりも情報の鮮度が高いです。

自分はGoogleの地域設定をわざと米国にして、日本語の記事があまり検索上位に現れないようにしているくらいです。

情報は大元を辿れ

基本的に、公式資料ほど網羅性の面で優れた情報源はありません。

例えば言語・ライブラリ・クラウドサービスで何かわからないことがあった時、どうしますか?

最初のうちはQiitaなどでもいいかもしれませんが、慣れてきたら優先的に公式ドキュメントで調べるようにしましょう。

たいていの場合は情報が網羅的かつ系統的に記述されているので、知りたい情報を見つけられる確度が高いです。

解説記事と比べて読みにくいのは確かですが、何度も当たるうちにコツが掴めていくはずです。

公式ライブラリで不足すれば、GitHubソースコードや論文を探し、どんどん情報の出処に近づいていきましょう。

筆者のおすすめ

では、自分が普段からやっていることや、おすすめの情報収集源についてお話ししたいと思います。

RSSリーダーアプリの活用

技術ブログがいろいろありすぎて、情報を追いかけるのが大変...!

ありますよね?そういうこと。

そんな場合、RSSリーダーアプリが非常におすすめです。

RSSリーダーに技術ブログ等を登録しておくと、

  • 複数のリソースを一括して管理できる
  • 更新をまとめて通知してくれる

ので、非常に便利です。

複数のブログをブクマして定期巡回しなくても、 常に一か所だけを覗きに行けばよいのですから!

自分の場合feedlyというアプリを使っています。

feedly.com

これにお気に入りのブログやarXivなどを登録しておいて、 毎日出社後や昼休みなどに新着情報をチェックしています。

読んだ記事をカテゴリ別にブックマークしたり、 読む時間がなければ「後で読む」フラグも付けられるので、 後からゆっくり読み直すこともできる点もポイントです。

同様のRSSリーダーfeedlyのほかにもいくつかありますが, 実際に試してみて使いやすいものを選んでみてください。

おすすめの技術記事・ブログ

では、前述のfeedlyにどういう情報源を登録しているかですが、 海外のブログメディアや企業・個人の技術ブログなど様々です。

特におすすめなものをいくつか挙げてみたいと思います。

Towards Data Science in Medium

最もおすすめしたいのが、Mediumというブログプラットフォームの、Towards Data Scienceというセクションです。

towardsdatascience.com

Pythonやデータ分析のTips、最新のライブラリ・分析基盤の話から業界事情まで、 幅広い話題の記事が数多く集まっています。

内容と質の面でも、入門向けの噛み砕いた解説やチュートリアルから、中・上級者向けの専門的な解説まで様々です。

海外の有名企業在籍エンジニアが執筆した記事も多くあり,日本語で書かれた記事と比べると、

  • 情報の鮮度が比較的高い
  • 少し高度なトピックでも丁寧に書かれている

などといった差があり、非常に有用です。

基本的に月$5の有料制で、無料枠は閲覧可能な記事数に制限がありますが、 500円くらいであれば課金する価値は十二分にあります。

企業の技術ブログ

日本語の記事でも,国内有名IT企業のブログは業界の最新技術情勢を知るうえでとても役に立ちます。

例えば以下のような会社の技術ブログは、社員が積極的に記事を執筆していておすすめです。

他にも、SansanGunosyなどもおススメです。

ぜひ、前述のTowards Data Scienceとともにfeedlyに登録してみてください。

(ついでに弊GRI blogも...!)

その他の情報源

ブログ以外ですと、以下からもよく情報を得ています:

arXiv

arxiv.org

最新の論文を探すときはここですよね。 学生の時からお世話になっております。

arXivも前述のRSSフィードリーダーに登録できるので、 自分の場合統計や機械学習系のチャネルを、 arXiv専用カテゴリにまとめてチェックしています。

Twitter

思いのほか馬鹿にならない情報ソースがTwitterです。

IT系の人はTwitter利用者が多いので、そういった人たちをフォローしておくと耳寄りな情報が入ってくることも多々あります。

個人的にフォローをお勧めするアカウントは以下の通りです:

そのほか、海外のOSSコアコントリビューターなどのアカウントもフォローしておくと面白いです。

ただし、ハマりすぎにはご注意。*1

GitHub

Python等のライブラリを使っていて,公式ドキュメントを見てもどうしてもわからないことがあれば,GitHubで実装を確認することもあります。

それが何よりも確実です。

そうでなくても,不特定多数の人が使用し更新するOSSのコードは,読んでいて非常に勉強になります。

個人的にはscikit-learnが大好きなので,よくコードを辿っています。

汎用なライブラリをどう実装するかを考える上で,ものすごい参考になるのでオススメです。*2

github.com

また,レポジトリページ右上の方にあるwatchボタンを押しておくと、バージョンアップなどの更新通知がメールで飛んできます。

気に入ったライブラリはぜひ登録してみましょう。

勉強会

connpass, Doorkeeper, TECH PLAYなど、IT系の勉強会を募集するサイトを覗いてみましょう。

企業主催の規模の大きなものから、少人数向けの輪読会など、さまざまあります。

時間を作って積極的に参加してみましょう。

発表を聞きに行くタイプの勉強会で個人的におすすめなのは、以下の3つです。*3

ちなみに3つ目のDGWTですが、次回GoogleのデータサイエンティストTJO氏がゲスト登壇されるとのことで話題になっています。(当然申込数も多く、抽選倍率が、、、)

メールマガジン

こちらのPython Weeklyの購読はおすすめです。 www.pythonweekly.com

毎週木曜日,いい感じのチュートリアルや、注目のGitHubレポジトリ情報が送られてきます。

【追記】

機械学習系のメルマガをまとめているQiita記事がTwitterで話題になっていたので、併せて紹介します。

機械学習の情報収集に役立つ14のメルマガ - Qiita

おわりに

以上が自分が日頃行っている情報集めの方法です。

もし皆様の参考になるものがありましたら幸いです。

といっても、もっといい方法もあると思うので、これもやった方がいいぞ的なのがあったらぜひコメント等でお寄せください!

(TAMIYA)

*1:思わぬバズりによる社内への垢バレにも要注意。

*2:ついでながら超個人的なお話をすると,自分は学生時代に現ソフトバンク加藤はむかずさんの講演を聞き,Pythonの言語としての面白さと数理系出身データサイエンティストの目指すべき姿に感化されました。その際に機械学習の実装で参考にすべき資料として挙げられていたのが,O'Reillyの「ハイパフォーマンスPython」とscikit-learnのソースコードでした。

*3:本稿執筆時点では新型ウイルスの影響で中止・延期が相次いでいますが、、、

ビジネスデータとAI技術(機械学習)の相性の良さ

適切な問いとは

AI技術を上手に利用するための最重要ポイントは適切な問いを作ることです。

現状のAIが返答に困る質問は、このようなものです。Hey Siri,

  • 優良顧客になりそうな見込み客を教えて?
  • どうしたら優良顧客を増やせるの?

先ほどのAIが困る質問に手を加え、良い精度を実証できている手法があります。それは「機械学習」を用いた手法で、以下のような付帯事項を付けます。

  • 大量の顧客リスト(属性、過去の行動、趣味、嗜好のデータ)と優良顧客の条件を教えるので

この付帯条件と共に機械学習を活用する手順を紹介します。解きたい問いを下記に設定

  • 優良顧客の態度変容の予測

この問いに答える機械学習モデルを構築するために、図1(訓練データの例)のような表形式の顧客リストを訓練データとして用意します。訓練データは顧客IDごとの例題と回答の組み合わせのようなもので、例題は顧客IDごとに優良顧客を見分けられそうな特徴量データ(顧客ごとの属性、過去の行動、趣味、嗜好など)で構成され、その回答は正解データ(それぞれの顧客が態度変容したか否かの2種類を示す優良顧客フラグ)で表現されます。訓練により、特徴量を与えられたらどのように回答を提示する関係性(法則)をモデル化します。この態度変容を予測する機械学習モデルを使うと、図2(推論データの例)のように新しい特徴量データがあれば優良顧客の態度変容予測(推論)を得ることができます。

 

f:id:gri-blog:20200222155525j:plain

図1(訓練データの例)

f:id:gri-blog:20200222160147j:plain

図2(推論データの例)

このような機械学習モデルがビジネスの実践現場に使えるようになってきたのは様々な要因が絡み合っています。ここでは、6つの理由と共に説明をしていきます。

1.未来の事象の予測

第1点目として、機械学習は過去のデータを利用して未来の事象に焦点を当てていることです。従来のマーケティング現場でのデータ活用の代表例であるRFM分析やデシル分析は、優良顧客の特定やセグメント分けによる顧客の特徴を明らかにできます。ただし、顧客は製品やサービスの購入体験済みなので、全て過去の話に閉じています。つまり、これからの顧客行動が分からない物足りなさがあります。一方、機械学習モデルでは正解データと特徴量に時間差を付けることにより、将来の予測をモデル化できます。学習済みの機械学習モデルは、顧客の購入体験状況に応じた未来の予期を表現したものとなります。

f:id:gri-blog:20200222164034j:plain

図3(未来の予期)

2. 高速化による顧客理解の多角化

第2点目は、超高速に高精度で学習できる機械学習アルゴリズムが開発されたことが挙げられます。特徴量と正解データの関係性を学習する方法は、いくらでも存在しており、高精度な予測モデルを構築するには、最近までは計算時間がとてもかかるものでした。例えば高性能サーバで夜間バッチでも学習が終わらないようなことは、よくありました。高速に処理ができるということは、多くの種類の特徴量を機械学習モデルに使えることを意味します。より多くの特徴量を使えば、顧客の特徴を多角的に検討できるので、より立体的に顧客を理解できることになり、より良い施策立案できる可能性が広がります。

3. ETLツールによる前処理の現場への浸透

第3点目は、機械学習用のデータを準備しやすくなった点が挙げられます。企業と顧客の接点は大幅に増え、顧客IDと共にCRM、EC、コールセンター、SCM、基幹システム、位置情報収集システムなどにログとして保存されるようになりました。これらのログを組み合わせるだけでなく、政府の提供しているパブリック・データや気象データなどを付与することも一般的になってきました。これらのログをまとめて扱うのは、SQLなどでデータを取り出し、Java、RやPythonなどで前処理のためのプログラムをエンジニア素養のある人が書くのが主流でした。これらは機械学習プロジェクトの消費時間の80%と呼ばれており、ビジネスのドメイン知識を有していないエンジニアには、ビジネスの背景をデータから理解する時間も多く費やす必要があります。最近では、データの前処理が得意なETLツール(図4)が広まり、現場の施策立案担当者が特徴量の準備を簡単にできるようになりました。例えば、AlteryxやTableau Prepなどを使うとGUIの操作で、多様なソースシステム(サイトアクセス解析ツール、CRMシステム、クラウドサービス、RDBMS、業務システム、NoSQL、Hadoop)からデータを取得し、データの整形処理ができます。これらのツール活用で大幅な時間短縮が見込まれます。よって、今まで何年もビジネスをやってきて、こんな短時間で多角的に顧客の特徴を理解できるとは思わなかったという感想が出てきます。

f:id:gri-blog:20200222170754j:plain

図4(ETLツールの位置付け)

4. 機械学習の解釈性の向上

第4点目は、機械学習モデルの解釈のしやすさが向上した点が挙げられます。旧来の機械学習のコミュニティでは、予測精度の向上と高速化のみが最大の関心事でした。以前は機械学習の判定過程はブラックボックスで、人が理解できるようなものではありませんでしたが、機械学習の実用性が実証されはじめると、機械学習の解釈性や公平性が議論されるようになり発達してきました。例えば、図5に示すような優良顧客を判別するための重要特徴量トップ10や、それぞれの特徴量がどのように判別に寄与しているかの感度分析(Partial Dependence Plot)により、施策担当者が機械学習モデルを理解しやすくなりました。つまり、どの特徴量がどのように効いているか見えるようになり、現場で納得感のある機械学習モデルの選定、及び特徴量と施策立案の関係を思考レベルで結び付けやすくなりました。機械学習を導入した現場で真っ先に選ばれることは、効果の薄い施策を廃止することだったりします。

f:id:gri-blog:20200222171006j:plain

図5(機械学習の解釈)

5. PDCAやOODAサイクルへの機械学習推論結果の組み込み

第5点目は、機械学習の効率的な推論利用が挙げられます。最新の状態の顧客データから機械学習モデルより、優良顧客の態度変容確率を得ることができます。これらは機械学習モデルと先ほどのETLツールやBIツールと連携させることにより、施策立案担当者自ら無限の組み合わせを全自動化させることができます。つまり、いつでもどこでも顧客行動の予測結果を立体的に可視化したダッシュボード(図6)で確認することができます。今までのようにデータの準備やグラフ作成に時間を浪費することなく、お客様に製品やサービスの良さを理解してもらうための施策実施に時間を集中することができます。さらに、最新の顧客データに対して、ETLツールやBIツールでシミュレーション・データを増幅させ、いくつかのWhat-ifシナリオを作った上での優良顧客になる確率を可視化することも可能です。よって施策の効果検証PDCAやOODAサイクルに組み込みやすいメリットが挙げられます。

f:id:gri-blog:20200222171931j:plain

図6(推論結果ダッシュボード)

6. AutoML(自動機械学習基盤)の広がり

第6点目は、機械学習を上手く活用するための自動化プロセスが整備されたことが挙げられます。機械学習モデルの実装(アルゴリズムの選定や最適パラメタの探索)は、データサイエンティストの高度なスキルが必要な領域でしたが、弊社GRIの開発したForecastFlowをはじめ、DataRobot, dotData, H2O, Sony Prediction One, MatrixFlow, Google AutoML Tables, AWS Sagemaker, Azure Machine Learningなど、多くのAutoML(自動機械学習基盤)が存在します。どのAutoMLも、トップ・データサイエンティストが構築する機械学習モデルの精度に肉薄するレベルに達しているのが現状です。ただ、これらは施策立案に役立つ特徴量を自動生成するまでには達していません。トップ・データサイエンティストは、ビジネスの環境やデータから顧客理解を深め、施策立案に役立つ特徴量を構築します。ただ、この領域はドメイン知識を有した現場の施策立案者こそ得意な領域なので、AutoMLを現場の人が使うのが、良い特徴量作りに役立つと考えております。

ForecastFlowの大切にしていること

自動機械学習基盤ForecastFlowは、現代的なデータ利活用プロセスにおいて、現場が機械学習を業務の中で活用しやすくするという実践的な考えの元、クラウド上に開発されています。現場の施策担当者が何回も高速で特徴量を作り直しながら機械学習モデルを作り、新しい施策の効果検証を繰り返すことにより顧客理解を深め、良い製品やサービスの提供に繋がることを心がけています。よって、現実的な価格帯で、データソースからETLツールやBIツールと連携しやすく、現場の担当者が業務に組み込みやすい特徴を持っています。ただし、優良顧客の育成や離反防止を進める有機的な組織の構築は企業により千差万別なので、初期導入コンサルテーションをお薦めしています。機械学習の扱いをご存知の方は、アカウント作成と同時に機械学習モデルの構築へと進むことができます。

 

古幡征史

MBO、KPIとOKR 〜組織の目標管理について考える〜

KPIの策定に関するプロジェクトがいくつか重なって、年末年始にいくつか本を読んだので整理をしたいと思います。ちなみに弊社には、KPIと比較されるMBOはありますが、正直いい感じに機能はしていないという印象です(2020.1.31現在)。

f:id:gri-blog:20200131150244p:plain:w400
読んだ本

目標管理をやる目的は、緊急でないけど重要なことを思い出すためだと思います。そしてそれらに期限を設け、成功 or 失敗のフィードバックを得て前に進めることが出来るためです。凡人はつい、目先の緊急なクライアントワークに没頭してしまって、1年経ってあれ自分は今年何を成し遂げったっけな?って思ってしまったりしたりしなかったりすると思います。現時点で今年の目標の1/12が達成出来ていると言えない時点で、もちろん私も他人事ではないです。

そうならないためにどうすればいいか?結論としては、OKRのやり方をマスターして実践するのが良さそうです。OKRはミッションドリブン型のクリエイティブよりの組織にも使えるKPIの進化形みたいなもので、3つくらい大切なポイントを挙げると

  • 指標が目的とセットである
  • 半分はボトムアップで決め、途中で修正可能
  • 1サイクルは四半期程度

があります。

導入を検討するにあたって本を一冊読むとしたら、『OKRシリコンバレー式で大胆な目標を達成する方法』クリスティーナ・ウォドキー (著)が良いと思いました。

書籍レビュー

簡単にレビューします。

『OKRシリコンバレー式で大胆な目標を達成する方法』クリスティーナ・ウォドキー (著)

ROIが最大の一冊を読むとしたら、これだと思います。 OKRとは何かから、どう運用していけばいいかまで書いてあるのことがおすすめです。

『Measure What Matters 伝説のベンチャー投資家がGoogleに教えた成功手法 OKR』ジョン・ドーア (著)

これは、OKRという手法を形にしたアンディ・グローブの言葉や事例が載っているの点がおすすめです。 二冊目に読むならこれです。

『「管理会計の基本」がすべてわかる本 第2版』金子智朗 (著)

管理会計を一通り理解するには、この本が分かりやすかったです。

PIXAR 世界一のアニメーション企業の今まで語られなかったお金の話』ローレンス・レビー (著)

各部署のKPIをトップに向かって集約すると会社の財務情報等になると思います。KPIが馴染むカルチャーと馴染まないカルチャーの会社があると思っており、馴染まなそうな会社の代表としてはクリエイティブなPIXERみたいな会社です。そんな会社をCFO目線で見たらどう見えるのかということに興味があり読んでみました。ただ、ジョブズとローレンス・レビーは制作チームに口出しをしないことにしたとあり、KPIの参考にはならなかったです。読んで単純にとまらなくなるほど面白かったのはこの本である。

MBOとKPI, OKRとは

MBOとKPIとOKRの関係について整理してみます。

MBO

MBOは多くの人が知っているかもしれません。一年とか半年に一回目標を立てるやつである。先輩に一年前のMBOをもらって適当に修正して出したりするアレです。なんとなく、つい70%くらいの力で達成できる目標を書いたりしてしまったりして、見返すと形骸化していて意味を成さなかったりします。

頻繁に更新しないために停滞したり、タコツボ化という罠にはまることもあった。

中略

致命的だったのは、ほとんどの企業がMBOを給与や賞与と連動させたことだ。 リスクを取ることがマイナス評価につながるのなら、なぜわざわざリスクを取る必要があるだろう。

『Measure What Matters 伝説のベンチャー投資家がGoogleに教えた成功手法 OKR』 ジョン・ドーア (著)

実現しやすくなる目標の原則に、SMARTの法則があります。ちゃんとこの法則に沿って目標を立てている場合、MBOももう少しうまく使いこなせるのかもしれません。

  • S 具体的
  • M 計測できる
  • A 達成できる
  • R 価値観に沿った
  • T 時間軸がある
KPI

KPI (Key Performance Indicator)は、KGI (Key Goal Indicator)を達成するためにどのプロセスを踏んでおけば良さそうか、の指標である。長大な組織がトップダウンで隅々まで業績管理していく必要がある場合、KPIはマッチするのかもしれないが、クリエイティビティが求められる組織には向かないかもしれない。

また、KPIを売上よりも利益からトップダウンで落とし込む方が目的に沿うことがあります。特にモノを売るビジネスでは、大きく展開すればするほど規模の経済が効いてくるので、損益分岐点がどこかを意識して今年度の計画を立てKPIを設定するということをする。というとき、ある程度の管理会計の知識が必要になってきます。管理会計とは、意思決定のための会計なのだそうです。 手っ取り早くKPI&管理会計のことを知りたい場合、『2時間でわかる図解KPIマネジメント入門』堀内智彦 (著) がおすすめです。この本は、最初に限界利益や機会損失などの説明が書いてあり、後半にKPIの設定方法や具体例まで書いてあります。 成功するポイントについては以下のように書いてあります。

また戦略マップから、落とし込んでビジネスを整理しKPIにしたい場合は、『KPIで必ず成果を出す目標達成の技術』 大工舎 宏 (著), 井田 智絵 (著) が参考になりました。

事例についてです。 限界利益額や在庫回転率などのメジャーなKPIだけでなく、もう一歩踏み込んでひと捻りしたKPIの事例は、以下のようなものがありました。

・提案依頼書獲得数

・定期的にメンテナンスで来店する顧客数(サイクルベースあさひ

・売上の新製品寄与率(小林製薬

・ありがとう率(SBI証券

『人と組織を効果的に動かす KPIマネジメント』楠本 和矢 (著)

OKR

次に、OKRです。

f:id:gri-blog:20200131150248p:plain:w250
OKRの例 『Measure What Matters 伝説のベンチャー投資家がGoogleに教えた成功手法 OKR』 ジョン・ドーア (著)

OKR (Objectives and Key Results)は、KPIの進化形とも言えると理解しました。Objective (O)は定性的なものをひとつだけ、Key Results (KR)は定量的なものを3つくらい決める。これらを使って、グループや個人を大胆なゴールに集中させる。Oは一定期間(たいていは四半期)のゴールを定める。KRは、期間の終わりにOを達成できたかどうかを判定するのに使う。

目標(O) 重要で、具体的で、行動を促し、人々を鼓舞するようなもの

主要な結果(KR) 具体的で時間軸がはっきりしており、意欲的であると同時に現実的だ。測定可能で検証可能でなければならない

『Measure What Matters 伝説のベンチャー投資家がGoogleに教えた成功手法 OKR』 ジョン・ドーア (著)

Objectiveから定める部分などからも分かるように、会計的な視点よりもまず、会社のミッションからObjectiveにブレイクダウンし、更にKey Resultsを決めていく。単に売上の数字目標を押し付けられるのではなく、Objectiveが先にあるのでみんなで同じ方向に向かっていけるしモチベーションを維持しやすい。『OKRシリコンバレー式で大胆な目標を達成する方法』クリスティーナ・ウォドキー (著) に良くない"O"とObjectiveがどんなものかについてこうある。

売上30%アップ なぜダメなのか。それは、KRにすべき内容だからだ。

Oは次の文を満たすひとつの文とする ・定性的で人を鼓舞する内容にする

・時間的な縛りをつくる

・各チームが独立して実行できるようにする

『OKRシリコンバレー式で大胆な目標を達成する方法』クリスティーナ・ウォドキー (著)

Key Resultsに関してはKPIに似ている点もあり、KRが満たすべき条件は以下のようにあります。

「重要な結果指標」が満たすべき条件

・「目的」への結びつき

・計測可能

・容易ではないが達成可能

・重要なものに集中

『本気でゴールを達成したい人とチームのためのOKR』奥田 和広 (著)

OKRの特に何がいいかというと、やはり緊急でないが重要な事柄に対して指標と期限を設定できるということです。実際のプロジェクトのタスクなど緊急なことは通常勝手に遂行されていく。しかし大きなビジョンを見据えgrowthしていく場合、重要な事柄のことを常にに考えているかが重要で、そのための仕組みとしてOKRは有用であると言えます。

まとめ

まとめとしては、会社が目指している方向性を揃えてOKRをやるといいよってことです。

かくいう私も、目標を立てて満足するタイプであるし、管理されずにできればPIXERの制作チームみたいなところでゼロイチを作る仕事をしてみたいとも思ったりもします。

Hiroki Saito