エレベーターの運行最適化に機械学習が必要?シミュレーションで体感

まずエレベータの運用ルールを振り返る

最近、機械学習の技術の発展を受けて、エレベーターを効率的に運行させるためにも機械学習を応用する試みがなされています。これを聞くと、「エレベーターの運行って、機械学習を使わなくてはならないほど複雑ではないのでは?」と思う方もいるかもしれません。

この記事は、「混雑緩和」のためにエレベータを増設しても「エレベータがなかなか来ない」という現象をシミュレーションで再現しながら議論していきます。

エレベーターの運行は、日ごろの経験からもわかるように、以下の簡単なルールで表すことができます。

  • 誰も待っていなければ動かない

  • 誰かが待っていると、その階に向かって移動する

  • エレベーター内の行先ボタンに従って移動する

  • 移動中に、同じ方向に向かいたい人が待っていたら、ついでに乗せる

  • エレベーターの進行方向と逆の方向で待っている人は一旦無視する

上記のシンプルな仕組みであれば、機械学習を使わなくても、「ルールベース手法」で十分なわけです。

機械学習とルールベース手法の違いについては、こちらをご参照ください;

【超優しいデータサイエンス・シリーズ】人工知能と機械学習の関係 - GRI Blog

では、なぜ機械学習を用いた運行最適化が注目されているのでしょうか?

それは、利用者数が多く、それに対処するために複数のエレベーターを併設している場合に起こる、ある厄介な現象に原因があります。その現象とは、「複数あるエレベーターが、お互いに競うように近い階にあって、どれもなかなか来ない」というものです。

エレベータの最適化を数学的に理解

上記の現象を、数学的なイメージで簡単に説明することができます。

ここでは、エレベーターの数は2個と仮定しましょう。

  • 最初は、2つのエレベーターは、離れた階に位置しています

  • 一方のエレベーター(A)が、もう一方のエレベーター(B)よりも、確率的な現象として、やや多めの客を対応することになったとします

  • Aは対応に時間を要し、先に進むのが遅れます。その分、Aが対応しなくてはならない(Aの先で待っている)客の数は増えていきます。

  • Aの進行が遅れることで、BはAに接近していきます。これにより、Bが対応しなくてはならない客の数は、Aが対応した後の短い時間内に発生した分のみなので、Aよりも少なくなます。これにより、Bは早く先に進むことができ、Aにますます接近します。

  • BがAを追い越してしまうと、この関係が逆転し、AがBに接近しやすくなります。

このように、2台のエレベーターはお互いに競い合ったように近い階に位置しやすくなります。

エレベータの挙動をシミュレーションで検証

今回は、この現象を、乱数を使ったシミュレーションにより検証してみました。シミュレーションにはnumPyパッケージを使用しました。

ルールベースで運用するエレベーターを再現すべく、以下のようなシミュレーションを組みました。

シナリオ1:エレベーターが1台の時の混雑状況

まずは、エレベーター1機の場合で、建物は1~9階の9階建てという設定にしました。

  • 単位時間(例えば1秒)あたり、約1/4の確率で新たな待機者が現れます。(厳密には、4/15の確率となっています。アルゴリズムを組む手間の都合上で、深い意味はありません)

  • 待機者の出発階と目的階は乱数で1~9の範囲で出力します(出発階≠目的階とする)。

  • エレベーターの昇降速度は、単位時間当たり1階分、開閉時間は、昇降人数によらず5単位時間とする。

  • エレベーターの乗客定員はないものとする(やや無理のある設定なので、今後アルゴリズム改善の余地あり)

エレベーターは以下のアルゴリズムに従って運行するとします。

(1) 機内に乗客がおらず、かつ誰も待っていなければ動かない

(2) 機内に乗客がおらず、誰かが待っていると、その階に向かって移動する

ここでは、現在地に対して、逆方向に複数人が待機している場合は、直前の移動方向を優先

また、目的階が逆方向となる複数の客が同一階に待機している場合も、直前の移動方向と一致する客を優先

(3) 機内に乗客がいる場合は、その乗客の目的階に向かって移動する

(4) 移動中に、同じ方向に向かう人が待っていたら、ついでに停止し扉が開いて乗せる

(5) 移動中に、逆の方向に向かう人が待っていても、無視して通過する

5000単位時間までの、シミュレーション結果は以下の通りとなります。1~9階を常に往復し続けています。

f:id:gri-blog:20201225100502p:plain

300単位時間までを拡大すると、下記のようになります。 f:id:gri-blog:20201225100554p:plain

上記の図から、ほぼ各階で止まっていることが確認できます。すなわち、各階で、待機している人、もしくは、降りる人が存在している状況です。相当混雑している様子が伺えます。

実際に、待っている人数と、エレベーター内の乗員数をプロットすると、下図のようになります。平均9.4人、最大21人が待機していて、エレベーター内には平均4.3人、最大14人が乗っている状況です。これでは快適なエレベーター環境とは言えませんね。

f:id:gri-blog:20201225100716p:plain

f:id:gri-blog:20201225100743p:plain

シナリオ2:エレベーター増設すると混雑が緩和される?新たな問題点は?

シナリオ1で作成したアルゴリズムを拡張し、エレベーターを2台に拡張しました。その際、以下のルールを追加しました。

  • 2機とも乗客がおらずフリーの時は、1号機が優先し、2号機は動かない。

5000単位時間までの、シミュレーションの結果は以下の通りです。

f:id:gri-blog:20201225101521p:plain

1~9階を常に往復し続けているようですが、この図だけではわかりにくいので、300単位時間までを拡大しました。確かに、最初は1号機から動き出し、2号機はその後に待ち始めた人を対応し始めるのですが、すぐに1号機に追いつき、1号機と2号機はほぼ同調して動いてしまいました

f:id:gri-blog:20201225101611p:plain

エレベーターの増設の目的は混雑と待ち人数の緩和でしたから、その効果を見てみましょう。

確かに、待機している人の平均は4.7人に減り、エレベーター内の乗員も平均1.8人、最大7人と、混雑が大幅に改善され、混雑緩和という目的は達成しているといえます。

f:id:gri-blog:20201225101722p:plain

しかしながら、2台のエレベーターが近いところにあって、「なかなか来ない」問題は残っています。実際、この2台のエレベーターはお互いどれくらい近い位置に存在しているのでしょうか?

ここで2台のエレベーターが、それぞれ1~9階のいずれかにランダムな確率で存在するとします。その場合、2台のエレベーターの現在地の差は0~8のいずれかとなり、その確率は下図のようになります。期待値を計算すると、2.96となります。ところが、エレベーターの動作アルゴリズムに従ってシミュレーションを行うと、下図のように、現在地との差が0~1のいずれかである確率がランダムな場合よりも高くなり、期待値は1.87となりました。すなわち、エレベーターを増設すると、2台のエレベーターは近い位置で競い合ってしまう現象が再現できました。

f:id:gri-blog:20201225101901p:plain

まとめ

今回、簡単なシミュレーションにより、複数のエレベーターが互いに追いかけあう現象を観察してみました。

問題を簡単にするため、以下のような仮定を置き、必ずしも現実を再現できていない部分もあります。

  • 乗員定員を定めない→現実には定員オーバーすると乗れない

  • 開閉時間は、昇降人数によらず5単位時間→現実には昇降する人が多くなると開閉時間が長くなる

  • 出発階と目的階をランダムに等確率で発生させている →現実には、出発階と目的階は1階(または出口のある階)に集中する

しかしながら、冒頭で述べたような「ルールベース」の運用法で発生してしまう「エレベーター同士の追いかけ合い」の本質を再現することには成功したと考えています。この現象は、「待たされている」「なかなか来ない」という不満感をもたらしてしまいます。この不満感を、混雑緩和という重要な目的を損なうことなく、いかに解決するか。その実現のため、機械学習の手法が用いられ、研究されていることを実感できます。

担当者:ヤン・ジャクリン(分析官・講師)

やり過ごしを許す職場が長期的に安定?

私は日々、「人の成長」を対象に、教育の仕事しております。その中で、教育の重要な一部である「仕事のやり方」について考察しようと思いました。

進学、就職、転職などの人生の転機においては、次のステージで成長し、成果を出し、存在感を出していきたいとの意欲が高まります。モチベーションが昂っている間は、以下のことを成し遂げようとします

  • わからないことはその日のうちに調べて学ぶ

  • 指示されたこと、助言されたことは速やかに完遂する

  • 将来起こるであることを先読みし、起こりうるそれぞれの場合に対して、対応を考え、準備しておく

まるで新入社員に向けた仕事の心得のようなフレーズです。残念ながら多くの場合、このような意気込みに無理が生じ、やがて限界を迎えます。

私自身も日頃、自ら無理を生じさせており、時折仕事効率に改善の余地を痛感します。この記事は自分自身への戒めでもあります。

若手社員の悩み:上からの指示に対する優先順位

仕事というのは減ることがありません。未来には不確定性があるので、先読みによる準備をしようとすると、やるべきことは指数関数的に増大するばっかりです。だからこそ、優先順位をつけることにより、仕事を選別し、効率化を図るべきです。今でも、若手社員が「優先順位をつけて、効率化したい」などと発言すると、先輩社員から「楽をするな。昔は時間を気にせず何でもやった」などと叱られるような職場環境が世の中に存在するらしいです。この「ベテラン」社員の発言はどう思いますか?本人たちは「すべてやれ」と言いつつも、誰にでも必然的に1日24時間という制約があり、この中で優先順位をつけていたのです。関心事すべてに対応するなんて、非現実的そのものです。

仕事の優先順位付けを考える上で、若い社員が悩むことは、「会社の上層からの些末な内容の指示」をどう取り扱うか、です。ある会社の事例では、若手社員からの提案に対しては「なぜ今それをやらなくてはならないのか」が徹底的に問い詰められるのに対し、役員陣からの提案に対しては「やらない理由、やらなくてよい理由や根拠はあるのか」といった正反対のロジックが用いられます。この事例では、若手社員は「優先順位お妥当性」を掴められなくなる、だけではなく、自分たちの提案が自動的に価値のないものと扱われることへの失望感も感じてしまいます。

やり過ごしが救い主?

増え続ける仕事、特に些末な指示に対して、世の中の人々はどのように対応しているのでしょうか?

その一つが、「やり過ごし」です。

経営学者の高橋伸夫氏の著名な研究の一つに、この「やり過ごし」の効能があげられます。やり過ごしとは、上司からの指示を完成させずに放置し、そのうちに指示そのものが無かったかのようになることです。日本において長期的に安定している組織を観察すると、このやり過ごしが高い頻度で見られると言われます。そして、そのようなやり過ごしの対象となる指示の特徴は、以下の二つです。

  • 「上司の曖昧性」: 例としては、上司が背景や経緯を十分に理解していないために生じる目標に対して的外れな指示や、上司の性格に由来する単なる思い付きのような指示です。
  • 「状況の曖昧性」:例としては、複数の指示系統が存在して人によって方針が異なる指示がある、納期や目的が明確化されないなどが挙げられます。

このような曖昧性のある指示は、しばしば有能な部下によって適切に優先度がつけられ、適切に「見過ごされ」、いつの間にか指示が無かったかのようになり、上司の指示に従わなかったにもかかわらず、組織全体としては効率的に回っていくのです。

日米のジョブディスクリプションの違い

高橋氏の書籍では、職場の上司と部下の主従関係が、このような柔軟性を持っていることが日本の組織の特徴だ主張されています。よく知られるように、アメリカの組織では、上司の指示は絶対的なものであり、明確なジョブディスクリプションに基づいて評価や報酬が決まります。このようなシステムでは、やり過ごしは、組織の損失を招き、許されないものです。高橋氏は、このようなジョブディスクリプションに基づく厳密な成果主義には弊害があると主張しています。日本のようなやり過ごしによって、部下が自ら業務を効率化し、対応していける組織は、柔軟性を持ち、長期的な安定性を示すことがあります。もちろん、アメリカではこのやり方で経済大国となったことから、当然成果主義にはメリットもあります。しかし、日本は、アメリカとは文化も習慣も異なりので、アメリカ流を導入すればうまくいくほど簡単ではないでしょう。成果主義は、短期的な目標を絶対的な基準として部下を評価します。部下に失敗することは許されず、試行錯誤する余地は与えられません自分なりに優先度を決めて試行錯誤することがなければ、成長の機会もなく、やりがいも感じられません。上司の指示通りにやることで、短期目標に対しては成果が出るかもしれないが、部下のオリジナリティーから生まれるイノベーションは期待できません。これでは、部下の職務への満足度は低くなり、先への見通しが立たなくなった部下は、いずれ職場を去ることになります。

部下に試行錯誤の余地を与えて、適度な「やり過ごし」を見逃す。そして、それによって効率化できたならば、あるいは、成果が出たならば、やり過ごしも含めて、しっかりと正当に評価すべきではないでしょうか。そういった職場風土から、部下は自分で考える習慣が身につきます。長期的に安定化する職場とは、そういうものではないかと思います。

担当者:ヤン・ジャクリン(分析官・講師)

濫用されるマズローの法則

社会人としての心構えや自己啓発に関する本が多く流通しております。仕事のモチベーションアップやマーケティングなどに関する本にたびたび登場する概念の一つに「マズローの欲求5段階説」があります。これは新入社員のOJTに関する書籍などでも頻繁に取り上げられています。しかし、この概念は、広まるにつれて、様々な誤解、拡大解釈や、独自の解釈が入り込みます。本来な定義とは異なった勝手な扱われ方をしている場合には要注意です。その中でも、一番危険なのは、科学ならず疑似科学の領域に入り込み、真理ではなく、価値観の押し付けに近い、危険な使われ方をすることです。

マズローの欲求5段階説」とは

そもそも、「マズローの欲求5段階説」とは何でしょうか? 人間の欲求には「生理的欲求」「安全の欲求」「社会的欲求」「承認欲求」「自己実現の欲求」の5段階がある、という主張です。そして、本によっては、「生理的欲求」を低位の欲求とし、それが充足されることによって、より高位の欲求が現れるとし、「自己実現の欲求」が最も高位の欲求であるとされています。

マズローの欲求5段階説」を解釈する上での注意点

注意しなくてはならない点は、このマズローの欲求5段階説」は、何らかの科学的な方法によって検証されたものではない、という点です。むしろ、科学的には既に否定された概念です。確かにマズローは著名な心理学者だが、人間の欲求を大別して、考察をする上で用いた仮の枠組みに過ぎないのです。

マズロー自身は、人間の欲求を5種類に大別して、心理学的な研究を行ったものの、これを図1のようなピラミッドの構造で表現したのはマズロー自身ではありません。この階層構造は、マズローの著作が解釈され、多くの人に共有化されるに伴い、伝言ゲームのように独自の解釈が入り込み、元の著作の趣旨と異なって解釈されてきた結果生まれたものといえます。

f:id:gri-blog:20201219145827p:plain
図1

さらに、この欲求5段階説に対する批判としては、このマズローの欲求の階層構造が、イデオロギー性を帯びているという点にあります。イデオロギーというのは、「社会集団や社会的立場(国家・階級・党派・性別など)において思想・行動や生活の仕方を根底的に制約している観念・信条の体系」、言い換えると、「歴史的・社会的立場を反映した思想・意識の体系」のことです。

たとえば、仕事に対するモチベーションを例にとると、お金を得ることを主目的に働いている人はレベルが低く、夢の実現に向かって働いている人はレベルが高いといった、優劣の価値観の押し付けにつながります。それは誰が勝手に決めつけて良いだ、と思いませんか?確かに、多くの書籍ではこの点に注意して書かれており、働く目的、すなわち、働くことで満たしたい欲求は「人それぞれであって、その人に合わせた対応や助言をすることが、本人のモチベーションアップに有効」とされています。それでも、「どのような欲求を持つことが適切か」という優劣を付けていなくても、その書籍に登場する「ピラミッド型の図」そのものが価値観の押し付けにつながる拡大解釈を招く危険を孕んでいます。

マズローの5つの欲求分類は、あくまでも、「このような視点を借りることで、より適切な助言や対応ができるようになる」、といった一つのツールとして使うべきと思います。価値観は人それぞれであり、それは守られるべきです。

ピラミッド構造の別の解釈

最後に、かなりの私見を書きます。例のピラミッド構造が既に書籍や人々の概念の中に浸透している今では、一斉廃止することは不可能でしょう。一方で、必ずしも、最下位の「生理的欲求」やその次の「安全の欲求」を「一番レベルが卑しい」ものと解釈する必要がありません。それらをむしろ上からくる他のすべての欲求の「前提」「基礎」と思うことが出来ます。我々は動物としての生理的欲求が満たされてはじめて脳がより複雑な思考に移ることが出来ます。また身の危険を感じている場合(安全の欲求が満たされていない場合)に仕事のモチベーションまで頭を回せる人は少ないでしょう。

担当者:ヤン・ジャクリン(分析官・講師)

蒸留モデルを創薬分野へ活用

AIを用いた薬開発

この記事では、機械学習の手法を創薬に応用させているトピックを紹介します。

昨今のウィルス拡大の中、メディアでは、「人工知能を用いた治療薬開発」に関する報道が相次いでいます。現時点、開発終盤の治験の段階は人工知能(AI)に完全に置き換えることができないため、そのように開発された治療薬が速やかに上市するには至っていません。

しかしながら、現在流行している新型コロナウィルスの長期的な影響を考えると、このような、AIを用いた迅速な治療薬開発の技術構築を続けることは、人類にとって有意義な財産となるでしょう。仮に新型コロナウィルスが根絶したとしても、今後も人類は新たなウィルスに直面し続けるので、全く同じスタンスです。

人工知能」というワードは一旦脇に置き、コンピュータを用いた薬の開発全体の歴史は非常に長いです。自然現象を包括的に支配する方程式がニュートン方程式のような古典的な式では完全に賄えないことが明らかとなりました。それをもって、分子の挙動は解析的に解くことのできない量子論的な式で記述され、コンピュータを用いた数値計算が活用されるようになりました。分子1つの挙動でさえ、非常に複雑な方程式を近似することによってしか記述できません。その上で膨大な数の分子、さらにタンパク質や核酸などの巨大分子の相互作用となれば、数値計算でさえも容易ではありません。

蒸留モデルを用いた分析手法

機械学習の分野では、「蒸留」という手法があります。大きいアルゴリズムの「入力」と「出力」を学習させることで、本質を捉えた小さなモデルを作るやり方を指しています。創薬においても、蒸留のコンセプトを用いたシミュレーションの効率化が盛んに研究されています。スパコンを用いて高精度なシミュレーションを行った「入力」と「出力」をデータベース化し、これを用いて機械学習のモデルを構築します。このようなプロセスにより、どのようなアミノ酸配列であれば、どのような相互作用により、どのような寄与が働くのか、ということが抽出され、小さなモデルで再現することができるようになります。

このようなモデルを作ることのメリットとして以下が挙げられる。

  • スパコンが使えない人にも、疑似的なシミュレーションを行うことができ、多数の研究者による研究が活発化し、技術開発が促進される

  • 網羅的なスクリーニングを小さなモデルで行い、高い性能が期待できるものについて高精度なスパコンを用いるといった、柔軟な対応により、研究全体の効率化を図ることができる

上記のような蒸留モデル意外にも、創薬分野においては近年、機械学習の技術の活用が盛んにおこなわれています。2012年にKaggleで薬の活性を予測するコンテストを行いました。そのときに優勝したチームは、深層学習を用いることで、創薬の専門家の支援なしに勝利したことで注目されました。

データサイエンス分野の研究者が創薬に参入したことで、従来のように論文のみが公開されるのとは異なり、アルゴリズムそのものがオープンソースとして公開され、誰にでも利用され、技術検証できるようになりました。これは研究開発のスピード向上に貢献します。このように、機械学習が既存の分野に入ることで開発の効率化に寄与しています。薬は、治験など時間のかかるプロセスがあるため、承認されるまでに時間がかかります。そういう事情もあって現時点では機械学習モデルを活用した承認薬の開発はまだ報告されていません。しかし、すでに治験フェーズに入っているものは複数あり、近い将来、機械学習によって開発された薬によって、私たちの健康が守られていくようになるのでしょう。

担当者:ヤン・ジャクリン(分析官・講師)

G検定に関するTwitter上の最頻出用語を解説

G検定(公式名:ジェネラリスト検定)は、一般社団法人日本ディープラーニング協会(JDLA)が実施している、ディープラーニングを事業に活かすための知識を有しているかを確認するための試験です。年に3回実施されます。G検定の詳細は以下の記事をご覧になってください。

G検定(ジェネラリスト検定)とは?【データサイエンティストに関わる資格】 | データサイエンスコラム|アガルートアカデミー

こちらの記事では、新たに勉強を開始する方への参考となる指針を抽出すべく、Twitter上のG検定に関する投稿を分析し、最新のG検定の出題傾向を探ってみました。

Twitterのコメントから分析するG検定 - GRI Blog

この記事では、その中で最も頻繁に現れた専門用語について、解説していきたいと思います。G検定試験は、人工知能機械学習ディープラーニングに関する技術的な知識だけではなく、AI分野の法律や関連分野の規則についても出題されます。後者は受験者に軽視されがちである一方で、分析結果からでもわかるように、合否の決め手ともなり得ます。試験とは関係なく、これらの知識はAIに関わる仕事に携わる人々も、近未来社会を生きるすべての人々も知っておく事項が多いです。

<2020年3月の試験後、Twitterにおける最頻出用語>

f:id:gri-blog:20201218102145p:plain

では、以下で解説していきます。

個人情報保護法

再頻出のキーワードとして、「個人情報」がありました。2020年6月に個人情報保護法の改正が行われました。デジタル化が進み、データ活用が進む中、個人情報は十分に注意を払って取り扱わないと、うっかり公開してしまったり、第三者に開示してしまったりすることで、トラブルになる危険性があります。一方で、データサイエンスはこのような膨大なデータをいかに有用に活用するかという技術ですから、個人の保護と社会への貢献のバランスがとれるようなルールが、その時代の技術レベルや社会動向に合わせて改正されています。

個人情報保護法では、民間事業者が個人情報を取得、利用、保管、提供する際のルールを定めています。例えば、利用目的を明確にし、安全に保管する、などの守るべき事項が定められています。2020年の改正では、データサイエンスの分野では重要となる「仮名加工情報」という概念が導入され、また、某就職情報サイトの事件に関係する「第三者提供」に関する法改正がなされましたので、どういう内容なのかを知っておきましょう。

データサイエンスの基礎知識として、この個人情報の取り扱いの注意事項は知っておく必要がある。そういう趣旨で個人情報保護法に関する多数の出題がなされたものと思います。

不正競争防止法

次に「営業秘密」というキーワードが目立ちました。これは、不正競争防止法の概念です。不正競争防止法も、個人情報保護法と同様に、データサイエンスに関わる人だけではなく、どのような仕事をする上でも守らなくてはならない重要なルールを規定していますから、しっかり理解しておくことが重要な法律です。

では、なぜこのタイミングで、G検定で出題されているのでしょうか。2019年の不正競争防止法の改正にあると思われます。この改正では、ビッグデータなどのデータ活用を促進する目的で、「限定提供データ」という概念が導入されました。これがデータサイエンス業界においては、非常に重要で、しっかり理解しておくことが不可欠なものなのです。

限定提供データとは、厳密な定義は条文を参照していただくとして、商業的な利用価値の高いビッグデータで、一定の条件の下で特定の者に提供するデータのことを指します。このようなデータは、取得、蓄積、管理にコストがかかっています。その有用性から不正に取得・利用されると、損害を受けてしまいます。このようなデータを法的に保護し、不正な利用を防止する目的から、不正競争防止法におけるルールとして加えられたのです。また、限定提供データの定義には、「営業秘密ではないこと」という要件が入っていることから、その理解には「営業秘密」とは何か、その取り扱いの注意事項を知っておく必要があります。

その他・法律/倫理

上で特に頻出したキーワードである「個人情報」と「営業秘密」について説明しました。そのほか、twitter上では、「知的財産」「特許」「著作」などのキーワードも登場しました。特許法著作権法も、データを取り扱う上で重要な法律です。特に、開発したプログラムや機械学習アルゴリズムが知的財産としてどのような扱いを受けるのか、ぜひ理解しておきましょう。

また、twitter投稿から窺うと、ディープラーニングの技術的な進展の中、自動運転やドローンに関する出題もあるとのことです。特に、自動運転に関しては、その実用化に備えて、道路改正法の改正が行われています。法律上で「自動運行装置」が明確に定義され、いわゆる「レベル3」の自動運転車の公道走行が可能になりました。しかし、安全上の観点から、いくつか義務が明記されています。自動運行装置を使う運転者には守らなくてはならない義務があります。また、作動状態記録装置による記録・保存義務も定められています。

XAI(説明可能なAI)

ディープラーニングは他の機械学習手法と比べて、ブラックボックス度が高く、その推定結果の解釈性に劣るということが言われてきました。それは現時点でも同じであり、G検定でもよく出題されるポイントです。

一方、そのブラックボックスを少しでも見えるようにする試みがなされており、推定のプロセスを人間が理解できるようにする技術の開発が進められています。アメリカのDARPA(国防高等研究計画局)が「XAI (Explainable AI)」と命名し、広く概念が知られるようになりました。技術的には発展途上ですが、今後のデータサイエンスの発展のカギとなる重要な概念です。

その他の頻出概念

Twitterの投稿によると音声認識強化学習が多数出題されたとのコメントがあります。音声認識自然言語処理強化学習は、研究が盛んにおこなわれている領域ですので、日々技術は進化しています。すべてを理解することは難しいかもしれませんが、AI白書などの最新情報から、どのような方法でどこまでできるようになったのかを知っておくことは重要でしょう。

また、最新の技術だけでなく、twitterによると、「統計学」の知識を問う問題も出題されました。特に、共分散や相関係数といった基礎的な概念から、自己回帰モデルなどのやや発展的な統計手法もキーワードとして出てきました。機械学習ではない、従来の統計学も、データサイエンスにおいては、重要なツールです。場合によっては、最新の技術を使うのではなく、古くから知られる伝統的な統計手法のほうが、解釈性に優れた結果を出すこともあります。機械学習と合わせて、統計学の勉強もお勧めします。

時事問題としては「ディープフェイク」がキーワードとして登場しました。最近では、本来ディープニューラルネットワークを使って正しく認識できるはずのデータに、何らかの人為的なノイズを加えることによって、その認識にエラーが発生してしまう、判断を誤ってしまうという現象が、「adversarial example」として知られています。これは、前に述べたディープラーニングブラックボックス性もあり、問題となっています。XAIなどの技術進展とともに、このような誤認識を防ぐための技術開発にも期待が高まっています。

以上、twitterから見える、最近のG検定試験における興味の高い用語を解説しました。

弊社では、G検定試験対策講座を提供しております。本講座では、初めてデータサイエンスを学ぶ方でも充実して学べるように、初歩的な事項から入り、一歩一歩丁寧に知識をお伝えしていきます。ついていけるか不安のある初学者の方、基礎からG検定合格にリーチするレベルまで学習したい方に最適な講座です。是非覗いてみてください。

担当者:ヤン・ジャクリン(分析官・講師) www.agaroot.jp

Twitterのコメントから分析するG検定

G検定は、一般社団法人日本ディープラーニング協会(JDLA)が実施している、ディープラーニングを事業に活かすための知識を有しているかを確認するための試験です。年に3回実施されます。G検定の詳細は以下の記事をご覧になってください。

G検定(ジェネラリスト検定)とは?【データサイエンティストに関わる資格】 | データサイエンスコラム|アガルートアカデミー

さて、2020年の3回目のG検定(公式名:ジェネラリスト検定)が11月に行われ、すでに合格発表が行われました。

受験者数と合格率はオフィシャルサイトに記載されています。一方で、試験問題や合格基準は非公開であり、どういう問題が解ければ合格できるのか、という点については、公式情報だけでは必ずしも十分な情報が得られるわけではありません。

そこで、2020#3試験の受験者が投稿したと思われるtwitterの投稿を分析することで、最新のG検定の出題傾向を探ってみました。新たに勉強を開始する方への参考となる指針を抽出することが目的です。

なぜtwitterの投稿を分析するのか?

なぜ、twitterの分析をしたのか。その理由にこたえるためには、G検定の特徴を知る必要があります。G検定は、ディープラーニング機械学習を中心とするデータサイエンスの分野について、ビジネスに活用できる基礎知識を有しているかどうかを認定する試験です。このデータサイエンスの分野は、完成された学問分野ではなく、現在まさに技術の開発がすすめられ、社会への実装がリアルタイムで試みられている領域です。日々技術が進化し、学ぶべき内容が変わっていく、そのような分野だということです。そのため、G検定が認定するのは、あくまでも“受験したタイミングにおける”基礎知識を有していることであって、一度合格すれば、永久に通用する知識を持っていることが保証されるわけではありません。一旦合格しても、日々学習を続けなければ、最先端のデータサイエンスを理解しているとは言えないわけです。

G検定は問題が公開されておらず、難易度も変化しているのは上記の理由から、といわれています。Twitterの投稿を分析すると、問題が非公開であることや、出題範囲や問題のレベルが不明確であることについて、批判的なコメントが見られます。しかし、G検定の検定目的や技術分野の特徴を考えると、この批判は当たらないのではないか、と思います。

一方で、実際に受験する立場や合格後に勉強を続ける立場としては、膨大な数の専門家が切磋琢磨して進化している分野の最先端を、隅々までフォローすることは容易ではありません。ですから、問題そのものは非公開であっても、実際にG検定を受験した方々の感想をもとに、どのような概念がこの分野の基礎知識として追加されたのかを知ることは、検定対策としても、また継続的な勉強の指針としても有用なことだと思います。

今後初めてG検定を受験される方は、市販の教材を勉強する、各社が提供する講座に参加することで、基礎を自主的に固めることが重要です。さらに、テキストが出版された以降に進化した技術をフォローし、自信をもって検定に臨むためには、このようなweb上の情報をもとに、最新情報についてチェックしておくことが有効です。

それでは、前置きが長くなりましたが、本論に入ります。

G検定に関するTwitter投稿の分析

データ収集

実際に検定が行われた日(2020年11月7日)から1か月間にわたるtwitterの投稿を「G検定」で検索をかけてデータを収集しました。その上で広告投稿や受験者と無関係と思われる投稿を、独自のアルゴリズムで取り除き、受験者の感想を抽出しました。

11月7日15時頃に検定が終了し、その前後から、多数の投稿が見られます。

全体的な印象

まず、予想以上の難しさであったとの投稿が多くを占めます。

f:id:gri-blog:20201218102130p:plain

頻出ワード

投稿の中に含まれるキーワードを分析したところ、下図のようになりました。「営業秘密」「個人情報」「法律・倫理」「XAI」などのキーワードが頻出しており、受験者にとって印象に残る問題だったのだと思われます。前述の通り、最新の技術動向や社会の状況に合わせて出題されているため、そこまで学習ができていなかった受験者が多かったものと思われます。

f:id:gri-blog:20201218102145p:plain

後続の記事では、上記の頻出用語について解説します。

gri-blog.hatenablog.com

なお、問題文は非公開ということで、検定の趣旨を踏まえると、問題の解答を与えることは適切ではないと思います。代わりに記事では各キーワードについて、ポイントのみ紹介しています。いずれも、データサイエンス業界だけではなく、新聞などのメディアでも取り上げられているものですので、この分野の基礎知識として押さえておきましょう。

出題傾向の分析

以上、twitterのキーワードから、最近の出題動向を分析しました。

試験終了後、難しかったとの多くの投稿があったことを述べましたが、11月19日13時の合格発表時には、多数の合格の喜びの声が投稿されました。もちろん、不合格だった人は投稿しにくい、ということもあるかと思います。それでも、実際には試験時に手ごたえを感じられなかった人も、多くの人が合格できたようです。アカウント毎の分析でも、そのような傾向が見られました。

f:id:gri-blog:20201218102158p:plain

G検定では、基礎知識として知っていることが期待されている内容が出題されるのですが、そのすべてを理解してなくては合格できないわけではありません。特に、最新の技術動向については、完全にフォローすることは容易ではないでしょう。

私の推測ではありますが、そのような難易度の高い問題は、必ずしも受験の際に知っていることが要求されているわけではなく、この受験を機に、解けなかった問題については自分で調べて知識を広げてください、というメッセージのように感じます。

合格はゴールではなく、ジェネラリストとしてのスタートです。G検定をひとつのマイルストーンとして、継続的に勉強を続ける姿勢、それがジェネラリストに求められるものだと思います。

弊社は、G検定試験対策講座を提供しており、本記事の担当者が講師をしております。本講座では、初めてデータサイエンスを学ぶ方でも充実して学べるように、初歩的な事項から入り、一歩一歩丁寧に知識をお伝えしていきます。ついていけるか不安のある初学者の方、基礎からG検定合格にリーチするレベルまで学習したい方に最適な講座です。是非覗いてみてください。

www.agaroot.jp

担当者:ヤン・ジャクリン(分析官・講師)

BigQueryとRedshift、どっちが速いのか

Randall Munroeという方の「Comics that ask "what if?"」というTED Talkがあります。

www.ted.com

投稿されたあらゆる質問に数学や科学を使いながら答えている人で、あるときこんな質問が来たそうです。

「もし世界中のデータが全部パンチカードに記録されていたら、グーグルが保有するデータの量はどの位?」

彼なりの答えをサイトにアップしたら、その後グーグルからメッセージが来たそうで、、、続きはユーモラスなので是非TEDを見てみてください。


じじ(お義父さま)は、もう還暦を迎え引退しておりますが、かつて会社にパンチカードのマシンがあったそうです。若かりし頃、とある処理をやらせたらそれはそれは遅いと。どのくらい遅いかと言うと、別の人がやってきて数値を方眼紙に鉛筆でポチポチプロットしていって、最後に最小二乗法っぽい感じにエイヤッと定規で線を引いて出来上がりとなったとき、一方まだパンチカードは計算中というくらい遅かったそうです。


BigQueryとRedshift、どっちが速いのかという話が議論になることがあります。そんなとき私は、心の中ではどっちもパンチカードより断然優れているぜと思っております。