Twitterのコメントから分析するG検定

G検定は、一般社団法人日本ディープラーニング協会(JDLA)が実施している、ディープラーニングを事業に活かすための知識を有しているかを確認するための試験です。年に3回実施されます。G検定の詳細は以下の記事をご覧になってください。

G検定(ジェネラリスト検定)とは?【データサイエンティストに関わる資格】 | データサイエンスコラム|アガルートアカデミー

さて、2020年の3回目のG検定(公式名:ジェネラリスト検定)が11月に行われ、すでに合格発表が行われました。

受験者数と合格率はオフィシャルサイトに記載されています。一方で、試験問題や合格基準は非公開であり、どういう問題が解ければ合格できるのか、という点については、公式情報だけでは必ずしも十分な情報が得られるわけではありません。

そこで、2020#3試験の受験者が投稿したと思われるtwitterの投稿を分析することで、最新のG検定の出題傾向を探ってみました。新たに勉強を開始する方への参考となる指針を抽出することが目的です。

なぜtwitterの投稿を分析するのか?

なぜ、twitterの分析をしたのか。その理由にこたえるためには、G検定の特徴を知る必要があります。G検定は、ディープラーニング機械学習を中心とするデータサイエンスの分野について、ビジネスに活用できる基礎知識を有しているかどうかを認定する試験です。このデータサイエンスの分野は、完成された学問分野ではなく、現在まさに技術の開発がすすめられ、社会への実装がリアルタイムで試みられている領域です。日々技術が進化し、学ぶべき内容が変わっていく、そのような分野だということです。そのため、G検定が認定するのは、あくまでも“受験したタイミングにおける”基礎知識を有していることであって、一度合格すれば、永久に通用する知識を持っていることが保証されるわけではありません。一旦合格しても、日々学習を続けなければ、最先端のデータサイエンスを理解しているとは言えないわけです。

G検定は問題が公開されておらず、難易度も変化しているのは上記の理由から、といわれています。Twitterの投稿を分析すると、問題が非公開であることや、出題範囲や問題のレベルが不明確であることについて、批判的なコメントが見られます。しかし、G検定の検定目的や技術分野の特徴を考えると、この批判は当たらないのではないか、と思います。

一方で、実際に受験する立場や合格後に勉強を続ける立場としては、膨大な数の専門家が切磋琢磨して進化している分野の最先端を、隅々までフォローすることは容易ではありません。ですから、問題そのものは非公開であっても、実際にG検定を受験した方々の感想をもとに、どのような概念がこの分野の基礎知識として追加されたのかを知ることは、検定対策としても、また継続的な勉強の指針としても有用なことだと思います。

今後初めてG検定を受験される方は、市販の教材を勉強する、各社が提供する講座に参加することで、基礎を自主的に固めることが重要です。さらに、テキストが出版された以降に進化した技術をフォローし、自信をもって検定に臨むためには、このようなweb上の情報をもとに、最新情報についてチェックしておくことが有効です。

それでは、前置きが長くなりましたが、本論に入ります。

G検定に関するTwitter投稿の分析

データ収集

実際に検定が行われた日(2020年11月7日)から1か月間にわたるtwitterの投稿を「G検定」で検索をかけてデータを収集しました。その上で広告投稿や受験者と無関係と思われる投稿を、独自のアルゴリズムで取り除き、受験者の感想を抽出しました。

11月7日15時頃に検定が終了し、その前後から、多数の投稿が見られます。

全体的な印象

まず、予想以上の難しさであったとの投稿が多くを占めます。

f:id:gri-blog:20201218102130p:plain

頻出ワード

投稿の中に含まれるキーワードを分析したところ、下図のようになりました。「営業秘密」「個人情報」「法律・倫理」「XAI」などのキーワードが頻出しており、受験者にとって印象に残る問題だったのだと思われます。前述の通り、最新の技術動向や社会の状況に合わせて出題されているため、そこまで学習ができていなかった受験者が多かったものと思われます。

f:id:gri-blog:20201218102145p:plain

後続の記事では、上記の頻出用語について解説します。

gri-blog.hatenablog.com

なお、問題文は非公開ということで、検定の趣旨を踏まえると、問題の解答を与えることは適切ではないと思います。代わりに記事では各キーワードについて、ポイントのみ紹介しています。いずれも、データサイエンス業界だけではなく、新聞などのメディアでも取り上げられているものですので、この分野の基礎知識として押さえておきましょう。

出題傾向の分析

以上、twitterのキーワードから、最近の出題動向を分析しました。

試験終了後、難しかったとの多くの投稿があったことを述べましたが、11月19日13時の合格発表時には、多数の合格の喜びの声が投稿されました。もちろん、不合格だった人は投稿しにくい、ということもあるかと思います。それでも、実際には試験時に手ごたえを感じられなかった人も、多くの人が合格できたようです。アカウント毎の分析でも、そのような傾向が見られました。

f:id:gri-blog:20201218102158p:plain

G検定では、基礎知識として知っていることが期待されている内容が出題されるのですが、そのすべてを理解してなくては合格できないわけではありません。特に、最新の技術動向については、完全にフォローすることは容易ではないでしょう。

私の推測ではありますが、そのような難易度の高い問題は、必ずしも受験の際に知っていることが要求されているわけではなく、この受験を機に、解けなかった問題については自分で調べて知識を広げてください、というメッセージのように感じます。

合格はゴールではなく、ジェネラリストとしてのスタートです。G検定をひとつのマイルストーンとして、継続的に勉強を続ける姿勢、それがジェネラリストに求められるものだと思います。

弊社は、G検定試験対策講座を提供しており、本記事の担当者が講師をしております。本講座では、初めてデータサイエンスを学ぶ方でも充実して学べるように、初歩的な事項から入り、一歩一歩丁寧に知識をお伝えしていきます。ついていけるか不安のある初学者の方、基礎からG検定合格にリーチするレベルまで学習したい方に最適な講座です。是非覗いてみてください。

www.agaroot.jp

担当者:ヤン・ジャクリン(分析官・講師)