データサイエンティストって何?GRI社員の素顔に迫る!
こんにちは、分析官の早川です。 弊社では、現在2022年度新卒の採用をはじめております。 その中で、学生さんの多くから、データサイエンティストとは?データサイエンティストにはどんな人が向いているか?GRIにはどんな人材が多いのか?必要な技術は何か?といった質問を多く受けます。 そこで、博士新卒1年目の私が実際に一年働いて感じた、生のデータサイエンティストの声をお届けしようと思います。 業界研究等の参考にしつつも、興味を持っていただけた方は、ぜひ一緒に働きましょう。
大きく二つ、 1. ジェネラルに データサイエンティストの仕事の話 2. 弊社が実際どんな人材で構成され、活躍しているかの話 でお届けします。
データサイエンティストって何?
データサイエンティストとは?
現在ニーズが急速に高まっている職業データサイエンティスト。 一言で言えば、データのスペシャリストです。
IT技術が急速に進化を遂げ、様々なデータがストックできる時代になりました。 データは多岐に渡り、それを元に意思決定したり、新たなイノベーションを起こそうというムーブメントが日本に限らず、世界全体で注目を集めています。 これまで人間が考え、起こしていた行動が、データとしてストックされることにより、科学的に根拠を持って複雑に絡み合った人間活動の理解が進んできているからです。 ただ、そのデータの利活用には、高度な数学や、金融、ビジネスへの理解、そもそもデータをストックするためのシステムの理解や計算機(コンピュータ)の理解 等々、幅広い知識や経験が必要であり、現在データサイエンティストの需要が高まっているわけです。
具体的にどんなお仕事をしているの?
データサイエンティストの仕事は、データに関わることはなんでもする、というのが答えです。 データを利活用するといった時に、大きな流れとしては、
- データを集める
- データを分析できるように加工する (ETL)
- データを分析,可視化
- 分析結果を元に意思決定をサポートする
の上記4つがメインになると思います。
1. データを集める
データがなければ私たちの仕事ははじまりませんが、データを集めるだけでも相当に大変です。 データの解析は、データの数が多ければ多いほど精度が上がる傾向にあるので、できるだけ多くの情報を正しく、素早く、利用しやすいように集める必要があります。 また、経済活動は常に変化し続けているため、一時的なデータの収集ではなく、継続的に集める必要もあります。
これらの要件を満たすためには、データを集めてストックするためのシステムは必須です。 データエンジニアの領域に近いですが、データサイエンティストもその設計に携わらないと、データはあっても解析ができない何かになってしまいます。
ここでのデータサイエンティストの役割は、
最終的なアウトプット(解析結果)のために必要なデータ収集システムを、データエンジニアと協力して構築し、自動的に集める
だと考えてます。
2. データを分析できるように加工する (ETL)
データを利活用する際に、必ず ETL という作業が必要になります。 ETLは、 Extract, Transform, Load の頭文字を取ったもので、 データを抽出、変換し、分析用のプラットフォームへ流す、という意味です。
例えば、ECサイトのデータを考えてみます。 まずは、注文情報や、顧客情報といったデータを、データを格納しているサーバーから必要な分だけ抽出します (Extract)。
注文情報や、顧客情報は別々のデータとして保存されることが多いため、これらを関連づけ、新しいデータを作ります。 またその中で、欠損値や必要のなさそうなデータを落とします (Transform)。 この作業で、AIでの精度が落ちたり、可視化の際に余計なリソースを使ったり、予期せぬ不具合を起こすことを事前に避けます。
最終的に綺麗にしたデータを可視化や解析をするBIツール等に流し込みます (Load)。
ETL作業は、データを収集段階とも密接に関わりがあるので、データエンジニアの仕事に近い部分もありますが、データサイエンティストも必須だと思います。 最終目標のために、必要な重要なデータを落とさず、綺麗にするという作業は、分析作業や最終的な目標を見据えないと大きな失敗を招くためです。 現在では、BIツールでこの部分もフォローできるようになっているので、データサイエンティストも積極的に取り組むべき部分です。
ETL作業を終えて、やっとデータ分析、可視化です。
3. データ分析、可視化
データサイエンティストの花形です。 クライアントの事業を理解し、データを用いて課題を発見する。その課題を克服できそうな糸口をデータから見つける。 それを一目でわかるように可視化する。 単純に分析するだけではだめで、必ず大きな課題があってその課題の発見や、解決のためのデータの分析です。
分析と言ってもやり方は多岐に渡り、Python, R等で統計的な処理をする場合もあれば、AI等で予測をつけることもあれば、時にはForecastflow のように自動機械学習ツールに頼ることもあります。 最近だと tableau をはじめとするBIツールも主流になっています。
ECサイトで例えてみます。 自動化されたECサイトのデータは毎日流れてきますが、それを毎日可視化する作業を手でやっていては無限にリソースを食ってしまいます。 そこでBIツール (例えば tableau のような可視化ツール) を用いて、日々の売上、顧客情報等 ECの現状確認できるダッシュボード(可視化、分析結果確認の雛形)を、データサイエンティストが作成します。 このダッシュボードに、ETLされたデータを読ませるシステムさえ作っておけば、データサイエンティスト以外の人でも簡単に、毎日ECの売れ筋や人の構成を確認して、素早く施策のヒントを得ることができます。 顧客に合わせて、おすすめの商品を自動で剪定するAI を用意するのであれば、レコメンド用のAIモデルをデータサイエンティストが作ることになります。
ただなんとなくアウトプットを出すのではなくて、ビジネスを理解した上で、重要になりそうな部分を剪定して可視化する、モデルに組み込む。 データが扱えない人へ正しく、データの意味を翻訳する (もしくは、データの意味を自動翻訳するシステムを作る)
データサイエンティストの腕の見せ所です。
4. 分析結果を元に、意思決定をサポート
データサイエンティストとして、見落とされがちですが、一番大事な部分になります。 データを分析した結果を確実にクライアントに伝え、その結果を元に次の意思決定をサポートする。 ここまでこなして一流のデータサイエンティストであり、理想像です。 マーケティング企画、事業企画等々、データの分析結果を実利に起こせるデータサイエンティストこそ、現代で一番求められています。 そのためには、ビジネスやドメイン知識は必須で、クライアントととのコミュニケーションも欠かせません。 議論の中で新しい課題を発見したり、さらに新しい切り口を探すことも求められます。
データサイエンティストは、データを解析するだけと思われがちですが、実際にはクライアントと直接話をする機会も多いです。 むしろここが一番重要です。 データから得られた知見を正しく伝え、課題を解決し、さらにその先のビジネスへつなげる。 ここまでで一流のデータサイエンティストだと感じています。
データサイエンティストに必要な技術は?
データサイエンティストがやる業務をざっくりとまとめましたが、これらを総合すると、必要な技術は多岐にわたると伝わったかと思います。
データを触る技術的には、
統計学、AI技術等を理解できる数学力
可視化技術 ( BIツール)
その他、必要な考え方や知識
課題発見力、解決力
ビジネス理解
デザイン知識 (正しく人へ伝えるための方法論、思考術)
コミュニケーション能力
大まかにあげるとしたらこの辺でしょうか。 データを触る技術だけでデータサイエンティストが重宝されていた時代は終わりを迎え、現在では後者も必須です。
GRIはどんな会社? 人材は?
データサイエンティストになるために必要な技術は伝わったかと思いますが、データで新たな事業を開発していくカンパニー。である弊社がどうなっているのかを人材、働き方、業務内容という観点で紹介します。
1. 分析官のほとんどが、理系院卒!
高度な数学力や、可視化能力が試されるので、弊社には理系の人材がほとんどです。 そして、そのほとんどが大学院修士課程もしくは博士課程を修了しています。 出身大学で見ると、東大、東工大、筑波、東京理科大あたりが多い気がします。
理系院卒が重宝されている理由としては、課題発見、必要な解決策の提示、実行、クライアントに伝える力と言った部分が、大学院生活でかなり鍛えられているからです。 研究のプロセスと一緒です。 弊社では、物理学出身の人間が多いですが、素粒子物理、宇宙物理、高分子化学、ウイルス、生物行動、画像認識、コンピュータサイエンス等々、様々な分野の人間が集まっています。 私も宇宙物理から転校してきた博士新卒です。 特に最近はAIと物理学のシナジーもかなり議論されているので、この部分はかなり弊社の強みだと思います。
入社前に持っているスキルとしては、
プログラミングの基礎的な知識
数学力
英語力
情報収集力 (最新の論文を追える、トレンドを知れる、課題解決のための検索力)
人へ正しく伝える力
この辺りを自然と身につけている人が多いと感じています。
2. 新しい技術、知識を得ることが大好き
院卒が多いこともあり、気になったことはとことん調べたり、論文を読んだり、本を読んだりがデフォルトです。 雑談等でも、読んだ本の内容を議論したり、レビューしあったりもよくしています。 思考実験的なことも好きで、フェルミ推定的なことはふとした雑談からもよく発生します。 雑談というか、本格的にヒートアップして議論になることもしばしば。
3. 芸達者, 多趣味
データを追求することは、何か実際に起きていることを深掘りしていくことになります。 そうすると、これまでの人生で何かに熱中した人が多く、活躍もしていると感じてます。 例えば、中高や大学での部活動等で結果を残していたり(県大会上位や上位大会出場等)、書道等、習い事で段位を持っている人も多く、数カ国語話せる人もいます。
趣味も多岐に渡り、美術館巡りや楽器の演奏、アニメ視聴等々。 若手男子社員は、筋トレがブーム!
また弊社では、部活動制度があり、二人以上で自由に部活を作って活動ができ、経費も落ちます。 これまでの趣味を深堀するも、新しいものに挑戦するでも、自由にできるので、果敢に色々なことに挑戦できると思います。
ちなみに私は、中高の部活動で本気で弓道をやっていたので、ぜひ弓道経験者いましたら一緒に部活動しましょう。笑
4. オン、オフの切り替え
仕事を長く楽しく続けるためにはオンオフの切り替えはとても重要だと個人的に考えています。
リラックスできるお昼休み
ランチは会社周りでトークしながら食べたり、お昼寝休憩も30分認められています。
残業、休日出勤 ほぼなし!
忙しい時期はともかく、残業を長くやるというのは弊社では好まれていません。 7時半ともなればほとんどの人が退社してます。 休日出勤は基本認められていないです。
完全フリーな休日
土日祝日、お盆、年末年始、もちろん有給も。 それぞれがプライベートを楽しんでます。 メール、スラック全部無視でOK!
限られた時間で効率をあげて仕事をする。 オン、オフがかなりはっきりしている会社だなと感じてます。
5. リモートワーク? オフィスワーク?
COVID-19 の流行以前より、弊社では裁量労働、リモートワークが認められております(新入社員を含め)。 それぞれが自分の時間で、やりやすいやり方で仕事を進めています。 現状、オフィスは毎日 5-6人程度で、出社率としては、2割弱と言ったところでしょうか。
6. プロジェクトはどう進める?
1案件 2-3人で、2-3ヶ月単位で進めることが多いです。 マネージャー + 分析官 + サポート と思っていただけたら。
データの分析では、その都度新しい課題が見えてきたりすることも多いので、短いスパンで、的を絞ってこなすことが多いです。 その中でさらに、必要があればまた新しく2-3ヶ月追加で取り組んでいくという形をとっています。 また、1人月全てを1案件に当てることは少なく、0.5人月 * 2案件 で並行して進めることが多いです。
7. 一年目の仕事は?
1ヶ月ほどの研修を終えた後は、それぞれ得意分野に合わせて案件にサポートとしてアサインされていき、OJT で経験を積んでいきます。 人にもよりますが、半年くらい経ってからは一人前扱いで、一年目の後半は、案件に一人月でアサインされて案件をこなしていきます。 このスピード感と、経験はなかなか他社では経験できない弊社にしかできない強みだと考えています。 もちろん大変なことも多いですけどね笑
案件としては、大まかに開発系の案件と、BIを用いたコンサルティングに分かれますが、個々の特技やバックグラウンドに応じてアサインされます。 私はバックグラウンドとしては、宇宙物理の大学院で、物理の基礎方程式からモデルを立ててシミュレーションをしていたので、分析やAI, BIとは全く馴染みがありませんでした。 しかも、プログラミングはFortran とC をかじっただけというかなり特殊な状態でのスタートでした。 一年目の仕事は、まずはtableau を用いたデータの可視化や分析から始まり、tableau server の構築(EOL対応), Python でのAI 開発などデータサイエンティストに必要な案件は一通り経験させてもらいました。 他の新卒一年目の同期は、AI関連の研究室所属だったこともあり、開発系の案件で、画像認識系や自然言語処理と言った部分での基盤構築の案件にアサインされていました。
8. どういう人が評価される? 会社として目指しているものは?
個人の成長に赴きを置いているため、年に二回にMBO計画で、個々の意見を尊重して、アサイン計画を組まれたり、サポートを受けられます。 成果ももちろん大事ですが、できることを増やし、成長していくことが評価されるので、個人に厳しく成果を求められることはないです。 私も一年間でかなりできる幅と知見が広がり、これは弊社にしかできない経験だと誇りに思っています。
会社全体としては、とにかく面倒見がいい場であり続けたいとしています。 できる人ができない人をサポートして、成長を促し、成長した個人がまた下の世代、もしくは独り立ちして事業を起こしていく。 そういったことを一番の喜びとして、全員が意識をして仕事に取り組んでいます。
9. 結局、GRIはどういう会社なんだ!?
新卒の面談の中で多く聞かれる質問ですが、一年働いた私の率直な印象をまとめておきます。
「個性豊かで、
スーパーマンなデータサイエンティストたちが、
データで新たな事業を開発していくカンパニー。 」
データ解析会社の多くはエンジニアリング色が強く終わってしまい、ビジネス的な視点を欠いた解析だけで終わってしまうことが多いです。 コンサルファームでも、クライアントの目前の問題は解決しても事業に繋がる会社は多くありません。 データ基盤の整備から、事業に繋げるまでが、少人数で素早くこなされていく会社は弊社だけだと思います。 それらを確実にハイクオリティでこなしていけるスーパーマンがたくさんいます。 そして、スーパーマン同士のシナジーで成長し、さらに強烈な個性を発揮していると感じてます。
終わりに
データサイエンティストは必要な技術が多岐に渡り、それに伴って、弊社の人材もかなり個性が強い集団だということ、少しはお伝えできたかと思います。 データサイエンティストはその人の特技に応じて、社会への貢献の仕方も多岐に渡るので、特技一つだけでも大きく貢献はできると思います。 ただ、弊社ではそこで止まらず、常に挑戦して、新しい技術を得ることで、得たものの組み合わせでさらに強い個性を生み出しています。 その個性は、ひいては生きがいにつながり、人生を豊かにするものにもつながると思います。
得意なものを増やして成長できる、強い個性を広く受け入れられる弊社でぜひ一緒に仕事してみませんか? 強烈な個性をもった人材、歓迎です!
分析官 早川朝康