入試の出題であってはいけないこと

今回は分野外のトピックです。近頃は外出しないお陰で普段目を向かない事を省みる機会に恵まれています。普段データサイエンス教育に携わっている立場から「教育や学習とは何か」について改めて考える一貫として、(一番勉強したのは15-25歳でしたし)母校の…

Ikigai(いきがい)について

4月は新入社員の季節なので、最近アメリカで注目されている日本語 "Ikigai"(いきがい)について書いてみます。注目されている背景を知るには、ステレオタイプな表現ですが、30代以下の典型的なアメリカ人の生活を見ると伝わりやすいです。世界一学費の高…

AutoML(自動機械学習)サービスの比較‗ForecastFlowとPredictionOne

本記事は2つの会社が提供している予測分析のできるサービスを使ってみた記録です。 ・ForecastFlow(GRI社提供) ・Prediction One(SONY社提供) を使用しました。どちらも初めて使いました。というかAutoMLサービスを初めて使いました。こんな人でも使える! F…

PythonとFoliumで簡単!地図上に位置情報の可視化

はじめに アナリティクス&デベロップメント部のNです。 最近、Foliumという地図上に位置情報を可視化するライブラリの存在を知り、使ってみました。 Foliumというのは、Leafletというjavascriptの地図ライブラリをPythonから使えるようにしたものです。 html…

私の情報収集方法、公開します!

こんにちは、アナリティクス&デベロップメント部のTです。 以前から「Tさんって、どうやって技術や業界トレンドの情報集めてるんですか?」的な質問を受けることがちょくちょくあるので、 思い切って公開しようと思います。 3つの原則 まず、情報収集で重要…

ビジネスデータとAI技術(機械学習)の相性の良さ

適切な問いとは AI技術を上手に利用するための最重要ポイントは適切な問いを作ることです。 現状のAIが返答に困る質問は、このようなものです。Hey Siri, 優良顧客になりそうな見込み客を教えて? どうしたら優良顧客を増やせるの? 先ほどのAIが困る質問に…

MBO、KPIとOKR 〜組織の目標管理について考える〜

KPIの策定に関するプロジェクトがいくつか重なって、年末年始にいくつか本を読んだので整理をしたいと思います。ちなみに弊社には、KPIと比較されるMBOはありますが、正直いい感じに機能はしていないという印象です(2020.1.31現在)。 読んだ本 目標管理をや…

SPSS Modeler まめちしき8つ

SPSS Modelerってググっても情報が少ないですよね データを扱う場面によっては、使えるツールは手元の環境に用意されたものだけってこと、ありますよね。ツールの使い方がわからない場会、ネットが使えれば検索で何とかしたいところですが、歴史の長い統計ソ…

色々なBIツールの特徴について考えてみた

近頃、可視化分析の研修ではTableauと他のBIツールの比較のお話を依頼されているので、この際に記事にまとめてみた。 世の中に多くの種類が存在するBIツールたちには、共通な目的がある。BI = Business Intelligence という名前が付いているには、ビジネスに…

GCP Dataprepで大規模データを扱うときネックになるポイント

どうも、アナリティクス&デベロップメント部のTです。 GCPのサービスの一つ、Dataprepを使えば、GUI上でインタラクティブにデータの集計~整形・加工を行うことができます。 プログラミングコードを書けない人でも手軽にBigQueryやGCS上のデータをいじること…

Pythonの可視化パッケージ Seaborn の Lineplot の凡例でハマったこと

What is Seaborn? Pythonの可視化パッケージにはいくつかありますが、そのうちの一つに Seaborn があります。 代表的なパッケージとしては以下があります。 Matplotlib: Matplotlib: Python plotting — Matplotlib 3.1.2 documentation Seaborn: seaborn: st…

Markdown使っていて、不満に思うこと

まだドキュメント作成にWord Excel 使ってるの Markdown使っていて、不満に思うこと 文章を書く時、Markdownを使っている方は多いと思います。 私もあらゆるメモはMarkdown形式で記載することが多いのですが、さて、納品用ドキュメントを作成する際に困るこ…

角度データにおける平均方向と分散の算出方法

こんにちは! 新卒2年目分析官のMです。 皆さんは風向や波向などの角度で表現することができるデータ(以下角度データ)を扱った経験はありますか? 角度データは0°から360°の周期性を持つため、体重や身長などの線形データとは扱い方が異なってきます。 本…

仕事における「脳」の使い方を考える

一時期流行った手と腕の組み方で自分の資質がわかるという診断があります。 参考)貴方の効き脳はどっち? 右脳派?左脳派? http://www.izmic.jp/mame/2014/01/entry_1903/ これを仕事に当てはめてみると、右脳タイプは「感性を大事に仕事を進める」 顧客の…

面倒なスキーマ定義を自動で行いRedshiftのテーブルを楽に作成する方法

どうも、アナリティクス&デベロップメント部のTです。 最近数十~100GBほどのcsvデータを分析するという場面に遭遇しました。 通常ならGCPのBigQueryかな、ってとこなのですが、 今回はクライアントさんがAWSしか使用していなかったので、 代わりにRedshift…

PrestoでUNIX時間の範囲指定をしたらハマった話

最近になってPrestoというSQLに近いクエリで操作できるデータ分散処理基盤を扱うようになりましたが、 今まで書いてきたSQLクエリと同じ感覚でデータ抽出しようとしていたら痛い目に遭いました。 本記事ではその時の模様をお話をします。 Take Home Message …

ForecastFlow を Tableau Prep から使う方法 - 予測編

ForecastFlow の予測を Tableau Prep から使用する方法を紹介します. 執筆時点の ForecastFlow Python パッケージのバージョンは 0.0.2 1.0.5 です. ForecastFlow でモデルを訓練する いつもどおりにモデルを訓練してください. 2019年12月3日以前のモデルは …

SQLおすすめの勉強法・参考書

SQLのクエリを書きリレーショナルデータベース(RDB)から自在にデータ集計ができることは、データアナリスト必須の素養の一つです。 しかし、学生のうちは使う機会がない人がほとんどで、 新卒入社していきなり使うことになり面食らう人も多いでしょう。 また…

TableauダッシュボードにGoogle Analyticsのデータものっけたい

TableauからGoogle Analyticsにいい感じに繋ぐには Google Analytics(以降GAとする)の常に最新のデータをTableauでみる(つまりライブ接続する)方法について考えてみました。GAは、Tableauからだと必ず抽出になってしまい、デフォルトの接続方法だと常に…

いいダッシュボードづくり〜5種類の型

Dueling Data: 5 Types of Dashboards という英語のブログ記事に紹介されているダッシュボードを元に、同様のダッシュボードを日本風にローカライズしながら作成してみました。 public.tableau.com この元記事の主張として、ダッシュボードのレイアウトは色…

ForecastFlow が Tableau Prep と連携できるようになります

ForecastFlow Python パッケージを開発中です. 第一弾として ForecastFlow へのデータのアップロードと, 推論機能の公開を予定しています. これらの機能を利用すると Tableau Prep から ForecastFlow を利用することができるようになります. 自動化の恩恵 こ…

セミナー講師としての心得

セミナー講師としての心得 データサイエンスの講師を務めはじめてから1年以上が経ちました。ここまで注力してきたこと、反省してきたことに基づいて、セミナー講師としての心得について思うことをまとめました。人間を、それも様々なタイプの人間を相手にす…

階級別データサイエンティストに求められるスキル

データサイエンティストのスキルレベルの定義 データサイエンティスト協会(DS協会)に設置されているスキル定義委員会では、 データサイエンティストに求められるスキルセットとそのスキルレベルを具体的に定義する活動に取り組んでおられます。 スキルレベ…

あなたは何と呼んでますか?機械学習で頻出の関数・指標の枠組みについて

機械学習には用語がいっぱい 機械学習モデルの役割は、未知のデータに対する予測精度を最大化するように、既知のデータを利用してモデル内部のパラメータを最適化することです。 最適化するためには、理想と現実の距離を図るための指標や関数が必要です。 機…

Jupyter notebookからGCPのBigQueryにアクセスしてPandasのDataFrameに読み込む方法

構造化された大量のデータをいつでも分析に使える形で持っておきたい!というケースでよく使うのが、Google Cloud Platform(GCP)のBigQuery(以下BQ)です。 標準SQL文と互換性があるので、普段からRDBを扱っている人にも無理なく使えると思います。*1 一方で…

Tableau PrepとR連携

Tableau Prep and R Integration Tableau PrepとRが連携できると聞いて、ドキュメントを探したのですが、上手く見つからなかったのでベータ版のテストスクリプトを参考に設定してみました 特に実用性のあるテスト内容ではないですが、動作確認用です 事前準…

人工知能の社会への波及効果に関する徒然なる考え

今回は、ディープラーニングを中心とした人工知能の現在と未来に関して書いてみました。技術中心の仕事に携わっているとどうしても分析手法やアルゴリズムばっかり考えています。ところで近頃、機械学習の研修を提供していく中で、営業担当・ビジネス企画担…

自己情報量の発見法的導出

はじめに 情報理論の基本的な概念として、自己情報量があります。 自己情報量は、機械学習の分類モデルのアルゴリズムで登場する平均情報量の定義の基礎となっていたり、ここそこで現れてきます。ただ、抽象度が高いため初心者泣かせの概念です。 そこで、こ…

「なんでXGBoostでは分類問題の学習に対数損失を使うんですか?」

先日M氏がO御大に質問していたのを聞いて、自分も気になったのでまとめてみました。 そもそも勾配ブースティングで目的関数はどのように使われる? 勾配ブースティングの仕組み 学習プロセス 損失関数を用いた解釈(勾配降下法) 分類問題の場合 問題設定 対…

GRIブログの始まり

はてなブログの使い方 株式会社GRIは「データ分析で社会をより良く」をテーマに掲げるデータサイエンス系の会社です。 分析官たちは日ごろから案件を通して研究開発を進めていますが、 その過程で生まれた分析ノウハウなどは現状、様々な場所に散在してしま…