Isolation Forest と異常検知(ネットアクセスログを用いて)

【はじめに】 日頃データサイエンスの研修においては、教師あり機械学習から入門し、それをビジネスの花形として紹介することが多いです。ただし世の中の問題に向き合うと実に教師なし機械学習の存在が大きいのも知っていただきたいです。その1つが異常検知…

花束の画像から花の本数を特定する手法

花束の画像から機械学習を用いて花の名前と本数を特定する手法について考えてみます。 機械学習に慣れていない方が実際にこのようなタスクを行う場合には、多くの画像認識の手法の中からどの手法を選ぶとよいのか悩んでいるかもしれません。 また、API等の利…

私が1ヶ月でBIツール Tableauをマスターしたステップとおすすめコンテンツ

私が入社2ヶ月目に考えてやっていたことと、知っておきたかったことを整理して、これからTableauプロジェクトに入る人向けにどう習得したらいいかを書いてみました。Webや書籍として点在しているコンテンツの場所や、見る順番などを書いております。2020年6…

クラウドネイティブなELTツールMatillionで多テーブルの結合処理

クラウドを前提にしたELTツールのMatillionを使うと、意外な驚きに出くわします 多くのETLツールは、BigQueryをデータソースとして前処理を行うと、一度BQよりデータをツール側に取り出して処理を行います。これは、BQの力を最大限に活かせず、処理は、でき…

PDFの中に埋め込まれているテーブルをデータフレームで取り出す、Rで

PDFの中に埋め込まれているテーブルからデータを抜き出したいという状況って頻繁にあると思います。まぁもしもそんな状況は一度もなかったとしても、それが簡単にできるということでせっかくなのでちょっと試してみようと思います。Rを使います。 きっかけは…

仕事ってなんだ、10の心構え

新社会人にとっては、社会人始まったばかりなのに新型コロナウィルスでいきなり在宅勤務という状況だと思います。そんな状況に、私個人の仕事に関する価値観とそのベースになっている言葉を本棚から引っ張り出してきて、偉そうにまとめてみました。 もう少し…

Prophet時系列予測モデルをExploratoryで数クリックで実行

時系列予測モデルProphetをExploratoryで使いこなして、50年ほど時計の針を進めましょう。 Prophet時系列予測モデルの革新 時系列予測モデルを扱うには、定期的な時間間隔(テンポ)の入力データが扱いやすいのが通例です。月次データであれば、毎月の数値デ…

入試の出題であってはいけないこと

今回は分野外のトピックです。近頃は外出しないお陰で普段目を向かない事を省みる機会に恵まれています。普段データサイエンス教育に携わっている立場から「教育や学習とは何か」について改めて考える一貫として、(一番勉強したのは15-25歳でしたし)母校の…

Ikigai(いきがい)について

4月は新入社員の季節なので、最近アメリカで注目されている日本語 "Ikigai"(いきがい)について書いてみます。注目されている背景を知るには、ステレオタイプな表現ですが、30代以下の典型的なアメリカ人の生活を見ると伝わりやすいです。世界一学費の高…

AutoML(自動機械学習)サービスの比較‗ForecastFlowとPredictionOne

本記事は2つの会社が提供している予測分析のできるサービスを使ってみた記録です。 ・ForecastFlow(GRI社提供) ・Prediction One(SONY社提供) を使用しました。どちらも初めて使いました。というかAutoMLサービスを初めて使いました。こんな人でも使える! F…

PythonとFoliumで簡単!地図上に位置情報の可視化

はじめに アナリティクス&デベロップメント部のNです。 最近、Foliumという地図上に位置情報を可視化するライブラリの存在を知り、使ってみました。 Foliumというのは、Leafletというjavascriptの地図ライブラリをPythonから使えるようにしたものです。 html…

私の情報収集方法、公開します!

こんにちは、アナリティクス&デベロップメント部のTです。 以前から「Tさんって、どうやって技術や業界トレンドの情報集めてるんですか?」的な質問を受けることがちょくちょくあるので、 思い切って公開しようと思います。 3つの原則 まず、情報収集で重要…

ビジネスデータとAI技術(機械学習)の相性の良さ

適切な問いとは AI技術を上手に利用するための最重要ポイントは適切な問いを作ることです。 現状のAIが返答に困る質問は、このようなものです。Hey Siri, 優良顧客になりそうな見込み客を教えて? どうしたら優良顧客を増やせるの? 先ほどのAIが困る質問に…

MBO、KPIとOKR 〜組織の目標管理について考える〜

KPIの策定に関するプロジェクトがいくつか重なって、年末年始にいくつか本を読んだので整理をしたいと思います。ちなみに弊社には、KPIと比較されるMBOはありますが、正直いい感じに機能はしていないという印象です(2020.1.31現在)。 読んだ本 目標管理をや…

SPSS Modeler まめちしき8つ

SPSS Modelerってググっても情報が少ないですよね データを扱う場面によっては、使えるツールは手元の環境に用意されたものだけってこと、ありますよね。ツールの使い方がわからない場会、ネットが使えれば検索で何とかしたいところですが、歴史の長い統計ソ…

色々なBIツールの特徴について考えてみた

近頃、可視化分析の研修ではTableauと他のBIツールの比較のお話を依頼されているので、この際に記事にまとめてみた。 世の中に多くの種類が存在するBIツールたちには、共通な目的がある。BI = Business Intelligence という名前が付いているには、ビジネスに…

GCP Dataprepで大規模データを扱うときネックになるポイント

どうも、アナリティクス&デベロップメント部のTです。 GCPのサービスの一つ、Dataprepを使えば、GUI上でインタラクティブにデータの集計~整形・加工を行うことができます。 プログラミングコードを書けない人でも手軽にBigQueryやGCS上のデータをいじること…

Pythonの可視化パッケージ Seaborn の Lineplot の凡例でハマったこと

What is Seaborn? Pythonの可視化パッケージにはいくつかありますが、そのうちの一つに Seaborn があります。 代表的なパッケージとしては以下があります。 Matplotlib: Matplotlib: Python plotting — Matplotlib 3.1.2 documentation Seaborn: seaborn: st…

Markdown使っていて、不満に思うこと

まだドキュメント作成にWord Excel 使ってるの Markdown使っていて、不満に思うこと 文章を書く時、Markdownを使っている方は多いと思います。 私もあらゆるメモはMarkdown形式で記載することが多いのですが、さて、納品用ドキュメントを作成する際に困るこ…

角度データにおける平均方向と分散の算出方法

こんにちは! 新卒2年目分析官のMです。 皆さんは風向や波向などの角度で表現することができるデータ(以下角度データ)を扱った経験はありますか? 角度データは0°から360°の周期性を持つため、体重や身長などの線形データとは扱い方が異なってきます。 本…

仕事における「脳」の使い方を考える

一時期流行った手と腕の組み方で自分の資質がわかるという診断があります。 参考)貴方の効き脳はどっち? 右脳派?左脳派? http://www.izmic.jp/mame/2014/01/entry_1903/ これを仕事に当てはめてみると、右脳タイプは「感性を大事に仕事を進める」 顧客の…

面倒なスキーマ定義を自動で行いRedshiftのテーブルを楽に作成する方法

どうも、アナリティクス&デベロップメント部のTです。 最近数十~100GBほどのcsvデータを分析するという場面に遭遇しました。 通常ならGCPのBigQueryかな、ってとこなのですが、 今回はクライアントさんがAWSしか使用していなかったので、 代わりにRedshift…

PrestoでUNIX時間の範囲指定をしたらハマった話

最近になってPrestoというSQLに近いクエリで操作できるデータ分散処理基盤を扱うようになりましたが、 今まで書いてきたSQLクエリと同じ感覚でデータ抽出しようとしていたら痛い目に遭いました。 本記事ではその時の模様をお話をします。 Take Home Message …

ForecastFlow を Tableau Prep から使う方法 - 予測編

ForecastFlow の予測を Tableau Prep から使用する方法を紹介します. 執筆時点の ForecastFlow Python パッケージのバージョンは 0.0.2 1.0.5 です. ForecastFlow でモデルを訓練する いつもどおりにモデルを訓練してください. 2019年12月3日以前のモデルは …

SQLおすすめの勉強法・参考書

SQLのクエリを書きリレーショナルデータベース(RDB)から自在にデータ集計ができることは、データアナリスト必須の素養の一つです。 しかし、学生のうちは使う機会がない人がほとんどで、 新卒入社していきなり使うことになり面食らう人も多いでしょう。 また…

TableauダッシュボードにGoogle Analyticsのデータものっけたい

TableauからGoogle Analyticsにいい感じに繋ぐには Google Analytics(以降GAとする)の常に最新のデータをTableauでみる(つまりライブ接続する)方法について考えてみました。GAは、Tableauからだと必ず抽出になってしまい、デフォルトの接続方法だと常に…

いいダッシュボードづくり〜5種類の型

Dueling Data: 5 Types of Dashboards という英語のブログ記事に紹介されているダッシュボードを元に、同様のダッシュボードを日本風にローカライズしながら作成してみました。 public.tableau.com この元記事の主張として、ダッシュボードのレイアウトは色…

ForecastFlow が Tableau Prep と連携できるようになります

ForecastFlow Python パッケージを開発中です. 第一弾として ForecastFlow へのデータのアップロードと, 推論機能の公開を予定しています. これらの機能を利用すると Tableau Prep から ForecastFlow を利用することができるようになります. 自動化の恩恵 こ…

セミナー講師としての心得

セミナー講師としての心得 データサイエンスの講師を務めはじめてから1年以上が経ちました。ここまで注力してきたこと、反省してきたことに基づいて、セミナー講師としての心得について思うことをまとめました。人間を、それも様々なタイプの人間を相手にす…

階級別データサイエンティストに求められるスキル

データサイエンティストのスキルレベルの定義 データサイエンティスト協会(DS協会)に設置されているスキル定義委員会では、 データサイエンティストに求められるスキルセットとそのスキルレベルを具体的に定義する活動に取り組んでおられます。 スキルレベ…