XD.LOGSTORAGEに保存されたアクセスログをPythonで取得

こんにちは! 分析官のMです。 最近、業務でHIRAMEKI XDというマーケティングプラットフォームに触れる機会がありました。 HIRAMEKI XDにはwebサイトのアクセスログをユーザーに紐付けて収集・整理することができるXD.LOGSTORAGEという機能があります。 保存…

DeepFakeでBaka Mitai/Dame Daneつくってみた

MIT Technology Reviewの記事で、海外で「龍が如く」の「ばかみたい」をDeepFakeで画像から勝手に口パクさせるのが流行ってるとのことで、Kapwing Appさんのチュートリアルにしたがって、やってみました。 できたもの Baka Mitai/Dame Da Neつくってみた こ…

Macとiphoneで無料ツールを使ったリアル音声字幕生成をやってみた

コロナ下の影響でウェブ会議の回数が増えていると思います。PCのスペックや通信環境によっては相手の声が聞き取りづらく、相手の音声が字幕で出すことができればいいのにと思う人も多いのではないでしょうか?今回は簡単にリアル音声字幕変換を行なってみま…

はじめてのデータ活用プロジェクトでのモデル作りのタスク

データ活用プロジェクトでAIモデルを短期間で構築するタスクを、どのように規定すべきか?この観点が、新入社員や転職してきた人は、抜けていることが多いです。プロとして研究やデータサイエンス業務を続けるには、モデル構築の計画立案スキルは身に付けな…

グラフ上での配色の魔力

人を惹きつけるグラフを作るための配色について解説してみます。 グラフを見てもらう 人を惹きつけるグラフを考える前に、忙しい人は「1秒以内に最初の決断をする」という事実を知る必要があります。時間をかけてデータをグラフにしても、あなたの苦労とは…

Tableau認定資格 Tableau Desktop Certified Associateの合格に向けた試験準備

この記事について Tableau Desktop Certified Associateは、Tableau認定のTableau Desktopの資格で、難易度が中級のものです。 つい先日(2020/08/29)、私もこの試験を合格し、資格を取得することができました。本記事では、その経験を踏まえ、これからこの試…

機械学習(AI)の戦略策定/施策立案への利用のデモンストレーション

この記事について 先進的な企業では、機械学習(AI)をビジネスの現場で利用し、他と差をつけています。 今回は、機械学習のビジネス利用に興味があるが、機械学習で何が具体的にできるのか分からない企業様・個人様向けに、機械学習のサービス解約抑止への…

IronViz2020、参戦してみた。

こんにちは!分析官のMです。 今回私はTableauが主催するデータビジュアライゼーションコンテストである、IronViz2020に参戦しました。本記事では自分が・どのような思考でダッシュボードを作成したか?・どのような点にこだわったか?についてまとめました…

陰陽師とデータサイエンティストの類似性

「データサイエンティストって何している人?」と聞かれることも多く、「現代の陰陽師」と答えると神秘めいているので、2つの対比で読み解いていこうと思います。 陰陽師は、今から約1500年ほど前の飛鳥時代の頃からはじまった朝廷の官職です。平安時代の安…

ForecastFlowをMatillionから使う-予測編

クラウドネイティブのETLツールMatillionを使って、データ加工からForecastFlowの予測までの処理を解説します クラウドサービスはGCPを利用しております モデルの作成 ForecastFlowでモデル作成と訓練を行ってください Matillion Componentの作成 bashコンポ…

PythonからForecastFlowで訓練と推論を行う方法

この度、PythonからForecastFlowの訓練を行う機能を追加しました。 この記事では、訓練と推論をPythonから行う方法について紹介します。 インストール アカウント認証とプロジェクトの指定 プロジェクトの指定 プロジェクトIDが不明な場合 データの用意 Pyth…

Isolation Forest と異常検知(ネットアクセスログを用いて)

【はじめに】 日頃データサイエンスの研修においては、教師あり機械学習から入門し、それをビジネスの花形として紹介することが多いです。ただし世の中の問題に向き合うと実に教師なし機械学習の存在が大きいのも知っていただきたいです。その1つが異常検知…

花束の画像から花の本数を特定する手法

花束の画像から機械学習を用いて花の名前と本数を特定する手法について考えてみます。 機械学習に慣れていない方が実際にこのようなタスクを行う場合には、多くの画像認識の手法の中からどの手法を選ぶとよいのか悩んでいるかもしれません。 また、API等の利…

私が1ヶ月でBIツール Tableauをマスターしたステップとおすすめコンテンツ

私が入社2ヶ月目に考えてやっていたことと、知っておきたかったことを整理して、これからTableauプロジェクトに入る人向けにどう習得したらいいかを書いてみました。Webや書籍として点在しているコンテンツの場所や、見る順番などを書いております。2020年6…

クラウドネイティブなELTツールMatillionで多テーブルの結合処理

クラウドを前提にしたELTツールのMatillionを使うと、意外な驚きに出くわします 多くのETLツールは、BigQueryをデータソースとして前処理を行うと、一度BQよりデータをツール側に取り出して処理を行います。これは、BQの力を最大限に活かせず、処理は、でき…

PDFの中に埋め込まれているテーブルをデータフレームで取り出す、Rで

PDFの中に埋め込まれているテーブルからデータを抜き出したいという状況って頻繁にあると思います。まぁもしもそんな状況は一度もなかったとしても、それが簡単にできるということでせっかくなのでちょっと試してみようと思います。Rを使います。 きっかけは…

仕事ってなんだ、10の心構え

新社会人にとっては、社会人始まったばかりなのに新型コロナウィルスでいきなり在宅勤務という状況だと思います。そんな状況に、私個人の仕事に関する価値観とそのベースになっている言葉を本棚から引っ張り出してきて、偉そうにまとめてみました。 もう少し…

Prophet時系列予測モデルをExploratoryで数クリックで実行

時系列予測モデルProphetをExploratoryで使いこなして、50年ほど時計の針を進めましょう。 Prophet時系列予測モデルの革新 時系列予測モデルを扱うには、定期的な時間間隔(テンポ)の入力データが扱いやすいのが通例です。月次データであれば、毎月の数値デ…

入試の出題であってはいけないこと

今回は分野外のトピックです。近頃は外出しないお陰で普段目を向かない事を省みる機会に恵まれています。普段データサイエンス教育に携わっている立場から「教育や学習とは何か」について改めて考える一貫として、(一番勉強したのは15-25歳でしたし)母校の…

Ikigai(いきがい)について

4月は新入社員の季節なので、最近アメリカで注目されている日本語 "Ikigai"(いきがい)について書いてみます。注目されている背景を知るには、ステレオタイプな表現ですが、30代以下の典型的なアメリカ人の生活を見ると伝わりやすいです。世界一学費の高…

AutoML(自動機械学習)サービスの比較‗ForecastFlowとPredictionOne

本記事は2つの会社が提供している予測分析のできるサービスを使ってみた記録です。 ・ForecastFlow(GRI社提供) ・Prediction One(SONY社提供) を使用しました。どちらも初めて使いました。というかAutoMLサービスを初めて使いました。こんな人でも使える! F…

PythonとFoliumで簡単!地図上に位置情報の可視化

はじめに アナリティクス&デベロップメント部のNです。 最近、Foliumという地図上に位置情報を可視化するライブラリの存在を知り、使ってみました。 Foliumというのは、Leafletというjavascriptの地図ライブラリをPythonから使えるようにしたものです。 html…

私の情報収集方法、公開します!

こんにちは、アナリティクス&デベロップメント部のTです。 以前から「Tさんって、どうやって技術や業界トレンドの情報集めてるんですか?」的な質問を受けることがちょくちょくあるので、 思い切って公開しようと思います。 3つの原則 まず、情報収集で重要…

ビジネスデータとAI技術(機械学習)の相性の良さ

適切な問いとは AI技術を上手に利用するための最重要ポイントは適切な問いを作ることです。 現状のAIが返答に困る質問は、このようなものです。Hey Siri, 優良顧客になりそうな見込み客を教えて? どうしたら優良顧客を増やせるの? 先ほどのAIが困る質問に…

MBO、KPIとOKR 〜組織の目標管理について考える〜

KPIの策定に関するプロジェクトがいくつか重なって、年末年始にいくつか本を読んだので整理をしたいと思います。ちなみに弊社には、KPIと比較されるMBOはありますが、正直いい感じに機能はしていないという印象です(2020.1.31現在)。 読んだ本 目標管理をや…

SPSS Modeler まめちしき8つ

SPSS Modelerってググっても情報が少ないですよね データを扱う場面によっては、使えるツールは手元の環境に用意されたものだけってこと、ありますよね。ツールの使い方がわからない場会、ネットが使えれば検索で何とかしたいところですが、歴史の長い統計ソ…

色々なBIツールの特徴について考えてみた

近頃、可視化分析の研修ではTableauと他のBIツールの比較のお話を依頼されているので、この際に記事にまとめてみた。 世の中に多くの種類が存在するBIツールたちには、共通な目的がある。BI = Business Intelligence という名前が付いているには、ビジネスに…

GCP Dataprepで大規模データを扱うときネックになるポイント

どうも、アナリティクス&デベロップメント部のTです。 GCPのサービスの一つ、Dataprepを使えば、GUI上でインタラクティブにデータの集計~整形・加工を行うことができます。 プログラミングコードを書けない人でも手軽にBigQueryやGCS上のデータをいじること…

Pythonの可視化パッケージ Seaborn の Lineplot の凡例でハマったこと

What is Seaborn? Pythonの可視化パッケージにはいくつかありますが、そのうちの一つに Seaborn があります。 代表的なパッケージとしては以下があります。 Matplotlib: Matplotlib: Python plotting — Matplotlib 3.1.2 documentation Seaborn: seaborn: st…

Markdown使っていて、不満に思うこと

まだドキュメント作成にWord Excel 使ってるの Markdown使っていて、不満に思うこと 文章を書く時、Markdownを使っている方は多いと思います。 私もあらゆるメモはMarkdown形式で記載することが多いのですが、さて、納品用ドキュメントを作成する際に困るこ…