GoogleColab 上でファイルを操作コツ(Part1)

Google Colaboratory上でのファイル操作に困った経験はありませんか?ドライブのファイルにどうアクセスできるのか、ディレクトリ構造はどうなっているのか、自動でアップロード・ダウンロードするにはどうしたらいいのか ... などなど。本記事は実際のコー…

データの誤った解釈について考えさせられたこと

『「誤差」「大間違い」「ウソ」を見分ける統計学』, 2021, 共立出版 では、データを扱う中で、思わず勘違いしたり、ミスを犯したりするような場面が取り上げられています。読みやすくて、データ分析の実務に携わる方が一度は目を通しておくとよい本だと思い…

Snowflake速度を上げ課金額を下げるコツ

Snowflakeのメリットは、ウェアハウスの概念により、クエリの実行タイミングで速度と課金額を調整しやすい点です。この点は、他の列指向DBと比較して評価できる点です。例えば、夜間ジョブでは小さめのウェアハウスによりゆっくり時間をかけ処理をかけ低額を…

G検定取得したい方必見:2021#2の試験を振り返る

G検定を受験された方、現在受験勉強をしている皆さん、お疲れ様です。GRIの分析官・講師のヤンです。 今回は、G検定試験の最近の出題傾向や問題の特徴を解説するとともに、これから受験する方のために学習法を何点かお勧めしたいと思います。 この中で語る分…

イケてるスパゲッティチャートの作り方②

こんにちは!分析官の望月です。 前回の記事でイケてるスパゲッティチャートの作り方を紹介しました。 イケてるスパゲッティチャートの作り方① - GRI Blog 本記事では前回作成したチャート(下図)にもう少し改良を加えることでより見やすいスパゲッティチャー…

イケてるスパゲッティチャートの作り方①

こんにちは!分析官の望月です。 みなさんはスパゲッティチャートをご存じでしょうか? スパゲッティチャートは下図のように同一シート上に折れ線グラフがいくつも重なっているチャートであり、 見た目がスパゲッティのように見えることからそのような名称で…

Grad-CAMで画像認識を可視化(Part2)

前回のPart1の記事では、機械学習モデルの解釈性の重要性、そしてGrad-CAMを中心とする、いくつかの予測根拠の可視化ツールを紹介しました。 gri-blog.hatenablog.com 今回は、早速Grad-CAMを実装してみましょう。 環境・設定: Google Colaboratory 上でJup…

Grad-CAMで画像認識を可視化(Part1)

ディープラーニングは数多くある機械学習の手法の中でも、特に画像・音声・文章などの非構造化データに対する識別能力を発揮します。 参考記事: 【超優しいデータサイエンス・シリーズ】機械学習とディープラーニングの関係は? - GRI Blog 【超優しいデー…

【5分講義・深層強化学習#2】DQN手法を用いたAlphaGOその後の進化

以前の記事では、深層強化学習、そしてその代表的な手法であるDQNについて紹介しました。 gri-blog.hatenablog.com 深層強化学習以前のゲームAIは、以下を使ったものが主流でした。 探索木 ルールベースAI: 「相手がこう打ったらこう打つべきだ」に従うルー…

【5分講義・深層強化学習#1】深層強化学習そしてDQN手法、何が強いのか

この記事では、従来の強化学習の延長上に研究が進められてきた深層強化学習について、従来の強化学習に対する改善点、技術の進化、課題などを述べていきます。 まず、「強化学習」についてはじめて学ぶ方のために、簡単に一言説明: 教師あり学習と教師なし…

【5分講義・深層強化学習#4】A3Cの手法の中身と性能を理解

以前の記事ではA3Cアルゴリズムを紹介しました。エージェントの非同期な学習を特徴とし、学習の高速化と安定かの効果があります。 gri-blog.hatenablog.com 今回この記事では、A3Cの学習法をさらに詳しく解説し、他の深層強化学習の手法と比べた性能をお伝え…

【5分講義・深層強化学習#3】今ホットなA3Cアルゴリズム

強化学習、そして強化学習をディープラーニングと組み合わせた深層強化学習は、AIを学ぶ上での難題の1つです。本記事では、強化学習の学習法のイメージを持っていただくために、強化学習の数多くのアルゴリズムの中でも有名なA3C(Asynchronous Advantage A…

【5分講義・自然言語処理#5】GPT-3活用の大変さとは

以前の記事では、自然言語処理における事前学習と転移学習、そして、そのための手法としてBERTとGPTを紹介しました。 gri-blog.hatenablog.com gri-blog.hatenablog.com 上記の記事で説明したように、GPT系列の中で、特に最新のGPT-3は、「人間らしい」文章…

【5分講義・自然言語処理#4】最新のGPTを知りましょう

前回、自然言語処理における事前学習と転移学習に関して、以下のように書きました。 【10分講義・自然言語処理#3】事前学習と転移学習・そしてBERTも - GRI Blog 最新の事前学習モデルとして、OpenAI*1が開発したGPT(Generative Pre-Training)系列のモデル…

【5分講義・自然言語処理#3】事前学習と転移学習・そしてBERTも

本記事ではまず「事前学習モデル」を紹介し、自然言語処理における代表的な手法の1つであるBERTを詳しく解説していきます。後続の記事では最新のGPT-nモデルについても紹介していきます。 ■まず、事前学習とは ディープラーニングにおける事前学習モデル(p…

Google Cloud Functionsで、時系列予測のProphetを動かす

たまたまCloud Functionsでは、依存関係の問題で時系列予測のProphetは動かせなそうという話しを耳にすることがあり、あれそうなのかなぁと思ってちょっと調べてみました。 結論から言うと、ランタイム : Python 3.7ではデプロイでエラーになりましたが、ラ…

生成モデル「GAN」を簡単に紹介(夏季インターンシップ募集中)

こんにちは!弊社は現在学生向けのインターンシップを募集してます。内容は最新の AI 技術を使って開発を行ってみよう!!といったものです。8/15 まで募集していますので学生の皆さまは奮って参加をお願いします! gri.jp 今回は、このインターンのテーマの…

puppeteerを使ってJavascriptなサイトをクロールする

インストール 早速実践していきます まずはインストール... yarn add puppeteer # or "npm i puppeteer" インストールが完了すればnode_modulesフォルダの中に色々入ります $ npm install pic.twitter.com/RQdSqcGXHT— Zeno Rocha (@zenorocha) June 25, 202…

Google Spread Sheetとpython

pythonからspread sheetを操作した時のメモです pythonのgspreadパッケージをインストールと認証ファイルを取得すれば簡単にできます これをベースにawsのlambdaやgcpのcloud functionに乗せれば、クラウド上でスプレッドシートの操作もできるようになります…

ジョブ理論とデータサイエンス

「ジョブ理論 イノベーションを予測可能にする消費のメカニズム」クレイトン M クリステンセン (著) を読んで考えたことを書きたいと思います。 ジョブ理論とはなにか、ジョブ理論の定義はこのようにあります。 顧客はある特定の商品を購入するのではなく、…

BigQueryのテーブルに可変の日付prefixを入れる

末尾に日付を入れてシャーディングすることがよくあると思います クエリ実行時の日付を自動で入れる時のメモ 結論から DECLAREで変数を宣言 今日の日付を取得する関数の作成 宣言した変数にテーブル名と関数をくっつける EXECUTE IMMEDIATEで変数を入れたcre…

Gmailの添付ファイルをpythonで取得する

課題 データ連携のツールとしてmailのケースがたまにあります それを予測データとして他のツールにimportしたりすると思いますが ローカルにダウンロード ダウンロードしたデータをDBにimport と人作業の部分が発生してしまうのでそれをどうにかしたい その…

ForecastFlow機能追加(20210705リリース)

ForecastFlowの20210705リリースによるアップデートで、予測モデルを構築する際、詳細設定(Advanced Settings)による自動機能が3つ追加されました。 UnderSampling(アンダーサンプリング): 訓練タスクのモデルタイプがClassification分類(データ上は…

ForecastFlow予測モデル構築エラー(Internal Error ValueError)の対応方法

ForecastFlowで予測モデルを構築する際、下記のようなエラーが出ることがあります。その対応方法を記述します。 現象 予測モデルを構築する際、Internal ValueErrorのメッセージと共にエラー終了する Internal Error ValueError("'application/vnd.ms-excel'…

HPのPCをTPM2.0対応にする

PCの暗号化機能を受け持つTPMチップ、Windows 7にも対応していた古いPCはTPM1.2になっているようだ。メーカーによってはTPM2.0に変更できるようなので、HP製のPCで試してみた。 ちなみに、Windows11の要件の1つでもあるが、今回のPCはその他の要件で対応しな…

OSS-DB Silver試験 オンライン受験

OSS-DB Silver試験をオンラインで受験しました。オンライン試験は2020年11月末から始まったもので、試験機関はピアソンVUEです。 試験内容には触れず、初めてピアソンVUEを利用する方へ、オンライン試験の様子を残します。 直近で受けたオンライン試験はTabl…

tableau refreshextractでデータソースを更新する

Tableau Server / Online 上に存在する抽出データソースを更新する方法の1つです。 公式にもまあ説明はあるのですが、動かすまでにそこそこハマりポイントがありました。 Tableau データ抽出コマンド ライン ユーティリティ - Tableau 動作例 csvファイルでT…

Tableauのファイルが最新バージョンで開かれるようにする

Tableau Desktop / Prep Builderは異なるメジャーバージョンを1台のPCで共存して使うことができますが、ファイル(twb/twbx/tfl/tflxファイル)をダブルクリックしたときに、意図しないバージョンで開いてしまうことがあります。 直近にインストールしたバージ…

Tableau DesktopからTreasure Dataに接続する

Tableau Desktopで、データソースにTreasure Dataを使うときに必要な設定をまとめました。(Windows 10 / Tableau Desktop 2021.2.0での情報) ドライバのダウンロード Tableau Desktopは、JDBCドライバを介してTreasure Dataに接続するため、JDBCドライバを入…

Treasure Data接続のTableauワークブックを安全に共有する

Tableau Desktopで、データソースにTreasure Dataを使った場合、ワークブック(twbファイル)にTreasure Dataのアカウント情報が埋め込まれてしまいます。 アカウント情報を毎回入力する必要がないため、自分だけが使う場合は便利ですが、他の人に共有する場合…