tamiya.yuji

私の情報収集方法、公開します!

こんにちは、アナリティクス&デベロップメント部のTです。 以前から「Tさんって、どうやって技術や業界トレンドの情報集めてるんですか?」的な質問を受けることがちょくちょくあるので、 思い切って公開しようと思います。 3つの原則 まず、情報収集で重要…

GCP Dataprepで大規模データを扱うときネックになるポイント

どうも、アナリティクス&デベロップメント部のTです。 GCPのサービスの一つ、Dataprepを使えば、GUI上でインタラクティブにデータの集計~整形・加工を行うことができます。 プログラミングコードを書けない人でも手軽にBigQueryやGCS上のデータをいじること…

面倒なスキーマ定義を自動で行いRedshiftのテーブルを楽に作成する方法

どうも、アナリティクス&デベロップメント部のTです。 最近数十~100GBほどのcsvデータを分析するという場面に遭遇しました。 通常ならGCPのBigQueryかな、ってとこなのですが、 今回はクライアントさんがAWSしか使用していなかったので、 代わりにRedshift…

PrestoでUNIX時間の範囲指定をしたらハマった話

最近になってPrestoというSQLに近いクエリで操作できるデータ分散処理基盤を扱うようになりましたが、 今まで書いてきたSQLクエリと同じ感覚でデータ抽出しようとしていたら痛い目に遭いました。 本記事ではその時の模様をお話をします。 Take Home Message …

SQLおすすめの勉強法・参考書

SQLのクエリを書きリレーショナルデータベース(RDB)から自在にデータ集計ができることは、データアナリスト必須の素養の一つです。 しかし、学生のうちは使う機会がない人がほとんどで、 新卒入社していきなり使うことになり面食らう人も多いでしょう。 また…

Jupyter notebookからGCPのBigQueryにアクセスしてPandasのDataFrameに読み込む方法

構造化された大量のデータをいつでも分析に使える形で持っておきたい!というケースでよく使うのが、Google Cloud Platform(GCP)のBigQuery(以下BQ)です。 標準SQL文と互換性があるので、普段からRDBを扱っている人にも無理なく使えると思います。*1 一方で…

「なんでXGBoostでは分類問題の学習に対数損失を使うんですか?」

先日M氏がO御大に質問していたのを聞いて、自分も気になったのでまとめてみました。 そもそも勾配ブースティングで目的関数はどのように使われる? 勾配ブースティングの仕組み 学習プロセス 損失関数を用いた解釈(勾配降下法) 分類問題の場合 問題設定 対…