私の情報収集方法、公開します！

情報収集 tamiya.yuji feedly arXiv Medium Towards Data Science connpass Twitter Python Weekly DGWT

こんにちは、アナリティクス&デベロップメント部のTです。以前から「Tさんって、どうやって技術や業界トレンドの情報集めてるんですか？」的な質問を受けることがちょくちょくあるので、思い切って公開しようと思います。 3つの原則まず、情報収集で重要…

GCP Dataprepで大規模データを扱うときネックになるポイント

GCP Dataprep ETL BigQuery GCS Dataflow tamiya.yuji

どうも、アナリティクス&デベロップメント部のTです。 GCPのサービスの一つ、Dataprepを使えば、GUI上でインタラクティブにデータの集計～整形・加工を行うことができます。プログラミングコードを書けない人でも手軽にBigQueryやGCS上のデータをいじること…

Redshift Glue DWH S3 AWS SQL Redshift Spectrum tamiya.yuji

どうも、アナリティクス&デベロップメント部のTです。最近数十～100GBほどのcsvデータを分析するという場面に遭遇しました。通常ならGCPのBigQueryかな、ってとこなのですが、今回はクライアントさんがAWSしか使用していなかったので、代わりにRedshift…

SQL Presto DWH RDB 分散処理 tamiya.yuji

最近になってPrestoというSQLに近いクエリで操作できるデータ分散処理基盤を扱うようになりましたが、今まで書いてきたSQLクエリと同じ感覚でデータ抽出しようとしていたら痛い目に遭いました。本記事ではその時の模様をお話をします。 Take Home Message …

SQL MySQL PostgreSQL Redshift BigQuery DWH RDB tamiya.yuji

SQLのクエリを書きリレーショナルデータベース(RDB)から自在にデータ集計ができることは、データアナリスト必須の素養の一つです。しかし、学生のうちは使う機会がない人がほとんどで、新卒入社していきなり使うことになり面食らう人も多いでしょう。また…

Jupyter GCP BigQuery Pandas Python tamiya.yuji

構造化された大量のデータをいつでも分析に使える形で持っておきたい！というケースでよく使うのが、Google Cloud Platform(GCP)のBigQuery(以下BQ)です。標準SQL文と互換性があるので、普段からRDBを扱っている人にも無理なく使えると思います。*1 一方で…

機械学習勾配ブースティングアルゴリズム決定木 XGBoost LightGBM tamiya.yuji

先日M氏がO御大に質問していたのを聞いて、自分も気になったのでまとめてみました。そもそも勾配ブースティングで目的関数はどのように使われる？勾配ブースティングの仕組み学習プロセス損失関数を用いた解釈（勾配降下法）分類問題の場合問題設定対…