ほくそ笑む

R言語と統計解析について

非心ベータ分布を Stan で推定する (1)

1. はじめに ベータ分布は範囲が固定されている連続データの分布を柔軟に表現できるため便利である。 非心ベータ分布 (Noncentral Beta Distribution) はベータ分布を一般化した確率分布であり柔軟性はさらに上がる。 Noncentral beta distribution - Wikipe…

施策効果測定におけるメタアナリシスの応用

はじめに マーケティング施策を行うときに、その施策効果を測定するために、コントロールグループ(施策を適用しないユーザ)を作る場合がある。 例えば、販促メールを送るという施策を行うときに、一部のユーザには送らないようにする。 仮にメールを送らな…

Stochastic Online Anomaly Analysis for Streaming Time Series 読んだ

Stochastic Online Anomaly Analysis for Streaming Time Series (IJCAI 2017) https://doi.org/10.24963/ijcai.2017/445 Student-t process を使ったストリーミング時系列に対する新しい異常検知手法を提案する。 時系列関数が Student-t process に従うと…

Anomaly Detection in Streams with Extreme Value Theory 読んだ

Anomaly Detection in Streams with Extreme Value Theory (KDD 2017) http://www.kdd.org/kdd2017/papers/view/anomaly-detection-in-streams-with-extreme-value-theory ほとんどの異常検知手法は異常スコアを算出するが、異常かどうかを判断するためのし…

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection 読んだ

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection (ICDM 2016) http://ide-research.net/papers/2016_ICDM_Ide.pdf 複数の動作モードに対応可能かつ変数ごとの異常スコアを算出できる新しい異常検知手法を提案する。 通常、異常検知を行…

Putting MRFs on a Tensor Train 読んだ

Putting MRFs on a Tensor Train (ICML 2014) http://proceedings.mlr.press/v32/novikov14.pdf マルコフ確率場(MRF)のパラメータ推定に使われる最尤訓練法では、分配関数の良い近似が必要とされる。 離散変数の正規化されていない同時分布をテンソル(多次元…

2017年のベイズ統計入門書まとめ

2017年もベイズ関連の本がたくさん出版されたのでまとめてみます。 下記の記事の続きのようなものですが、私はほとんど読めていません。。 ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む 冬休みのお供にどうぞ。ビジネスマンがはじめて…

Facebookの予測ツールProphetについて発表しました

Facebook が出した誰でも簡単に時系列予測ができるツール Prophet についていくつか発表しました。 Prophet入門【Python編】 Prophet入門【R編】 Prophet入門【理論編】 Prophetはビジネス時系列、すなわち人間の行動に左右される時系列データに対する自動予…

AJAXサイトを Webスクレイピングする(銀行金利をスクレイピング)

共同で翻訳した本が出版されます。 『Rによる自動データ収集 ―Webスクレイピングとテキストマイニングの実践ガイド』 Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド作者: Simon Munzert,Christian Rubba,Peter Meissner,Domini…

分析したいけどデータがない!そんなときはウェブスクレイピング!

献本いただいたので紹介記事を書きます。Rによるスクレイピング入門作者: 石田基広,市川太祐,瓜生真也,湯谷啓明出版社/メーカー: シーアンドアール研究所発売日: 2017/03/27メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る本書はウェブ…

確率論の基礎について発表しました

Watanabe理論勉強会で発表してきました。 前回の発表はこちら Watanabe理論勉強会で発表してきました - ほくそ笑む 前回は2章だったのですが、2ヶ月半で5章まで進みました。ページ数的には折り返し地点です。今回の担当は5章前半だったのですが、私の脳みそ…

A/Bテストと統計的検定の注意点(その1)

素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。Web上にある多くのA/Bテスト…

Watanabe理論勉強会で発表してきました

このブログの読者には AIC (赤池情報量基準) をご存じの方は多いと思います. AIC は統計モデルの評価指標として世界中で広く使われていますが、これは赤池弘次という日本人統計学者により考案されたものです。これに対し、近年、ベイズ統計学で利用可能な WA…

「異常検知と変化検知」輪読会で論文紹介しました

去る 7/21(木) に行われた「異常検知と変化検知」輪読会で論文紹介をさせていただきました。タイトルは「非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出」で、資料は SlideShare に上げています。 非制約最小二乗密度比推定法 uLSIF を用いた外れ値検…

階層モデルの分散パラメータの事前分布について発表しました

ひと月ほど前になりますが、基礎からのベイズ統計学入門 輪読会で発表させて頂きました。タイトルは「階層モデルの分散パラメータの事前分布について」で、Andrew Gelman の論文 Prior distributions for variance parameters in hierarchical models (PDFリ…

トピックモデルの評価指標 Coherence に関する論文まとめ

LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデル…

『Sparkによる実践データ解析』という本の付録を執筆しました

リクルートの高柳さんと共同で『Sparkによる実践データ解析』という本の付録を執筆しました。Sparkによる実践データ解析 ―大規模データのための機械学習事例集作者: Sandy Ryza,Uri Laserson,Sean Owen,Josh Wills,石川有,Sky株式会社玉川竜司出版社/メーカ…

ベイズ統計の入門書が出版ラッシュなのでまとめてみた

【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまず…

R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました

RStudio社が開発した Shiny パッケージは、R言語で簡単に Web アプリケーションを作るためのフレームワークを提供します。 Shiny この Shiny による Web アプリケーションの開発方法を学ぶには、公式のチュートリアルを読むのが一番です。 Shiny - Tutorial …

【速報】神ハドリーの名著 "Advanced R" の翻訳が出ます

ビッグニュースです。統計言語 R の業界において神とあがめられているハドリー・ウィッカム。 彼は ggplot2 や dplyr などの数々の超便利パッケージを作成したことで知られていますが、その R に対する深い知識をもとに書かれた "Advanced R" という名著を昨…

可視化で理解する「負の二項分布」

みどりぼんでカウントデータの過分散対策のために使われると書かれている負の二項分布ですが、Wikipediaの説明を読んでもよく分かりません。そこでおススメなのが、このスライドです。 負の二項分布について from Hiroshi Shimizu ようするに、負の二項分布…

Stan でパラメータに大小関係の制約をつける

EC サイトなどでは、1 ページの読み込み時間の平均値が短いユーザほどコンバージョン率が高くなるという話があります。 この原因については、サクサク読み込みが終わる速いサイトの方がユーザは気前よく購入する、というわけではなく、単に速い回線を持つほ…

協調フィルタリングについて発表しました

某所で協調フィルタリングについて発表してきました。資料を公開します。 機械学習とかの知識を全く持たないエンジニアさん向けの導入資料です。 協調フィルタリング入門 from hoxo_m 協調フィルタリングは、レコメンド(推薦)に使われるアルゴリズムの一つで…

Shiny アプリを収集するサイトを作った

RStudio の作成した Shiny パッケージは、R 言語で Web アプリを簡単に作成するためのフレームワークを提供します。 Shiny by RStudio RStudio Shiny チュートリアル レッスン1 ようこそ Shiny へ また、RStudio は shinyapps.io というホスティングサービス…

データ分析のプロを目指すエンジニア必読の書

福島真太朗『データ分析プロセス』を読みました。データ分析プロセス (シリーズ Useful R 2)作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (2件) を見る「データ分析」とひとことで言っても、色…

Spark Meetup 2015 で SparkR について発表しました #sparkjp

「初めてのSpark」刊行記念 Spark Meetup 2015で発表してきました。 タイトルは「はじめての SparkR」です。 はじめての SparkR - Spark Meetup 2015 from hoxo_m SparkR は R 言語から Spark を使うためのパッケージで、Spark 1.4.0 から正式にサポートされ…

データの不備を統計的に見抜く (Gelman's Secret Weapon)

リクルートの高柳さん、Yahooの簑田さんと共同で翻訳した本が出版されます。 「みんなのR」(原題:R for Everyone)です。みんなのR -データ分析と統計解析の新しい教科書-作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー:…

世界一くだらないベイズ推定の話をしてきました

3月3日に行われた第5回「続・わかりやすいパターン認識」読書会にて、ベイズ推定についての話を発表させていただきました。タイトルは「カップルが一緒にお風呂に入る割合をベイズ推定してみた」です。 カップルが一緒にお風呂に入る割合をベイズ推定してみ…

マイナーだけど最強の統計的検定 Brunner-Munzel 検定

対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標本問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況…

ARIMAX で祝日効果を盛り込んだ時系列予測モデルの作成

1. はじめに うちのブログは平日のアクセス数が休日の 2 倍くらいあります。 みなさんお仕事で必要になったときに検索されて、このブログたどり着くのでしょうか。お疲れ様です。さて、『データサイエンティスト養成読本 R活用編』という書籍で、ARIMAX モデ…