ほくそ笑む

R言語と統計解析について

統計

人生で役立つ Grimshaw’s Trick

概要 人生を生きていると一般化パレート分布のパラメータを最尤推定したいときがあります。しかしこの推定は2変数の非線形最適化問題を解く必要があり数値計算的に不安定なため人生も不安になります。そんなときにGrimshaw’s Trickを使えばこの問題を一元方…

非心ベータ分布を Stan で推定する (1)

1. はじめに ベータ分布は範囲が固定されている連続データの分布を柔軟に表現できるため便利である。 非心ベータ分布 (Noncentral Beta Distribution) はベータ分布を一般化した確率分布であり柔軟性はさらに上がる。 Noncentral beta distribution - Wikipe…

施策効果測定におけるメタアナリシスの応用

はじめに マーケティング施策を行うときに、その施策効果を測定するために、コントロールグループ(施策を適用しないユーザ)を作る場合がある。 例えば、販促メールを送るという施策を行うときに、一部のユーザには送らないようにする。 仮にメールを送らな…

2017年のベイズ統計入門書まとめ

2017年もベイズ関連の本がたくさん出版されたのでまとめてみます。 下記の記事の続きのようなものですが、私はほとんど読めていません。。 ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む 冬休みのお供にどうぞ。ビジネスマンがはじめて…

確率論の基礎について発表しました

Watanabe理論勉強会で発表してきました。 前回の発表はこちら Watanabe理論勉強会で発表してきました - ほくそ笑む 前回は2章だったのですが、2ヶ月半で5章まで進みました。ページ数的には折り返し地点です。今回の担当は5章前半だったのですが、私の脳みそ…

A/Bテストと統計的検定の注意点(その1)

素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。Web上にある多くのA/Bテスト…

Watanabe理論勉強会で発表してきました

このブログの読者には AIC (赤池情報量基準) をご存じの方は多いと思います. AIC は統計モデルの評価指標として世界中で広く使われていますが、これは赤池弘次という日本人統計学者により考案されたものです。これに対し、近年、ベイズ統計学で利用可能な WA…

階層モデルの分散パラメータの事前分布について発表しました

ひと月ほど前になりますが、基礎からのベイズ統計学入門 輪読会で発表させて頂きました。タイトルは「階層モデルの分散パラメータの事前分布について」で、Andrew Gelman の論文 Prior distributions for variance parameters in hierarchical models (PDFリ…

ベイズ統計の入門書が出版ラッシュなのでまとめてみた

【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまず…

可視化で理解する「負の二項分布」

みどりぼんでカウントデータの過分散対策のために使われると書かれている負の二項分布ですが、Wikipediaの説明を読んでもよく分かりません。そこでおススメなのが、このスライドです。 負の二項分布について from Hiroshi Shimizu ようするに、負の二項分布…

世界一くだらないベイズ推定の話をしてきました

3月3日に行われた第5回「続・わかりやすいパターン認識」読書会にて、ベイズ推定についての話を発表させていただきました。タイトルは「カップルが一緒にお風呂に入る割合をベイズ推定してみた」です。 カップルが一緒にお風呂に入る割合をベイズ推定してみ…

マイナーだけど最強の統計的検定 Brunner-Munzel 検定

対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標本問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況…

ARIMAX で祝日効果を盛り込んだ時系列予測モデルの作成

1. はじめに うちのブログは平日のアクセス数が休日の 2 倍くらいあります。 みなさんお仕事で必要になったときに検索されて、このブログたどり着くのでしょうか。お疲れ様です。さて、『データサイエンティスト養成読本 R活用編』という書籍で、ARIMAX モデ…

可視化で理解するマルコフ連鎖モンテカルロ法(MCMC)

先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この…

欠測データの相関係数の推定法について発表しました

先日行われた BUGS/stan勉強会 #3 で発表させていただきました。タイトルは「Stan で欠測データの相関係数を推定してみた」です。欠測データに対して相関係数を求めるとき、普通のやり方では実際の値より小さい値になってしまいます。そこで、片側だけしか観…

チェビシェフの不等式について発表しました

先日行われた第40回R勉強会@東京(Tokyo.R)にて、「チェビシェフの不等式」というタイトルで発表させていただきました。大数の法則の証明にも使われるチェビシェフの不等式ですが、現実問題への適用例として、実際にあった事例をデフォルメして物語形式で発…

log 変換する?しない?AICでモデル比較するときの注意点

データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。 次のデータを見て下さい。 このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。 それもそのはず、このデータは次…

「5分でわかるベイズ確率」というタイトルで発表しました

先日行われた第35回R勉強会@東京(Tokyo.R)にて、「5分でわかるベイズ確率」というタイトルで発表させて頂きました。スライドは下記にアップしています。 5分でわかるベイズ確率 from hoxo_m 5分の発表枠に対して32枚のスライドは多すぎだったと思います。調…

統計的消去で擬似相関を見抜こう!

今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高い…

ブートストラップ法で信頼区間を求めるときの注意点

1. はじめに ブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。 今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます…

小標本問題と t検定

統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標本問題」というのを解決するために考案されました。 小標本問題とは、正規分布の平均値の検定に正規分…

統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか

主成分分析のQモードとRモードの違いについて調べていたんですが、ネット上にほとんど情報を見つけられませんでした。 クラスター分析とか相関係数にもQモードとRモードがあるみたいで、統計では結構一般的に使われている言葉みたいなのですが、これだけ日本…

主座標分析について簡単に紹介するよ!

今日は主座標分析(Principal Coordinate Analysis; PCoA)の紹介を簡単にしたいと思います。 主座標分析は古典的多次元尺度構成法(Classical Multidimensional Scaling; CMDS)とも呼ばれる統計解析手法です。 この解析手法を使用する主な目的は、高次元のデー…

統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ

はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータ…

主成分分析が簡単にできるサイトを作った

あけましておめでとうございます。 本年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 …

簡単にヒストグラムを作成できるサイトを作った

私は仕事でマイクロアレイの統計解析をやっています。 お客様からデータを頂いて、それを統計解析にかけるわけですが、マイクロアレイのデータ解析で一番最初にやることというのは、ヒストグラムを作ることです。 データの分布っていうのは統計解析をやる上…