ほくそ笑む

R言語と統計解析について

世界一くだらないベイズ推定の話をしてきました

3月3日に行われた第5回「続・わかりやすいパターン認識」読書会にて、ベイズ推定についての話を発表させていただきました。タイトルは「カップルが一緒にお風呂に入る割合をベイズ推定してみた」です。 カップルが一緒にお風呂に入る割合をベイズ推定してみ…

マイナーだけど最強の統計的検定 Brunner-Munzel 検定

対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標本問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況…

ARIMAX で祝日効果を盛り込んだ時系列予測モデルの作成

1. はじめに うちのブログは平日のアクセス数が休日の 2 倍くらいあります。 みなさんお仕事で必要になったときに検索されて、このブログたどり着くのでしょうか。お疲れ様です。さて、『データサイエンティスト養成読本 R活用編』という書籍で、ARIMAX モデ…

可視化で理解するマルコフ連鎖モンテカルロ法(MCMC)

先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この…

欠測データの相関係数の推定法について発表しました

先日行われた BUGS/stan勉強会 #3 で発表させていただきました。タイトルは「Stan で欠測データの相関係数を推定してみた」です。欠測データに対して相関係数を求めるとき、普通のやり方では実際の値より小さい値になってしまいます。そこで、片側だけしか観…

チェビシェフの不等式について発表しました

先日行われた第40回R勉強会@東京(Tokyo.R)にて、「チェビシェフの不等式」というタイトルで発表させていただきました。大数の法則の証明にも使われるチェビシェフの不等式ですが、現実問題への適用例として、実際にあった事例をデフォルメして物語形式で発…

log 変換する?しない?AICでモデル比較するときの注意点

データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。 次のデータを見て下さい。 このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。 それもそのはず、このデータは次…

2013年度Rユーザ会で発表してきました

2013年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」(通称、Rユーザ会)にて、Japan.R 枠で発表させて頂きました。スライドは下記にアップしています。 RPubs とその Bot たち from hoxo_m 以前作成した Twitter Bot @RPubsRecent の妹分であ…

「5分でわかるベイズ確率」というタイトルで発表しました

先日行われた第35回R勉強会@東京(Tokyo.R)にて、「5分でわかるベイズ確率」というタイトルで発表させて頂きました。スライドは下記にアップしています。 5分でわかるベイズ確率 from hoxo_m 5分の発表枠に対して32枚のスライドは多すぎだったと思います。調…

統計的消去で擬似相関を見抜こう!

今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高い…

ブートストラップ法で信頼区間を求めるときの注意点

1. はじめに ブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。 今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます…

RDP Classifier の原理

1. はじめに RDP Classifier は、RDP(Ribosomal Database Project) により開発された、16S rRNA 配列から菌種を判別するためのツールです。RDP Classifier は、BLAST に比べて数百倍の速度で菌の判別(簡易同定)を行うことが可能です。また、この論文によると…

小標本問題と t検定

統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標本問題」というのを解決するために考案されました。 小標本問題とは、正規分布の平均値の検定に正規分…

統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ

『アート・オブ・Rプログラミング』の日本語訳が出たので早速買いました。 細かい仕様の解説が多くちりばめられていて結構いい感じです。 プログラミング初心者向けではないですが、他の言語になじんでる人が R に入門したい場合には、他の入門書よりもこっ…

16S rRNA解析のクオリティフィルタリングについて

最近は仕事で微生物の 16S rRNA解析用のツールを作っています。 そのツールには入力データとして、NGS で読んだリードデータを入れるのですが、その前にリードのフィルタリングを行わなければなりません。 NGS のデータにはシーケンスエラーが含まれていて、…

RPubs の新着記事をつぶやく Twitter Bot 作った

R ユーザのための Web サービス RPubs は、R で書かれたプログラムを実行結果つきで簡単に記事にしてアップロードできる仕組みを提供するサイトです。 teramonagi さん、wdkz さん、dichika さん、manozo さん、phosphor_m さんといった、R クラスタの有名人…

三次元散布図をRで描くのに画期的な新機能がRGLパッケージに加わった

R

以前、三次元散布図をRで描いてみたという記事で紹介したRGLパッケージに画期的な新機能が加わったので紹介します。 (情報源:R: Interactive 3D WebGL plot of time-space cube with RGL | geolabs) RGLパッケージの良いところは、3次元プロットをマウスド…

統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか

主成分分析のQモードとRモードの違いについて調べていたんですが、ネット上にほとんど情報を見つけられませんでした。 クラスター分析とか相関係数にもQモードとRモードがあるみたいで、統計では結構一般的に使われている言葉みたいなのですが、これだけ日本…

主座標分析について簡単に紹介するよ!

今日は主座標分析(Principal Coordinate Analysis; PCoA)の紹介を簡単にしたいと思います。 主座標分析は古典的多次元尺度構成法(Classical Multidimensional Scaling; CMDS)とも呼ばれる統計解析手法です。 この解析手法を使用する主な目的は、高次元のデー…

統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ

はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータ…

主成分分析が簡単にできるサイトを作った

あけましておめでとうございます。 本年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 …

三次元散布図をRで描いてみた

R

この記事は R Advent Calendar 2011 の8日目の記事です。 はじめに さて、仕事で三次元散布図を描く必要がでてきました。 R は統計言語として有名ですが、グラフィクスに関しても得意分野です。 R なら三次元散布図も簡単に描けるだろうということで、少し調…

ヒストグラム作成の裏側: R 関数探訪 hist() 編

R

先日、簡単にヒストグラムを作成できるサイトを作ったわけですが、内部は R の hist() 関数を参考にさせてもらいました。 ヒストグラムの作成なんて簡単そう、と思われる方もいらっしゃるかもしれませんが、結構複雑です。 今日は、この複雑な hist() 関数を…

簡単にヒストグラムを作成できるサイトを作った

私は仕事でマイクロアレイの統計解析をやっています。 お客様からデータを頂いて、それを統計解析にかけるわけですが、マイクロアレイのデータ解析で一番最初にやることというのは、ヒストグラムを作ることです。 データの分布っていうのは統計解析をやる上…

R を終了させる最短コードがおもしろい

R

R 環境を終了させたいときは、コマンドラインに q() と打てば終了できます。q() は quit() の省略形で、このままだと Save workspace image? [y/n/c]: などと聞かれるので、それがうっとおしい人は q("no") のように打てば確認されずに終了できます。 しかし…

統計言語 R 探訪 match.arg() 編

R

統計言語 R の関数で、選択肢を受け取る引数を持つものがあります。 例えば、t.test() の Usage(使い方)を見ると、次のように書いてあります。 t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = …

RNA-Seq とマイクロアレイでの変動遺伝子の比較方法について(1)

僕はバイオインフォマティクスの会社に勤めているんですけど、統計関係の仕事をしています*1。 なので、たまにバイオの人から統計関係の相談を持ちかけられることがあります。 今回、ちょっとおもしろいことを相談されて、頭を悩ませたので、ここで紹介しよ…

Paired-End Read って何ですか?

Paired-End ってよく見かけるけどなんだろう?と思ってググると、そのものずばりの質問がありました。 what is a paired-end read? http://seqanswers.com/forums/showthread.php?t=503 面白かったので一部適当に翻訳してみました。間違いの指摘などは大歓迎…

染色体についての長年の謎が解けた

この業界に入って丸2年が経ちました。早いものです。まったく違う分野からの参入なので、まだまだわからないことだらけです。日々勉強です。 この2年でバイオ系の本を数冊読みましたが、ちょっと疑問に思っていることがありました。それはこれです。 *1 これ…

de Bruijn Graph を使った de novo アセンブリの発想がすごい件

Velvet や ABySS などの代表的な de novo アセンブリツールでは、アルゴリズムに de Bruijn Graph というのを使っているそうです。どうやってアセンブルしているんだろう?と興味を持っていたので、元ネタの An Eulerian path approach to DNA fragment asse…