ほくそ笑む

R言語と統計解析について

トピックモデルの評価指標 Coherence に関する論文まとめ

LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデル…

『Sparkによる実践データ解析』という本の付録を執筆しました

リクルートの高柳さんと共同で『Sparkによる実践データ解析』という本の付録を執筆しました。Sparkによる実践データ解析 ―大規模データのための機械学習事例集作者: Sandy Ryza,Uri Laserson,Sean Owen,Josh Wills,石川有,Sky株式会社玉川竜司出版社/メーカ…

ベイズ統計の入門書が出版ラッシュなのでまとめてみた

【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまず…

R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました

RStudio社が開発した Shiny パッケージは、R言語で簡単に Web アプリケーションを作るためのフレームワークを提供します。 Shiny この Shiny による Web アプリケーションの開発方法を学ぶには、公式のチュートリアルを読むのが一番です。 Shiny - Tutorial …

【速報】神ハドリーの名著 "Advanced R" の翻訳が出ます

ビッグニュースです。統計言語 R の業界において神とあがめられているハドリー・ウィッカム。 彼は ggplot2 や dplyr などの数々の超便利パッケージを作成したことで知られていますが、その R に対する深い知識をもとに書かれた "Advanced R" という名著を昨…

可視化で理解する「負の二項分布」

みどりぼんでカウントデータの過分散対策のために使われると書かれている負の二項分布ですが、Wikipediaの説明を読んでもよく分かりません。そこでおススメなのが、このスライドです。 負の二項分布について from Hiroshi Shimizu ようするに、負の二項分布…

Stan でパラメータに大小関係の制約をつける

EC サイトなどでは、1 ページの読み込み時間の平均値が短いユーザほどコンバージョン率が高くなるという話があります。 この原因については、サクサク読み込みが終わる速いサイトの方がユーザは気前よく購入する、というわけではなく、単に速い回線を持つほ…

協調フィルタリングについて発表しました

某所で協調フィルタリングについて発表してきました。資料を公開します。 機械学習とかの知識を全く持たないエンジニアさん向けの導入資料です。 協調フィルタリング入門 from hoxo_m 協調フィルタリングは、レコメンド(推薦)に使われるアルゴリズムの一つで…

Shiny アプリを収集するサイトを作った

RStudio の作成した Shiny パッケージは、R 言語で Web アプリを簡単に作成するためのフレームワークを提供します。 Shiny by RStudio RStudio Shiny チュートリアル レッスン1 ようこそ Shiny へ また、RStudio は shinyapps.io というホスティングサービス…

データ分析のプロを目指すエンジニア必読の書

福島真太朗『データ分析プロセス』を読みました。データ分析プロセス (シリーズ Useful R 2)作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (2件) を見る「データ分析」とひとことで言っても、色…

Spark Meetup 2015 で SparkR について発表しました #sparkjp

「初めてのSpark」刊行記念 Spark Meetup 2015で発表してきました。 タイトルは「はじめての SparkR」です。 はじめての SparkR - Spark Meetup 2015 from hoxo_m SparkR は R 言語から Spark を使うためのパッケージで、Spark 1.4.0 から正式にサポートされ…

データの不備を統計的に見抜く (Gelman's Secret Weapon)

リクルートの高柳さん、Yahooの簑田さんと共同で翻訳した本が出版されます。 「みんなのR」(原題:R for Everyone)です。みんなのR -データ分析と統計解析の新しい教科書-作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー:…

世界一くだらないベイズ推定の話をしてきました

3月3日に行われた第5回「続・わかりやすいパターン認識」読書会にて、ベイズ推定についての話を発表させていただきました。タイトルは「カップルが一緒にお風呂に入る割合をベイズ推定してみた」です。 カップルが一緒にお風呂に入る割合をベイズ推定してみ…

マイナーだけど最強の統計的検定 Brunner-Munzel 検定

対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標本問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況…

ARIMAX で祝日効果を盛り込んだ時系列予測モデルの作成

1. はじめに うちのブログは平日のアクセス数が休日の 2 倍くらいあります。 みなさんお仕事で必要になったときに検索されて、このブログたどり着くのでしょうか。お疲れ様です。さて、『データサイエンティスト養成読本 R活用編』という書籍で、ARIMAX モデ…

可視化で理解するマルコフ連鎖モンテカルロ法(MCMC)

先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この…

欠測データの相関係数の推定法について発表しました

先日行われた BUGS/stan勉強会 #3 で発表させていただきました。タイトルは「Stan で欠測データの相関係数を推定してみた」です。欠測データに対して相関係数を求めるとき、普通のやり方では実際の値より小さい値になってしまいます。そこで、片側だけしか観…

チェビシェフの不等式について発表しました

先日行われた第40回R勉強会@東京(Tokyo.R)にて、「チェビシェフの不等式」というタイトルで発表させていただきました。大数の法則の証明にも使われるチェビシェフの不等式ですが、現実問題への適用例として、実際にあった事例をデフォルメして物語形式で発…

log 変換する?しない?AICでモデル比較するときの注意点

データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。 次のデータを見て下さい。 このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。 それもそのはず、このデータは次…

2013年度Rユーザ会で発表してきました

2013年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」(通称、Rユーザ会)にて、Japan.R 枠で発表させて頂きました。スライドは下記にアップしています。 RPubs とその Bot たち from hoxo_m 以前作成した Twitter Bot @RPubsRecent の妹分であ…

「5分でわかるベイズ確率」というタイトルで発表しました

先日行われた第35回R勉強会@東京(Tokyo.R)にて、「5分でわかるベイズ確率」というタイトルで発表させて頂きました。スライドは下記にアップしています。 5分でわかるベイズ確率 from hoxo_m 5分の発表枠に対して32枚のスライドは多すぎだったと思います。調…

統計的消去で擬似相関を見抜こう!

今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高い…

ブートストラップ法で信頼区間を求めるときの注意点

1. はじめに ブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。 今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます…

RDP Classifier の原理

1. はじめに RDP Classifier は、RDP(Ribosomal Database Project) により開発された、16S rRNA 配列から菌種を判別するためのツールです。RDP Classifier は、BLAST に比べて数百倍の速度で菌の判別(簡易同定)を行うことが可能です。また、この論文によると…

小標本問題と t検定

統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標本問題」というのを解決するために考案されました。 小標本問題とは、正規分布の平均値の検定に正規分…

統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ

『アート・オブ・Rプログラミング』の日本語訳が出たので早速買いました。 細かい仕様の解説が多くちりばめられていて結構いい感じです。 プログラミング初心者向けではないですが、他の言語になじんでる人が R に入門したい場合には、他の入門書よりもこっ…

16S rRNA解析のクオリティフィルタリングについて

最近は仕事で微生物の 16S rRNA解析用のツールを作っています。 そのツールには入力データとして、NGS で読んだリードデータを入れるのですが、その前にリードのフィルタリングを行わなければなりません。 NGS のデータにはシーケンスエラーが含まれていて、…

RPubs の新着記事をつぶやく Twitter Bot 作った

R ユーザのための Web サービス RPubs は、R で書かれたプログラムを実行結果つきで簡単に記事にしてアップロードできる仕組みを提供するサイトです。 teramonagi さん、wdkz さん、dichika さん、manozo さん、phosphor_m さんといった、R クラスタの有名人…

三次元散布図をRで描くのに画期的な新機能がRGLパッケージに加わった

R

以前、三次元散布図をRで描いてみたという記事で紹介したRGLパッケージに画期的な新機能が加わったので紹介します。 (情報源:R: Interactive 3D WebGL plot of time-space cube with RGL | geolabs) RGLパッケージの良いところは、3次元プロットをマウスド…

統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか

主成分分析のQモードとRモードの違いについて調べていたんですが、ネット上にほとんど情報を見つけられませんでした。 クラスター分析とか相関係数にもQモードとRモードがあるみたいで、統計では結構一般的に使われている言葉みたいなのですが、これだけ日本…