ほくそ笑む

R言語と統計解析について

論文紹介

「異常検知と変化検知」輪読会で論文紹介しました

去る 7/21(木) に行われた「異常検知と変化検知」輪読会で論文紹介をさせていただきました。タイトルは「非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出」で、資料は SlideShare に上げています。 非制約最小二乗密度比推定法 uLSIF を用いた外れ値検…

階層モデルの分散パラメータの事前分布について発表しました

ひと月ほど前になりますが、基礎からのベイズ統計学入門 輪読会で発表させて頂きました。タイトルは「階層モデルの分散パラメータの事前分布について」で、Andrew Gelman の論文 Prior distributions for variance parameters in hierarchical models (PDFリ…

トピックモデルの評価指標 Coherence に関する論文まとめ

LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデル…

RDP Classifier の原理

1. はじめに RDP Classifier は、RDP(Ribosomal Database Project) により開発された、16S rRNA 配列から菌種を判別するためのツールです。RDP Classifier は、BLAST に比べて数百倍の速度で菌の判別(簡易同定)を行うことが可能です。また、この論文によると…

16S rRNA解析のクオリティフィルタリングについて

最近は仕事で微生物の 16S rRNA解析用のツールを作っています。 そのツールには入力データとして、NGS で読んだリードデータを入れるのですが、その前にリードのフィルタリングを行わなければなりません。 NGS のデータにはシーケンスエラーが含まれていて、…

de Bruijn Graph を使った de novo アセンブリの発想がすごい件

Velvet や ABySS などの代表的な de novo アセンブリツールでは、アルゴリズムに de Bruijn Graph というのを使っているそうです。どうやってアセンブルしているんだろう?と興味を持っていたので、元ネタの An Eulerian path approach to DNA fragment asse…