ほくそ笑む

R言語と統計解析について

RNA-Seq とマイクロアレイでの変動遺伝子の比較方法について(2)

←前回:RNA-Seq とマイクロアレイでの変動遺伝子の比較方法について(1)
前回、変動遺伝子をランダムにサンプリングする際、実際は遺伝子ごとに変動確率が異なるということが問題になりました。
これを解決する方法は簡単です。たくさんの実験データを集めて、それぞれの遺伝子に対して変動確率を計算してしまえばよいのです。
ただし、実験データは大量に集めなければいけません。だいたい 1000 実験ぐらいでしょうか。RNA-Seq に対して 1000 実験、マイクロアレイに対して 1000 実験ほど集め、有意差解析をしてそれぞれの遺伝子の変動確率を求めてください。
と、まあ、これは冗談です。
今回はそんなことをしなくて済むように、リサンプリングを使った方法を説明します。
リサンプリングとは、一つの実験データから、別の実験データを作りだすことです。
リサンプリングにより別実験のデータをたくさん作成し、そこからサンプリングすることで、遺伝子ごとの変動確率を考慮した頻度分布を得ることができます。
ここでは、Sample Label Permutation という手法を説明します。

Sample Label Permutation

Sample Label Permutation は、SAMGSEA にも使われている、わりとポピュラーなリサンプリング手法です。
読んで字のごとく、サンプルのラベルを置換します。

図に示した通り、サンプルのラベルを貼りかえることによって、オリジナルデータから別データを作り出します。結構単純ですね。
これにより、一つの実験データから複数の別実験(とみなせる)データを得ることができます。別実験のデータですから、そこから得られる変動遺伝子は、それぞれの変動確率に従って得られたものだとみなすことができます。
Sample Label Permutation により得られた実験データを使って、帰無分布(Null Distribution)を作成し、仮説検定を行えば、共通遺伝子 300 個が多いのかどうかを判定することができるというわけです。
まあ、分布の作り方が違うだけで前回と同じような感じです。

Sample Label Permutation における注意点

Sample Label Permutation を使用するにあたって注意すべき点があります。Sample Label Permutation は、実験サンプル数が小さいとうまく機能しないということです。
Sample Label Permutation により得られる別実験の数は、サンプル数を N とすると、組合せ {}_{2N}C_{N} で計算できます。*1
N=3 の場合、{}_6 C_3 = 20 が得られる別実験数となります。
これはつまり、仮説検定の P値の最小単位が 1/20 = 0.05 となることを意味します。これでは検定はほとんど意味をなしません。
別実験数は 1000 あれば十分なのですが、それには N=7 が必要です。
弊社で解析する実験はほとんどが N=3 なので、Sample Label Permutation を使った検定方法はほとんど使われません。
それでは、今回の解析にこの手法は適用できないのでしょうか?
幸運なことに、今回は RNA-Seq とマイクロアレイの比較なので、それぞれについてリサンプリングすることができます。
したがって、実験データの組合せは N=3 でも 20×20 = 400 確保できます。
別実験数 400 だと最小単位は 1/400 = 0.0025 で、まあ大丈夫かな?と思われるくらいにはなります。
とりあえずやってみる価値はありそうです。
これで解析方法は決まりました。あとは実際の実験データをもらって解析するだけです。

そして、こんなオチ

さっそく今回相談しにきたバイオの人に「こういう解析方法があるんだけど」と提案してみました。
すると、返ってきた答えは「今回の実験は N=1 なんですが。。。」というものでした。
よくわかりませんが、今回の実験は培養細胞の実験とかで、N=1 でやってるそうです。
なので、この手法を使うのは無理でした。
(´;ω;`)

この手法は有効か?

この手法が有効かどうかは、やってみないとわかりません。
まず、Sample Label Permutation は実験サンプル数が小さいとちゃんとした分布ができないかもしれません。そうであれば、20×20=400 という組合せがまともな分布をつくるかどうかは疑問です。実際にやってみないことにはなんとも言えません。
というわけで、微妙な感じで終わってしまいましたが、この手法に興味があって、適用したいデータをお持ちの方は、ぜひご一報を。

*1:もう少し詳しく言うと、コントロール数 n、トリートメント数 m とすると、n+mCn となります。