ほくそ笑む

R言語と統計解析について

その発想はなかった。。。遺伝子発現データを比較するちょっと強引な新手法 RRHO

ちょっと前に次のようなニュースが流れました。
既存薬の新効果見つけよう 慶大や14社「薬の図書館」
これは何がしたいかというと、

新薬をゼロから開発するには、化合物の探索から安全性の確認までハードルが多数ある。しかし、製薬会社が安全性を確認した既存薬の化合物から新たな薬効を調べれば、安全性確認など膨大なコストを大幅に省くことができる。

http://www.asahi.com/science/update/0702/TKY201007010553.html

ということで、新しく薬を作って承認させるよりは、すでに承認されている既存の薬物の別効果を見つけて売ったほうがコストが安くて済む、という話です。
この、「既存の薬物の別効果を見つける」ための方法の一つとして、「遺伝子発現データの比較」というのがあります。
どういうことかというと、新薬として売り出したい化合物をすでに発見している場合、その遺伝子発現データをとって、既存の薬物の発現データと比較することで、発現の似ている化合物を探そうってことなんです。
もし似ている化合物が見つかったら、新薬として効能があることを示せば、安全性については既に誰かが調べてくれてるはずなので、そこのところのコストを安く済ませることができる、というわけですね。

これまでの方法

さて、遺伝子発現データの比較方法ですが、単純に考えると、発現データを高次元ベクトルと考えて距離や類似度を測るという方法が考えられます。
ただ、これはあまりにも単純すぎて役に立ちそうもないです。
そこで、GSEA(Gene Set Enrichment Analysis) を使った方法が考え出されました。
GSEA は Gene Ontology などから作成された遺伝子セットが、遺伝子発現データ中で有意に変動したかどうかを解析する手法です。
この GSEA は、遺伝子セットとして、既存薬物データベースで有意に変動した遺伝子を指定すると、発現データの比較に使えます。
もし既存薬物で有意に変動した遺伝子セットが GSEA で有意になれば、発現データ中の変動遺伝子と既存薬物の変動遺伝子は似ているということになります。
こうして既存薬物と新規薬物とで発現データの類似度を算出できるのです。
これを応用して MARQ(Microarray Rank Query) というウェブサービスが作成されています。
MARQ では、発現上昇した遺伝子グループと発現下降した遺伝子グループを入力することで、GEO データベース中の遺伝子発現データを検索し、似た発現データを探してくれます。
これはすごい!と見たときは思ったのですが、実際使ってみると、まるで使い物になりませんでした*1

MARQ の敗因

MARQ の敗因として、GSEA を使った遺伝子発現データ比較手法の欠点を述べておきます。
GSEA を使った手法では、遺伝子発現データそのものを比較するのではなく、発現変動遺伝子を比較しています。この発現変動遺伝子は、ふつう、人の手によって決められます。P値で切ったり、発現変動比で切ったりを人間がデータを見て決めていきます。
ところが、データベース中のすべての発現データから変動遺伝子を抜き出すには、人手でやるにはデータが膨大すぎます。
したがって、GSEA を使った手法では、機械的に発現変動遺伝子を決めるための一定の基準(スレッシュホルド)を作らなければなりません*2
このような基準を作ってしまうと、発現変動遺伝子の中にノイズが混じりやすくなり、データ比較の精度も落ちてしまいます。また、基準を決めことによる恣意性も問題となります。

基準を作らない新手法 RRHO

このような問題に対して、基準を作らずに発現データを比較できる新手法 RRHO(Rank-Rank Hypergeometric Overlap) が登場しました。
Rank–rank hypergeometric overlap: identification of statistically significant overlap between gene-expression signatures
この RRHO という手法では、GSEA が登場する以前に使われていた超幾何分布を用いた機能解析を使います。
超幾何分布を用いた機能解析は、GSEA の簡易版とも言える手法で、GSEA より精度は落ちますが、同じことが簡単かつ高速に実行できます。この「GSEA と同じことが高速にできる」つまり「発現データの類似度を高速に計算できる」という点を RRHO では利用します。
簡単に言うと、RRHO は、スレッシュホルドをいろいろと変えてみて、そのたびに類似度を求め、その類似度のうち一番良いものを「真の類似度」として採用するのです。
つまり、スレッシュホルドの最適値を探索して、発現データが一番似ているときの類似度を求める、という方法です。
これにより、基準を決めることによる恣意性の問題から解放されます。比較の精度も GSEA と同程度は出ているようです。
スレッシュホルドが固定できないなら、変化させてみて一番いいとこで止めちゃえ、というのはやや強引ながら面白い発想だと思います。

おわりに

正直なところ、この手法(RRHO)は実際はあまり使い物にはならないんじゃないかなぁと思っています。
スレッシュホルドの最適値での類似度を発現データの類似度とするというのは、根拠がちょっと弱いです*3
というわけで、この「発現データの比較」という分野は、まだこれといった決め手となる手法は発明されていないようです。
どなたかチャレンジしてみたいという人、いませんかね?

*1:個人的な感想です。効果には個人差があります

*2:たぶん MARQ もそうしてるんじゃないかなぁ → 訂正:MARQ はそうじゃないらしい

*3:ていうか根拠無いんじゃないの?僕がわかってないだけ?