ほくそ笑む

R言語と統計解析について

マイクロアレイデータ解析ってどんなことするの?

マイクロアレイデータ解析と言ってもいろいろあるようなので、今日は有意差解析といわれるものについて説明してみようと思います。

有意差解析はマイクロアレイデータ解析の中でも一番基本的なものです。

例えば、ある病気の人は、健康な人に比べてどんな遺伝子の発現が多いか、または少ないかについて調べたいとします。

そんなときは、その病気の人を何人か集めて、マイクロアレイデータを取ります。また、比較用に健康な人も何人か集めて、マイクロアレイデータを取ります。

取ったデータが以下のようだったとします。

Aさん(病気) Bさん(病気) Cさん(病気) Dさん(健康) Eさん(健康) Fさん(健康)
遺伝子1 201 205 208 109 104 102
遺伝子2 50 49 51 101 103 106
遺伝子3 95 97 96 104 102 101

病気のAさん、Bさん、Cさん、健康なDさん、Eさん、Fさんのマイクロアレイデータを取りました。数値はそれぞれの遺伝子の発現量を表しています。本当はたくさんの遺伝子についてのデータが取れるのですが、ここでは3つの遺伝子にだけ着目します。

まず、遺伝子1ですが、病気の人たちは発現量が200ぐらいあるのに対して、健康な人たちは100ぐらいです。これは明らかに病気の人たちの数値が高いです。なので、この病気に関しては、遺伝子1の発現量が高くなるのが特徴と言えます。この病気に効く薬を作りたかったら遺伝子1の発現を抑えるような薬を作ればいいですね。

次に、遺伝子2ですが、こんどは病気の人たちのほうが発現量が低いです。これも明らかに、この病気には遺伝子2の発現量が低くなるという特徴があると言えます。この病気に効く薬を作るには、遺伝子2の発現を促進する成分も必要だとわかります。

このように、発現量に明確な(有意な)差があるかどうかを判定することを、有意差解析といいます。

最後に、遺伝子3ですが、これは病気の人たちのほうが若干低いですが、あまり差がないようにも見えます。ちょっと微妙です。

有意差解析では、遺伝子3のような場合や、もっと微妙な場合(二人は高いけど一人は低いとか)も出てくるので、これらの発現量に差があるかどうかの判定基準を明確にしておく必要があります。

単純なやりかたとして、発現比を求めるやり方があります。

これは、病気の人たちの発現量の平均と、健康な人たちの発現量の平均の比を計算して、例えば2倍以上なら有意差ありと判断するというやり方です。

上の例でいえば、遺伝子1に関しては、健康な人に比べて病気の人の発現量が2倍あるので、有意差ありです。遺伝子2に関しては、逆に病気の人に比べて健康な人の発現量が2倍あるので有意差ありです。遺伝子3は、病気の人と健康な人の発現量の比を計算しても、2倍以上にはならないので有意差なしということになります。

もう少し高度な有意差解析の手法も紹介しておきましょう。

それは、統計的検定を用いた有意差解析です。

統計的検定のうち、例えば t検定(Wikipedia)は、発現データが同じ母集団から取られたものである確率を計算してくれます。この確率を P値と言います。P値が高い(1に近い)ということは、同じ母集団から取られた確率が高いということで、発現量に差がないということになります。逆に、P値が低い(0に近い)ということは、同じ母集団から取られた確率は低いということなので、発現量に差があると判断してよいことになります。

例えば、遺伝子1に対して P値を計算してみると、P=0.000004 というかなり低い値が出ました。なので、遺伝子1に対する病気の人の発現データと健康な人の発現データが同じ母集団から取られた確率はかなり低いです。つまりそれぞれのデータの元となる母集団には差があるということになり、それぞれの発現量には差があると結論づけられることになります。

ちなみに、遺伝子3について P値を計算してみると、P=0.003863 となり、ふつうは P<=0.05 ならば有意差ありと判定するので、t検定を使った有意差解析では遺伝子3も有意差ありとなります。発現比を使った有意差解析とは結果が違いますね。このようにどの手法を用いるかによって結果が変わってくるので、有意差解析の手法を選ぶときは、その実験にあった手法を選ぶようにしなければなりません。

というわけで、今日のところはこのへんで。