ほくそ笑む

R言語と統計解析について

Paired-End Read って何ですか?

Paired-End ってよく見かけるけどなんだろう?と思ってググると、そのものずばりの質問がありました。
what is a paired-end read?
http://seqanswers.com/forums/showthread.php?t=503
面白かったので一部適当に翻訳してみました。間違いの指摘などは大歓迎です。

Paired-End Read って何ですか?
 
論文を読んでると "paired-end read" とか "single-end read" とかをよく見かけます。
この "paired-end read" って何なんでしょうか?あまりよくわかっていません。
例えば、下記は Solexa で生成したものです。
1 1 119 395 GAAGAGGAGATAAATAAAACTCAAAATACAGCTGAA
1 1 852 893 GTTATTAATATTATTGATGTATTCATCTTTTCTTTT
1 1 814 900 GTTAAAGCATTAAGAAAAGATGTACTTGCAAAATGC
1 1 241 454 GGTGGAAGAGATGTCATTGGAGAAGCCCAAACAGGT
1 1 759 899 GTGTGCTTTTTGAATGAGTAGGTATTGTAATTAGCT
1 1 123 438 GAAAGCCAAACTTTTCATAAAAGCCTTCCTTGCCAT
これは paired-end read でしょうか?
よろしくお願いします。
by biocc

"paired ends" っていう用語は、同じ DNA 分子配列を二回読むってことだよ。
まず一回普通に配列を端(end)から読むでしょ。読み終わったら引き返してもう一回今度は逆の端から読むんだ。
こうして読まれた二つの配列が "paired end reads" ってわけさ。
ちなみにこれを "mate pairs" って呼ぶ人もいる(でも Illumina の場合は "mate pair" と "pair end" は違うものを指していると思う)。
回答になってるかい?
by ScottC

ありがとうございます。
ところで、もし二つの read が paired end のとき、一方の read はもう一方と相補的なものになるんですか?
SSAKE の説明を読むと、TGGCTCACCCCTGTAATCCCAGCACT : CTCCCAGGTTCAAGCGATTCTCCTGC は paired reads を構成しますと書いてあります。
しかし、これらの paired reads にどんな関係があるのかわかりません。
by biocc

きみの質問をちゃんと理解できてればいいけど・・。
 
実は、違うんだよ。paired end reads は相補的にはならない。非常に短い分子を読むのでない限りね。各端に対する read は単にそれぞれの DNA 鎖を端から読んだものになるんだ。
一般的に、分子はとても長いんだ。もし、一方の端から read を読んで、もう一方の端からも read を読んだとしても、真ん中の部分の配列はわからない。なぜなら、read はすべての分子を渡ることができるほど長くは無いからね。だから基本的に、二つの配列を見ただけで、pair なのかそうでないのか見分ける方法は無いんだよ。
by ScottC

Paired end (mate pair) シーケンシングの解説
 
biocc へ
 
"paired end" や "mate pair" という用語は、どのようにライブラリが作られたか、どうやってシーケンスされたかを示します。
どちらの手法も、配列情報に加えて、ゲノム中における二つの read 間の物理的な距離の情報を与えます。
 
例えば、ゲノム DNA を切って、500 bp 程度に揃えたとします。そして、ライブラリを用意し、各分子の各端から 35 bp の配列を読みます。
このとき、あなたは三つの情報を得たことになります。
 
1.一つ目の配列情報
2.二つ目の配列情報
3.そして、これらの配列間の距離が 500 bp ぐらいだということ
 
この距離の情報を、リファレンスにマッピングするとき(あるいは de novo のとき)に使うことができます。距離の情報は、より大きな構造の再配置*1(挿入、欠失、逆位)を解決する重要な手掛かりとなります。同様に、アセンブルのリピート問題を解決する手掛かりとなります。
 
構造の再配置が起こっていることを推測するには、リファレンスにマッピングされた read pair の距離が、ライブラリを構築するときの情報(上の例では 500 bp)と大きく異なっていることを見ます。例えば、二つの read がリファレンス上で 1000 bp 離れてマッピングされた場合、その二つの配列の間に欠失があったことが推測されます。それが 100 bp しか離れてなかった場合は、挿入が推測されます。
 
リピート上へのマッピングについても同じです。もし、リピートの多い領域(例えば LINE, LTR, SINE)が原因でマッピングできない read があり、もう一方の read がユニークにマッピングできている場合、それらの read をマッピングするのに距離情報が使えます。つまり、最初の read はおそらく、二番目の read の場所から 500 bp 離れたリピート領域から来ているであろうということです。
 
お役に立てたでしょうか。最初は奇妙に思えるかもしれませんが、すべてのシーケンシングに対して有用な概念です。ショットガンシーケンスの時代からありました。
 
最後に、"paired end" と "mate pair" の違いですが、"paired end" が同じ分子の両端をシーケンスするのに対し、"mate pair" は(ABIの場合)非常に大きな分子の両端から二つのタグのみをシーケンスします(それらはIISタイプの制限酵素により SAGE 風に作られます)。ここは間違ってるかも・・・^^

*1:structural rearrangements: なんと訳せばいいんだろう・・・