今日は主座標分析(Principal Coordinate Analysis; PCoA)の紹介を簡単にしたいと思います。 主座標分析は古典的多次元尺度構成法(Classical Multidimensional Scaling; CMDS)とも呼ばれる統計解析手法です。 この解析手法を使用する主な目的は、高次元のデー…
はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータ…
あけましておめでとうございます。 本年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 …
この記事は R Advent Calendar 2011 の8日目の記事です。 はじめに さて、仕事で三次元散布図を描く必要がでてきました。 R は統計言語として有名ですが、グラフィクスに関しても得意分野です。 R なら三次元散布図も簡単に描けるだろうということで、少し調…
先日、簡単にヒストグラムを作成できるサイトを作ったわけですが、内部は R の hist() 関数を参考にさせてもらいました。 ヒストグラムの作成なんて簡単そう、と思われる方もいらっしゃるかもしれませんが、結構複雑です。 今日は、この複雑な hist() 関数を…
私は仕事でマイクロアレイの統計解析をやっています。 お客様からデータを頂いて、それを統計解析にかけるわけですが、マイクロアレイのデータ解析で一番最初にやることというのは、ヒストグラムを作ることです。 データの分布っていうのは統計解析をやる上…
R 環境を終了させたいときは、コマンドラインに q() と打てば終了できます。q() は quit() の省略形で、このままだと Save workspace image? [y/n/c]: などと聞かれるので、それがうっとおしい人は q("no") のように打てば確認されずに終了できます。 しかし…
統計言語 R の関数で、選択肢を受け取る引数を持つものがあります。 例えば、t.test() の Usage(使い方)を見ると、次のように書いてあります。 t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = …
僕はバイオインフォマティクスの会社に勤めているんですけど、統計関係の仕事をしています*1。 なので、たまにバイオの人から統計関係の相談を持ちかけられることがあります。 今回、ちょっとおもしろいことを相談されて、頭を悩ませたので、ここで紹介しよ…
Paired-End ってよく見かけるけどなんだろう?と思ってググると、そのものずばりの質問がありました。 what is a paired-end read? http://seqanswers.com/forums/showthread.php?t=503 面白かったので一部適当に翻訳してみました。間違いの指摘などは大歓迎…
この業界に入って丸2年が経ちました。早いものです。まったく違う分野からの参入なので、まだまだわからないことだらけです。日々勉強です。 この2年でバイオ系の本を数冊読みましたが、ちょっと疑問に思っていることがありました。それはこれです。 *1 これ…
Velvet や ABySS などの代表的な de novo アセンブリツールでは、アルゴリズムに de Bruijn Graph というのを使っているそうです。どうやってアセンブルしているんだろう?と興味を持っていたので、元ネタの An Eulerian path approach to DNA fragment asse…