ほくそ笑む

R言語と統計解析について

簡単にヒストグラムを作成できるサイトを作った

私は仕事でマイクロアレイの統計解析をやっています。
お客様からデータを頂いて、それを統計解析にかけるわけですが、マイクロアレイのデータ解析で一番最初にやることというのは、ヒストグラムを作ることです。
データの分布っていうのは統計解析をやる上では一番最初に見ておきたいものですよね。
それで、ヒストグラムを作るわけですけど、お客様から頂くデータはほとんどの場合 Excel です。
ところが、Excel にはヒストグラムを作ってくれる機能が無いわけです。*1
そんなわけで、私の場合は統計ソフト R を使ってヒストグラムを描くわけですけど、これがもう超簡単です。

hist(data)

って打つだけで、ヒストグラム作れちゃう。
級数とか階級幅とか、なんかいい感じにしてくれる。
めんどくさい設定一切なし。
というわけで、R サイコー!ってなわけなんですが、一つだけ欠点があります。
Excel のデータを R で読み取れるようにするの、めんどくさい。
Excel ファイルをタブ区切りテキストで保存して、read.table() で読み込むだけなんですけど、この準備だけで5分くらいかかっちゃう。
マイクロアレイデータなんて、大半が対数正規分布なんだし、「あー、正規分布してるなー」っていうのを確認するだけのために5分もかかっちゃうのがもったいない。
もっと手軽にデータの分布を見ることはできないだろうか?


というわけで、作っちゃいました。
簡単にヒストグラムを作成できるページ


ヒストグラムを作りたいデータを Excel からコピーして、このサイトのテキスト欄に貼りつけるだけ。
それだけで、なんかいい感じのヒストグラムにしてくれます。
試しに左上の「Show Demo」というボタンを押してみてください。
これは正規分布から100サンプル取ってきたデータです。

級数を決める方法はスタージェス(Sturges)とスコット(Scott)を用意しています。
切り替えるとグラフも切り替わるはずです。
基本的にマイクロアレイデータを見るために作成したので、log2 変換もできちゃいます。
下の画像は GEO の GSM40032 のマイクロアレイデータを log2 変換してヒストグラムを描いたところです。

また、一番下のダウンロードボタンで、ヒストグラム用のデータを Excel 形式でダウンロードできます。*2
ダウンロードしたデータで棒グラフを作成すれば、Excel 上でヒストグラムが簡単に作成できちゃいます。

というわけで、以上が 簡単にヒストグラムを作成できるページ についての簡単な説明です。
ぜひぜひ使ってみてください。
データを Web 上に上げたくないという方は、ローカルサーバへの配備も可能です。個別にご相談ください。
連絡先:
以上です。

*1:「分析ツール」というのを入れればできるみたいですけど、階級数や階級幅は自分で決めなければならないのでめんどくさい http://www.geocities.jp/fym170/y6_histo/00histo.html

*2:正確には TSV 形式。Excel で開けます