はじめに
統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。
しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。
統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。
それでは実際のデータをどうやって手に入れましょうか?
実験や調査をして実際のデータを得るのは大変でお金もかかります。
幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。
例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。
ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。
英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。
というわけで、今日は、統計初学者のために、Rデータセットのうち、日本語訳のあるものをまとめてみました。*1
データセット一覧
データセット名 | タイトル | 説明 | 詳細 | DL |
---|---|---|---|---|
airmiles | 商用航空会社マイレージ | 1937年から1960年の各年の、合州国の商用航空会社の課税利用者マイル数。 | 詳細 | DL |
airquality | ニューヨークの大気状態観測値 | ニューヨークの大気状態観測値。1973 年の五月から。 | 詳細 | DL |
anscombe | ``同じ'' 線形単回帰に対する Anscombe の四つ組 | 同じ通常の統計的性質(平均、分散、相関、回帰直線)を持つが、全く異なる 四つの x-y データセット。 | 詳細 | DL |
attenu | Joyner-Boore の地震波の減衰データ | このデータはカリフォルニア州の 23 の地震のピーク時加速度を、様々な観測基地で測定したデータを与える。このデータは多くの研究者により、基本加速度に対する距離による減衰効果を推定するために用いられてきた。 | 詳細 | DL |
attitude | 管理者に対する態度 | (まだ)無い。 | 詳細 | DL |
cars | 車の停車距離 | 車が停車するまでに必要な距離のデータ。 データは 1920 年代に得られたことを注意せよ。 | 詳細 | DL |
co2 | Mauna Loa 火山の大気中の炭酸ガス濃度 | 大気中の CO2 濃度が百万分の一単位 (ppm) で表され、preliminary 1997 SIO manometric mole fraction scale で報告されている。 | 詳細 | DL |
discoveries | 重要な発見の数 | 1860年から1959年の各年における ``偉大な'' 発明と科学的発見の数。 | 詳細 | DL |
esoph | 喫煙、アルコールと食道ガン | フランスの Ile-et-Vilaine における食道ガンの類別研究のデータ。 | 詳細 | DL |
euro | ヨーロッパの為替レート | 様々なヨーロッパの通貨の交換比率。 | 詳細 | DL |
eurodist | ヨーロッパの都市間の距離 | このデータはヨーロッパの21の都市間の道路距離(km 単位)を与える。 データは ``The Cambridge Encyclopaedia'' 中の表から取られた。 | 詳細 | DL |
Formaldehyde | ホルムアルデヒドの定量 | これらのデータは、クロム酸と濃縮硫酸を加えた結果生ずる紫色を分光計で 読みとるホルムアルデヒドの定量用の標準カーブを用意する ために行われた化学実験による。 | 詳細 | DL |
HairEyeColor | 統計の講義を受講している学生の髪と瞳の色 | 統計の講義を受講している 592 人の学生の髪、瞳の色と性別の分布。 | 詳細 | DL |
infert | 自然・人工流産後の不妊症 | これは条件付きロジスティック回帰が登場する前に行われた対応対照群研究である。 | 詳細 | DL |
InsectSprays | 昆虫への薬剤噴霧の効果 | 異なる農薬を散布した農業実験単位毎の昆虫の計数値。 | 詳細 | DL |
iris | Edgar Anderson のあやめのデータ | この有名な(Fiher もしくは Anderson の)あやめのデータセットは、三種類のあやめの品種のそれぞれからの 50の花の、センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。 品種は Iris setosa, versicolor そして virginica である。 | 詳細 | DL |
islands | 世界の主要な陸地の面積 | 10,000 平方マイルを越える陸地の千平方マイル単位の面積。 | 詳細 | DL |
LifeCycleSavings | 各国の世代毎の貯蓄データ | 1960 - 1970 の貯蓄データ。 | 詳細 | DL |
OrchardSprays | 果樹園への散布液の効果 | 果樹園への散布液の様々な成分が 蜜蜂を忌避する効果を確かめる実験が、ラテン方陣デザインを用いて行われた。 | 詳細 | DL |
PlantGrowth | 植物の成長に関する実験の結果 | 対照群と二つの異なった処理条件のもとで得られた、収穫量(乾燥重量で計った)を比較する実験の結果。 | 詳細 | DL |
Titanic | タイタニック号乗客の生存 | このデータセットは大洋定期船 `Titanic' の破滅的な処女航海の乗客の運命に付いての情報を、経済的地位(船室等級)、 性別、年齢、そして生還の有無で要約して与える。 | 詳細 | DL |
ToothGrowth | ギニアピッグの歯の成長に対するビタミン C の効果 | 三種類のビタミン C の投与量(0.5, 1, そして 2mg)、二種類の 摂取法(オレンジジュースまたはアスコルビン酸)に対する、各々10匹のギニアピッグ(訳注: いわゆるモルモット)の 造歯細胞(歯)の成長量。 | 詳細 | DL |
UCBAdmissions | カリフォルニア大学バークレイ分校の学生入学 | 1973年のバークレイ校大学院の六つの最大学部の受験生の総合的データで、入学状況と性別で分類されている。 | 詳細 | DL |
USArrests | 合州国の州別暴力犯罪率 | このデータセットは 1973 年の合州国の 50 の州毎の、住民10万人あたりの暴行、殺人、そして強姦による 逮捕数を含む。また都市部人口の割合が与えられている。 | 詳細 | DL |
USJudgeRatings | 弁護士による合州国最高裁判事の評価 | 弁護士による合州国最高裁判事の評価 | 詳細 | DL |
USPersonalExpenditure | 個人消費データ | このデータセットは、1940,1945, 1950 そして 1960 年における、 次の各項目の合州国の個人消費(単位 10 億ドル)データを含む: 食品とタバコ、家事、医療と健康、趣味、教育。 | 詳細 | DL |
VADeaths | 死亡率データ | 1940年代のバージニア州の100人あたりの死亡率。 | 詳細 | DL |
women | 米国女性の平均身長と平均体重 | 30歳から39歳のアメリカ人女性の平均身長と体重。 | 詳細 | DL |
上記のデータセットを適用可能な解析手法で分けるとこんな感じです。*2
回帰 | anscombe, attitude, cars, esoph, Formaldehyde, iris, LifeCycleSavings, Titanic, ToothGrowth, women |
---|---|
分散分析 | HairEyeColor, infert, InsectSprays, PlantGrowth, Titanic, ToothGrowth, UCBAdmissions, VADeaths |
多変量解析 | airquality, attenu, attitude, eurodist, iris, LifeCycleSavings, OrchardSprays, USArrests, USJudgeRatings |
時系列解析 | airmiles, co2, discoveries, infert |
例えば、線形回帰を学んだら、anscombe データに線形回帰モデルを当てはめてみると、大変勉強になると思います。
統計言語 R を使っているなら、
example(anscombe)
のように、example() 関数によって、そのデータセットに対する解析例を見ることもできます。
さらにデータを得たい人へ
さらにデータを得たい人のために、下記に参考になるサイトを紹介しておきます。
データセット一覧 : DoDStat@d
日本語の説明があるデータセット集。適用できる解析手法も併記されていて便利。
http://www.okada.jp.org/RWiki/?%A5%D5%A5%EA%A1%BC%A4%CA%A5%C7%A1%BC%A5%BF%A5%BB%A5%C3%A5%C8%A4%D8%A4%CE%A5%EA%A5%F3%A5%AF%BD%B8
フリーなデータセットを提供するサイトへのリンク集。このページ自体は日本語ですが、データのあるリンク先は英語です。
R: The R Datasets Package
R のデフォルトデータセットのヘルプページ。R にはこの他にもパッケージに付属するデータセットがたくさんあります。
http://www.okada.jp.org/RWiki/?%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8%20%27datasets%27%20%A4%CE%BE%F0%CA%F3
R のデフォルトデータセットの日本語説明。(2012/02/24追記)
*1:日本語訳はすべて東工大間瀬先生のサイト http://www.is.titech.ac.jp/~mase/mase/html.jp/temp/ によります
*2:かなりてきとーです