ほくそ笑む

R言語と統計解析について

ビジネス側の人がデータ分析できるようになるために最初に読むべき一冊

我らが TJO 氏の初の単著が Amazon で酷評を受けていると聞いてやってきました。

手を動かしながら学ぶ ビジネスに活かすデータマイニング

手を動かしながら学ぶ ビジネスに活かすデータマイニング

難解な専門用語が多すぎるとか、後半は読者を置いてけぼりだとか、さんざんな言われようです。
今回、実際にこの本を読んでみて、Amazon のレビューは正しい面もあるが、悪い面ばかりをとらえすぎていると思いました。
評価の良いレビューもあるのに、悪評価だけが上に上がっているのもおかしいです。
この本が役に立ったという人の意見にも耳を傾けるべきです。


まず、私がこの本を通して読んでみて思ったのは、マーケターのようなビジネス側の人間がデータ分析を学ぶのにいいなあということです。
説明は平易だし、出てくるプログラムも簡単です。
if も for も出てこないので、プログラミングできない人が最初に読むのにいいなと思いました。
私なら、マーケターでちゃんとしたデータ分析やりたいと思っている人にお勧めします。
著者である TJO 氏は「エンジニアのスキルのある人に限る」とおっしゃっていましたが*1、若い人なら吸収力があるので、その辺は大丈夫だろうと思います。


しかし、Amazon のレビューにあるように、この本にはいくつか罠がひそんでいます。
この記事では、ビジネス側の人間がどのようにこの本を読めば役に立つのか、各章について補足的な説明していこうと思います。

第 1 章 データマイニングとは

この章は導入ですが、「1-3 これだけは覚えておきたい基礎知識」で、ばらつきと可視化の話をしているのがいいですね。
データ分析とそうでないものを分ける境界線は、分布の形を見ているかどうかだと私は思っています。
うちのマーケターだと、平均値しか見ていない(それで意思決定している)ので、これではとても分析とは言えません。
この節では、平均値以外の代表値(中央値、最頻値)に加え、ヒストグラム、箱ひげ図、分散・標準偏差など、ばらつきと分布の見かたという、データ分析に最も重要な項目を説明していて、とても大事なところです。

第 2 章 R を使ってみよう

この章は R のインストール方法と、ちょっとした文法の説明です。
昔は R は日本語でインストールしようとすると文字化けしたものですが、今はそんなこともなくすんなりとインストールできると思います。
文法で、if とか for が難しいと感じた人は安心してください。
この本ではこれ以降 if も for も使いません。

第 3 章 仮説検定

ビジネスデータ分析で重要な A/B テストの話は理解しておいた方がいいです。
とくに、データ数を考慮せずに、コンバージョン率の差だけ見て、効果のありなしを判定することはできないというのは重要です。

第 4 章 重回帰分析

オーソドックスな分析手法、重回帰分析の話。
データ分析と聞いてこれをまず思い出す人が多いのではないかと。
ビールの売上高のデータで平易に説明されています。

第 5 章 クラスタリング

「何かの基準に基づいて似た者同士をまとめる」=クラスタリング
ということで、最初の説明が直感的で分かりやすいです。
混合分布クラスタリングとか、私も知らなかったので勉強になりました。

第 6 章 ロジスティック回帰

ここからちょっと難しくなってきます。
私の感覚では、不要な用語を出しすぎているように感じます。

  • 一般化線形モデル ← 忘れて下さい
  • ロジットリンク関数 ← 忘れて下さい
  • 最尤法 ← こういう言葉があるということだけ覚えておく

ここら辺に注意して読んでみてください。

第 7 章 決定木

ビジネスデータ分析で最もよく使う機械学習手法です。
説明はちゃんと読めば難しくないはずです。

第 8 章 SVM/ランダムフォレスト

この章は難解かつ専門用語のオンパレードなので読まなくていいです。
必要な方は別の本で学ぶことをお勧めします。

第 9 章 アソシエーション分析

「ビールとおむつ」で有名なデータマイニング手法です。
ここでは、支持度、信頼度、リフトといった新しい用語がいくつか出てきて難解のように思えるかもしれません。
しかし、アソシエーション分析を使えるようになるには、これらの用語を正しく理解する必要があります。
6 章で無駄に出てきた用語とはわけが違いますのでしっかりと読み込んで理解してください。

第 10 章 その他の分析メソッドについて

基本的に読まなくてもいいです。
興味のある人はさらっと眺めてみるのもいいでしょう。
ちなみに Stan が出てくるのはこの章の一番最後です。
たぶん日本語で出版された書籍では初めて Stan の説明をしているのではないでしょうか。
ただ、Stan 目的にこの本を買うのはクレイジーです。

まとめ

というわけで最後に、Amazon 書評に対する反論を書いておきます。

難解な専門用語が多すぎるという件について

確かに後半(6章以降)は専門用語が多くなっていると感じます。
しかし、個別に見ていけば、

  • 6 章は上で紹介した用語に注意すれば読めます。
  • 8 章は難しすぎるので読む必要はありません。
  • 9 章の専門用語は分析を理解するために必要です。
  • 10 章はアドバンストな内容なので、仕方ないかと。

という感じで、8 章を除けばこんなもんかなと思います。

後半は読者を置いてきぼりという件について

後半は確かに難しくなっています。
また、不要な専門用語も多くなっていると感じます。
しかし、逆に言えば前半は非常に平易かつわかりやすく書かれています。
何も知らない 0 から学ぶ人には、前半だけでも価値があるのではないでしょうか。


以上です。