ほくそ笑む

R言語と統計解析について

『Sparkによる実践データ解析』という本の付録を執筆しました

リクルートの高柳さんと共同で『Sparkによる実践データ解析』という本の付録を執筆しました。

Sparkによる実践データ解析 ―大規模データのための機械学習事例集

Sparkによる実践データ解析 ―大規模データのための機械学習事例集

執筆した付録の内容は「SparkRについて」です。
SparkR は、R 言語から Spark を使うためのパッケージで、公式サポートされています。

SparkR については、以前 Spark Meetup で発表しました。

このときはまだ、機能として不十分な点が目立ちましたが、Spark 1.5 で大幅に機能が追加されました。
特に、

  • 数学関数、文字列操作関数、日時データ操作関数といった、便利な関数が大量に追加された
  • MLlib の機能から、一般化線形モデル(glm)が追加され、R の glm() と同じ感覚で使えるようになった

など、大きな改善が見られました。

本付録では、このような改善点を含め、SparkR について基礎から応用まで幅広く紹介しています。

本付録では、

  • SparkR の起動方法、RStudio から使うための設定方法
  • SparkR によるデータハンドリングの基礎
  • AWS 上で SparkR を使って分散処理する方法
  • 一般化線形モデル(glm)による線形回帰およびロジスティック回帰

といった内容をなるべく丁寧に解説しています。


また、本付録の大きな目玉として、SparkR で使用できる関数一覧を付けています。
この関数一覧では、関数の入出力とそのデータ型、機能の説明に加えて、分かりにくい場合は使用例も載せています。
例えば、実数を整数に丸める二つの関数 rint() と round() の細かい違いも一目で分かるのではないかと思います。
このような関数一覧は、Spark でのプログラミング中に、こういう機能があったかなというのを探す際の強力なリファレンスになると考えます。
これは、SparkR ユーザだけでなく、ScalaPython から Spark を使用するユーザにとっても非常に有用であると考えます。


さて、本書の翻訳は『Hadoop(象本)』や『はじめてのSpark』を手掛けた玉川竜司さんであり、安心の品質であることは間違いないでしょう。
我々もそれに負けないように全力を込めて付録を執筆したので、ぜひ手に取って見てみて下さい!

Sparkによる実践データ解析 ―大規模データのための機械学習事例集

Sparkによる実践データ解析 ―大規模データのための機械学習事例集