ほくそ笑む

R言語と統計解析について

Spark Meetup 2015 で SparkR について発表しました #sparkjp

「初めてのSpark」刊行記念 Spark Meetup 2015で発表してきました。
タイトルは「はじめての SparkR」です。

SparkR は R 言語から Spark を使うためのパッケージで、Spark 1.4.0 から正式にサポートされました。
「RStudio から使える」「dplyr ライクなデータ操作」など、R ユーザーには嬉しい設計になっていますが、機能としてまだ不十分なところが多いです。

発表では、最新の Spark 1.4.1 の SparkR を元にお話しましたが、Meetup 当日に Spark 1.5.0 がリリースされたため、一瞬にして内容が古くなるというミラクルが起きました。

また、発表中に「Parquet とか Avro とかの読み方がわからない」と言ったら、親切にも shiumachi さんが教えて下さいました。

本 Meetup 全体の内容については、下記まとめレポートが詳しいです。

Spark やってみたいという方は、『初めてのSpark』買いましょう!

初めてのSpark

初めてのSpark