2017-05-16

AJAXサイトを Webスクレイピングする（銀行金利をスクレイピング）

書籍紹介

共同で翻訳した本が出版されます。

『Rによる自動データ収集 ―Webスクレイピングとテキストマイニングの実践ガイド』

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

作者: Simon Munzert,Christian Rubba,Peter Meissner,Dominic Nyhuis,石田基広,工藤和奏,熊谷雄介,高柳慎一,牧山幸史
出版社/メーカー: 共立出版
発売日: 2017/06/08
メディア: 単行本
この商品を含むブログ (1件) を見る

本書は、原題 "Automated Data Collection with R" の翻訳書です。

今日は、本書の6章から「AJAX サイトを Web スクレイピングする」という話を紹介したいと思います。

AJAX サイトを Web スクレイピングする

銀行の金利が低い時代ですが、キャンペーンなどで一時的に定期預金の金利が高くなる場合があります。

そのタイミングで定期預金を組めば、それだけお得です。

なので、いろいろな銀行の定期預金の金利を定期的にスクレイピングして情報を得たいとします。

ここでは架空の銀行、R銀行の金利情報を得ることを考えます。

R銀行の Web サイトを見ると、定期預金の金利はホームページ上で確認できます。

そこで、この情報を次のようにしてスクレイピングしてみます。

library(rvest)

# スクレイピング対象の URL
url <- "https://www.rakuten-bank.co.jp/interest/details.html"
# URL をスクレイピングして、表(table)だけを抜き出す
tables <- read_html(url) %>% html_nodes('table')

# 見つかったテーブルの個数を確認
length(tables)
#> 6

# 各テーブルの内容を確認する
tables %>% html_text
#> [1] "普通預金金利（普通預金の商品詳細説明書へ）..."
#> [2] "普通預金金利（マネーブリッジご利用者）..."
#> [3] "普通預金金利（楽天カードのカード利用金額の引落があるお客さま）..."
#> [4] "預入期間中途解約利率1年未満約定利率..."
#> [5] "期間\n当初1年間\n2年後以降（最長10年まで）..."
#> [6] "期間\n当初1年間\n2年後以降（最長15年まで）..."

しかし、定期預金の金利データが入っているテーブルは見つかりませんでした。

これはなぜでしょうか？

このページでは AJAX が使われており、定期預金のテーブルは遅れて読み込まれるため、単に HTML を取得するだけでは情報を全部取得できないためです。

『Rによる自動データ収集』の6章には次のように書いています。

サイトが AJAX を採用している場合，単純に HTML ソースコードを取得するだけでは十分な情報を得られない可能性がある．その場合，情報源を特定するためにサイトの基本的な構造を理解する必要がある．これまで R について称賛してきたわれわれだが，このタスクに関しては，R だけでやるのは難しいだろう．少なくとも，AJAX を使用したサイトに対して，R は必要な機能を提供しているとはいえない．

AJAX を使ったサイトは、単純な方法でスクレイピングできないため、諦めてしまう人も多いと思います。

しかし本書では、ブラウザの開発者ツールを補助的に使用することでこれを解決します。

代わりに，われわれはブラウザで直接サイトを調べることにする．大半のブラウザには Web 開発のための強力なツール機能がついており，それは Web スクレイピングにおいても役に立つ．

本書では、具体的に Google Chrome の Web 開発者ツール(Web Developer Tools；WDT) を使って、データソースを追跡し、欲しい情報がどこにあるのかを特定する方法を詳しく説明しています。

本書での説明通り行えば、R銀行の定期預金金利の情報は、次のようにしてスクレイピングできます。

# 特定されたデータソース
data_source <- "https://rbweb.rakuten-bank.co.jp/REF/main/fis/BasicTimeDepositInterestRate.html?PageID=BasicTimeDepositInterestRatePresentationLogicBean"

# テーブル情報の抜き出し
time_depoit_rates <- data_source %>% read_html %>% html_node('table')

# 情報を確認する
time_depoit_rates %>% html_text %>% cat
#> 期間
#>     預入単位
#>        1,000円以上100万円未満
#>        100万円以上1000万円未満
#>        1000万円以上
#>     7日
#>        0.02％
#>        0.02％
#>        0.02％
#> ……

AJAX を使ったサイトでも、ほとんどの場合この方法でスクレイピングできるようになります。

このように、本書は R だけにこだわらず、より便利なツールがあればそれを使って、効率よく目的を達成するというスタンスで書かれています。

まとめ

インターネットの普及に伴って、Web 上のデータを使ったデータ分析が盛んに行われるようになりました。

そこで重要となるのが、Web 上の情報をいかに効率よく集めるかという問題です。

ここに R を用いることで、データ収集から分析までをシームレスに行うことでき、効率を上げることができます。

本書は、データ収集だけでなく、加工、保管、分析、報告といったデータ分析に必要となる一連の技術ついての本です。

「Twitter によるアカデミー賞予測」「商品レビューのセンチメント分析」といった事例もたくさん載っています。

本書を読めば、このようなデータ分析プロジェクトを効率よく進めるためのセオリーを身に着けることができるでしょう。

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

作者: Simon Munzert,Christian Rubba,Peter Meissner,Dominic Nyhuis,石田基広,工藤和奏,熊谷雄介,高柳慎一,牧山幸史
出版社/メーカー: 共立出版
発売日: 2017/06/08
メディア: 単行本
この商品を含むブログ (1件) を見る

分析したいけどデータがない！そんなときはウェブスクレイピング！

書籍紹介

献本いただいたので紹介記事を書きます。

Rによるスクレイピング入門

作者: 石田基広,市川太祐,瓜生真也,湯谷啓明
出版社/メーカー: シーアンドアール研究所
発売日: 2017/03/27
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

本書はウェブスクレイピングという、ウェブ上の情報を収集する技術について書かれた本です。

ウェブスクレイピングはデータ分析者にとって非常に有用な技術です。
データ分析をしようと思ったとき、どうやってデータを集めるかというのが問題になる場合があります。
例えばテキスト解析をしようと思っても、ちょうどいいデータセットが手元になく、自分でデータを集める必要があるといった場合があります。
その場合、Wikipedia や Twitter などからデータを収集するためには、ウェブ技術やプログラミングについて学ぶ必要が出てきます。

例えばウェブ技術の一つである HTML を学ぶとなると、たくさんのマークアップタグがあり、いくつかのバージョンが混在し、ブラウザによっても微妙に異なるといったことが多くの書籍には書かれているわけですが、こういった知識は、単にウェブからデータを収集したいだけの分析者には必要のない知識だったりします。

本書は、そういったウェブ技術やプログラミングに疎い分析者が、ウェブ上からデータを収集するために必要な最低限の知識を学ぶための最短コースを提供しています。
内容としては初心者向けに一通りのことが書かれており、知識はないけど手っ取り早くできるようになりたいという人が最初に手に取るのにちょうどいいと思います。
本書で使用される統計言語 R では、ウェブスクレイピングを簡単にするためのパッケージが利用でき、プログラミング初心者でもわりと容易に自分の思った通りのスクレイピングコードが書けるようになると思います。

章別に見ていくと、次のような感じです。

Rの基礎知識
ウェブ技術
- HTML, CSS, XPath, XML, JSON, HTTP, OAuth
- httrパッケージ, XMLパッケージ
- 正規表現（stringrパッケージ）
ウェブ API 入門
- Wikipedia, Facebook, Yahoo!, Twitter
ウェブスクレイピング実践編
- rvestパッケージ, Selenium (RSeleniumパッケージ)
ウェブ API 実践編
- e-Stat, Google Cloud Vision, GitHub
オープンデータ

1章ではRの基礎知識を簡単に説明しています。ただし、ウェブスクレイピングに必要な知識だけに絞って簡潔に説明されています。

2章は基本的なウェブ技術についてです。ここも要点をしぼって説明されていますが、結構なページ数がさかれています。
例えば、CSS セレクタやXPathは、ウェブドキュメントから自分の欲しい部分だけを抜き出すときに、その要素の指定に使われる重要な技術です。
また、抜き出した情報にも余分な情報がある場合もあり、そのような場合は正規表現を使った文字列処理が必要になります。
XML や JSON はウェブから情報を取得する際に返却されるデータ形式としてよく使われるものであり重要です。
このように、本書では膨大なウェブ技術の中でもウェブスクレイピングに必要な情報だけに絞って解説しているというところがポイントだと思います。

3章はウェブ API についてです。ウェブスクレイピングというと HTML ページを解析して情報を抜き出すというイメージがありますが、サイト側が用意した API があるならば、それを使うことが推奨されます。これについては著者自身がブログで説明していますのでそちらをご参照ください。

RとウェブAPIに関する本をちょっと書きました。 - Technically, technophobic.

4章と5章は実践編です。ここでは様々なサイトから実際にデータを抜き出すための方法が具体的なコードと共に提示されます。

6章はオープンデータについてです。現在さまざまな団体がデータを公開しており、これを活用したデータ分析について書かれています。

まとめ

本書はデータ分析者にとって重要な技術であるウェブスクレイピングについて、初心者向けに要点をしぼって解説された本です。
分析したいけどデータがないとお困りの方、ウェブスクレイピングを手っ取り早く学びたいという方におすすめの一冊です。

Rによるスクレイピング入門

作者: 石田基広,市川太祐,瓜生真也,湯谷啓明
出版社/メーカー: シーアンドアール研究所
発売日: 2017/03/27
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

Python によるスクレイピング

Python によるスクレイピングの本も立て続けに出ていますね。

Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-
- 作者: 加藤耕太
- 出版社/メーカー: 技術評論社
- 発売日: 2016/12/16
- メディア: 大型本
- この商品を含むブログ (3件) を見る
Pythonによるスクレイピング&機械学習開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう
- 作者: クジラ飛行机
- 出版社/メーカー: ソシム
- 発売日: 2016/12/06
- メディア: 単行本
- この商品を含むブログ (4件) を見る

2016-12-09

確率論の基礎について発表しました

統計発表

Watanabe理論勉強会で発表してきました。
前回の発表はこちら

Watanabe理論勉強会で発表してきました - ほくそ笑む

前回は2章だったのですが、2ヶ月半で5章まで進みました。ページ数的には折り返し地点です。

今回の担当は5章前半だったのですが、私の脳みそでは非常に難しく感じたため、5章に入る前に1章で飛ばした確率論基礎について復習させてもらいました。

発表スライドは下記です。

確率論基礎 from hoxo_m

この部分は非常に簡潔に書かれていて、私には分かりやすかったのですが、確率空間は必ずしも距離空間である必要はないとか、可測空間だけでは積分は定義できないとか、詳しい方々からのツッコミが容赦なく入りました。

しかし、この復習で、ある程度は確率空間や確率変数に対するイメージが固まったため、5章を読み進めることができました。

5章の発表スライドは下記です。

経験過程 from hoxo_m

タイトル詐欺で経験過程まで行っておらず、法則収束の説明までです。

法則収束は汎化誤差の漸近挙動を研究したいWatanabe理論では重要な概念となります。

この章ではもう一つ、関数に値を取る解析関数についてのセクションも私の担当なので、次回発表する予定です。

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

作者: Sumio Watanabe
出版社/メーカー: Cambridge University Press
発売日: 2009/08/13
メディア: ハードカバー
クリック: 8回
この商品を含むブログ (2件) を見る

A/Bテストと統計的検定の注意点(その1)

統計

素晴らしい記事が上がっていたので言及したい。

仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。

Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、

意味のある差とは何かを事前に決定する
サンプルサイズを事前に決定する

という統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。

よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。

さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここではA/Bテストと統計的検定における、もう少し実践的な話題を紹介したいと思います。

A/Bテストの等質性

A/Bテストとはどういうものでしょうか？
例えば、Webサイトのランディングページに対して2つのデザイン案が持ち上がり、どちらが良いか判断に困る場合があります。
そこで、訪問者をAグループとBグループにランダムに振り分け、それぞれのグループに別々のデザインを見せ、入会率が良い方のデザイン案を採用する、といったことを行うのがA/Bテストです。

上記の記事ではAとBについて次のように書かれています。

A「入会率10%の現ランディングページ」

B「入会率(以下CVR)15%を期待する新ランディングページ(以下LP)」

ここにはちょっとした罠があります。

こういう風にA/Bを分けると、新ランディングページのCVRが最初だけ良く、途中から下がるという現象にわりと頻繁に遭遇するはずです。

例えば、下記の記事で言及されているような現象です。

ベースラインに対して新しい実験パターンのコンバージョンの方がずっと優勢なんですが，95%ラインを越えたり越えなかったり，という推移が見て取れます．ごく初期に95%を越えた段階で効果あり，と思って実験をストップしちゃうなんていうのは割とありがちな事態ではないでしょうか．

Optimizelyのstats engineによる逐次A/Bテスト - About connecting the dots.

これはなぜ起こるのでしょうか？

A/Bテストにおいて、訪問者をAとBにランダムに振り分けるのは、各グループにおける訪問者の性質を均質にすることが目的です。
もし、Aは男性、Bは女性というような振り分け方をすると、AとBにおける入会率の差が、性別による差なのか、デザインによる差なのか、判別できなくなります。
デザインによる入会率の差を検証したかったら、デザイン以外の要因(例えば男女比)が同じになるように振り分ける必要があります。

ところで、このランディングページに訪れるのは新規訪問者だけでしょうか？
A/Bテストの対象者の中に、現ランディングページを見たことのある人は含まれないのでしょうか？

今、A/Bテストの対象者の中に、新規訪問者と再訪問者が50%ずついるとしましょう。
新規訪問者とは、現ランディングページを見たことがない人たちと定義します。
すると、再訪問者は現ランディングページを見たことがある人たちであり、言い換えると、現ランディングページでは入会しなかった実績を持つ人たちです。
つまり、Aグループにおける再訪問者は、現ランディングページでは入会しにくいという性質を持っていることになります。
そう考えると、AとBの入会率に差が無かったとしても、Aグループにおける再訪問者の入会率はBグループにおける再訪問者の入会率より低くなることが予想されます。

これでは、A/Bテストの前提である「各グループにおける訪問者の性質が均質」を満たしません。

このような場合、どんなに正しく統計的検定のフレームワークを適用ても、正しい結果は得られません。

A/Bテストの評価に統計的検定を使用するならば、グループの等質性についても気を付けなくてならないことがお分かりいただけたかと思います。

(なんか長くなってしまって疲れました。気力があれば続きます。続きが読みたい人はワッフルワッフルと書いて下さい。)

2016-09-26

Watanabe理論勉強会で発表してきました

統計発表

このブログの読者には AIC (赤池情報量基準) をご存じの方は多いと思います.
AIC は統計モデルの評価指標として世界中で広く使われていますが、これは赤池弘次という日本人統計学者により考案されたものです。

これに対し、近年、ベイズ統計学で利用可能な WAIC という情報量基準が考案され、世界中で爆発的に普及しています。
この WAIC を考案したのも日本人であり、東工大の渡辺澄夫先生です。

L‚Žg‚¦‚éî•ñ—Ê‹K€(WAIC)

WAIC は、算出すること自体は簡単なのですが、その理論的な根拠として非常に高度な数学が使われています。
この理論について、渡辺先生ご自身が書かれた書籍があります。

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

作者: Sumio Watanabe
出版社/メーカー: Cambridge University Press
発売日: 2009/08/13
メディア: ハードカバー
クリック: 8回
この商品を含むブログ (2件) を見る

Watanabe理論勉強会は、この本を熟読し、この偉大な理論を理解することを目的として発足された勉強会です。

今回、私は第二章の前半部分を担当させていただきました。
発表スライドは下記です。

シンギュラリティを知らずに機械学習を語るな from hoxo_m

タイトルは煽りですが、特異点とその解消は渡辺理論において非常に重要です。
今回の発表は特異点の定義とその判定法に関する定理の証明までが範囲です。

ご参考になれば幸いです。

参考リンク

こちらは渡辺理論について日本語で書かれた書籍の読書メモです。たいへん勉強になります。

「ベイズ統計の理論と方法」渡辺澄夫のメモ - StatModeling Memorandum

ベイズ統計の理論と方法

作者: 渡辺澄夫
出版社/メーカー: コロナ社
発売日: 2012/03/01
メディア: 単行本
購入: 1人クリック: 4回
この商品を含むブログ (8件) を見る

追記

ちなみにこの本、Amazon 洋書の売れ筋ランキング 3部門で 1位です。すごい。

2016-07-26

「異常検知と変化検知」輪読会で論文紹介しました

機械学習論文紹介発表

去る 7/21(木) に行われた「異常検知と変化検知」輪読会で論文紹介をさせていただきました。

タイトルは「非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出」で、資料は SlideShare に上げています。

非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出 from hoxo_m

本発表で紹介した論文は下記です。

Hido+ (2011) Statistical Outlier Detection Using Direct Density Ratio Estimation

『異常検知と変化検知』「第11章密度比推定による異常検知」では、密度比推定法として

カルバック・ライブラー密度比推定法 KLIEP (Sugiyama+ 2008)
最小2乗密度比推定法 LSIF (Kanamori+ 2009)

が紹介されていますが、LSIF を進化させた uLSIF という手法の紹介です。

uLSIF は本書に載っていない手法として紹介したのですが、本書で LSIF として紹介されているものは実は uLSIF のことらしいというご指摘をいただきました。どうやらその通りのようです。

スライドの最後にも紹介していますが、KLIEP と uLSIF を実装した R パッケージ densratio を CRAN で公開しています。

使い方の詳細は Vignette をご参照下さい。

https://cran.r-project.org/web/packages/densratio/vignettes/densratio.html

densratio パッケージはオープンソースで GitHub 上で開発されていますので興味のある方はこちらをご参照下さい。

GitHub - hoxo-m/densratio: An R Package for Density Ratio Estimation

以上です。

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)

作者: 井手剛,杉山将
出版社/メーカー: 講談社
発売日: 2015/08/08
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

2016-04-18

階層モデルの分散パラメータの事前分布について発表しました

統計論文紹介発表

ひと月ほど前になりますが、基礎からのベイズ統計学入門輪読会で発表させて頂きました。

タイトルは「階層モデルの分散パラメータの事前分布について」で、Andrew Gelman の論文

Prior distributions for variance parameters in hierarchical models (PDFリンク)

の内容をまとめたものです。

ベイズ統計において、パラメータの事前分布に何を使うかというのは重要な問題です。
分散パラメータの事前分布には伝統的に逆ガンマ分布が使われますが、この論文によると半コーシー分布を使いましょうとのことです。

発表資料は SlideShare に上げています。

階層モデルの分散パラメータの事前分布について from hoxo_m

ベイズ統計に興味のある方は、5/19 に基礎からのベイズ統計学入門輪読会 #5 最終回が行われますので参加してみてはいかがでしょうか。テキストは下記です。

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

作者: 豊田秀樹
出版社/メーカー: 朝倉書店
発売日: 2015/06/25
メディア: 単行本
この商品を含むブログ (6件) を見る

また、この本の著者である豊田秀樹先生が、アメリカ統計学会の声明を受けて、新しい本を出版されるようです。要チェックですね。

「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 六本木で働くデータサイエンティストのブログ

はじめての統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

作者: 豊田秀樹
出版社/メーカー: 朝倉書店
発売日: 2016/06/02
メディア: 単行本（ソフトカバー）
この商品を含むブログ (11件) を見る

ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む

追記

階層事前分布の標準偏差の事前分布には半コーシー分布がよさげ(2006)、とのことですが、最近ではそれでは弱すぎる、自由度4ぐらいの半t分布がよい、とGelman先生が以下のページで書いてます。ふぁぼるだけじゃなくて読んで下さい>_<https://t.co/I7CsXUhVdl
— Kentaro Matsuura (@berobero11) 2016年4月19日