勾配ブースティング(Gradient Boosting) わかりやすい記事まとめ

1. 勾配ブースティングについてざっくりと説明する

smrmkt.hatenablog.jp

2. Gradient Boosting と XGBoost

Gradient Boosting と XGBoost | ZABURO app

3. 勾配ブースティング決定木を理解する

hiyoko9t.hatenadiary.jp

言葉

「ずり落ちる」

 ああ、いやだ。何ともいやな気分に人をさせる。腰まで泥に埋まったまま、丹念に家計簿を付けるような言葉だ。

牛への道 (新潮文庫)

牛への道 (新潮文庫)

Hadley を神と言い出したのは誰か?

Hadley が自著の翻訳版を Google Translate にかけて遊んでいた。

これを見て、Hadley を最初に神と言い出したのは誰なのか気になったので調べてみた。

Twitter で「Hadley 神」で検索すると、一番古いツイートはこれである。

おお、最初に神と言い出したのはユタニさんであったか。

しかし、よく見るとこれは誰かの言及に対しての反応であることが見て取れる。

さらによく見ると #TokyoR タグでつぶやかれている。

もしかしたらこの日に TokyoR が開催されていて、誰かが発表で言及したのかもしれない。

Google 検索してみると、2014/8/30 はちょうど TokyoR #42 の日であった。

atnd.org

さて、スケジュールを見ると 17:58 ごろに発表していたのは「所沢義男」である。

この男、正体不明であるが、発表でたびたび Hadley に言及しているのでかなり怪しい。

しかし、彼はこのときの発表資料を残していなかった。

www.slideshare.net

ここで行き詰ったかのように見えたが、TokyoR はよくスケジュールがずれる。

念のために前の発表も確認してみると @teramonagi さんによる「パッケージ作成法(RStudio編)」である。

www.slideshare.net

この資料の 12ページ目に答えはあった。

https://image.slidesharecdn.com/tokyor4220140830-140830042215-phpapp01/95/r-12-638.jpg?cb=1409372634

「神(Hadley)」と言及している!

さらに Twitter で「God Hadley」で検索してみると

8/13 の時点でこのツイートをしているのである。

結論

最初に Hadley を神と言い出したのは @teramonagi 氏である。

彼のプロフィールについては下記参照。

p(x ; θ) と p(x | θ) の違い

ベイズと頻度主義の違いはパラメータを確率変数とみなすかどうかということ。 したがってパラメータ  \theta をもつ  x の確率分布は 頻度主義では  p(x;\theta) または単に  p(x,\theta) と書くことも ある。 一方ベイズではパラメータも確率変数なので  p(x∣\theta) と書く。 しかし、これらは単なる立場の違いであり、どれも同じものをさしている。

確率の記法 - 機械学習の「朱鷺の杜Wiki」

Likelihood Cross-Validation

Likelihood cross-validation. The cross-validation method used for optimum kernel bandwidth estimation is based on the maximum likelihood principle. In a classical sense, the maximum likelihood principle considers the best “explanation” of the obsered data to be the probability model  \theta, that maximizes the likeliood function, which maximizes the probability of getting as the result what was actually observed. In density estimation, the probability model  \theta is to be estimated from the data which will also be used to test the goodness of fit of the statistical model. One can use, leave one out cross-validation can be defined as the likelihodds for each data point  x_i averaged, i.e.

 \ \ \ \ CV(h)= \frac{1}{n}\sum_{i=1}^n \log \hat{f}_{-i}(x_i).

The score  CV is a function of bandwidth  h, since the density estimate  \hat{f} for a fixed data set is a function of bandwidth and kernel type. The optimum choice of bandwidth  h by likelihood cross-validation is then

 \ \ \ \ h_{CV} = \arg \max_{h} \left\{ \frac{1}{n} \sum_{i=1}^n \log \hat{f}_{-i}(x_i) \right\} .

Methodology and Tools in Knowledge-Based Systems: 11th International ... - Google ブックス

ポスト基広

私の目標は石田基広である。

このたびその石田先生と共同翻訳をさせていただくという幸運に恵まれた。

その書籍が『Rによる自動データ収集』である。

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

試し刷りを一部いただいたので読んでいたのだが、やはり石田先生の訳した章は、他と比較して格段に日本語が読みやすい。

私もこのような日本語が書けるようになりたいものだ。

ところで読んでいて気づいたのだが、石田先生の訳された1章にデータベースについての記述があるのだが、ここは私の訳した7章の記述とまるまる同じではないか。

しかし、気づかずに別々に訳してしまったのである。なんたる二度手間。

気づいていれば石田先生のご負担を減らせたのにと残念に思ったが、ここでまた幸運に恵まれたことになる。

すなわち、石田先生と私が別々に訳した、同じ英文が存在するのである。

これらを比較してみれば、自分と石田先生との英訳の差を見ることができる。

まずは石田先生の訳文:

オンラインショッピング,図書館目録のブラウジング,銀行振込み,またスーパーマーケ ットでの購入など,日常の平凡な活動の背後にはデータベースが存在している.実際のとこ ろ,データベースがどれほど重要な役割を担っているかは一般には知られていない.データ ベースは縁の下の力もちのような存在で,一般の人が操作するものではないからだ.データ が重要な役割を果たす場合,Web 管理者はデータベースを採用する.信頼性と効率性に優 れ,複数のユーザが同時に操作でき,データサイズに実質的に制限がなく,そして遠隔操作 が可能だからだ.

牧山の訳文:

われわれの日常にはいつもデータベースがかかわっている.たとえば,オンラインショッ ピング,図書館サイトの閲覧,ネットでの銀行振込み,スーパーマーケットで果物を買うの にさえも,背後にはデータベースが使われている.われわれはデータベースが重要な役割 を果たしていることにめったに気づかない.データベースは常に舞台裏で働き,直接データ ベースを見たり触れたりすることはないからである.Web サイトの管理者は,データの取 扱いが重要な場合はいつでも,データベースを使おうとするだろう.データベースには,信 頼性,効率性,マルチユーザアクセス,ほぼ無制限のデータサイズ,リモートアクセス可能 といった多くの利点があるからである.

日本語だけを比較しても石田先生のほうがこなれているということがわかる。

原文はこうである:

Simple and everyday processes like online shopping, browsing through library catalogues, wiring money, or even buying a couple of sweets at the supermarket all involve databases.We hardly ever realize that databases play such an important role because we do not interact with them directly—databases like to work behind the scenes. Whenever data are key to a project, web administrators will rely on databases because of their reliability, efficiency, multiuser access, virtually unlimited data size, and remote access capabilities.

最初の文では、私の方はネットに限った話になっているが、石田先生の方は本当に日常生活での話になっている。 たしかにここは悩んだ記憶がある。オンラインショッピングに連なるので全部ネットの話にしてしまったが、 よく考えると日常生活の話をしている。

最後の文では、私は英単語を訳してそのまま並べただけであるのに対し、石田先生は日本語として読める。 とくに原文では「reliability, efficiency」と並べてある部分対し、石田先生は「信頼性と効率性に優れ」と 「優れ」をつけることで日本語として成立するように訳している。 これを私は「信頼性、効率性」と単に並べてしまっている。これではダメだ。

石田基広との圧倒的な差を見せつけられたわけだが、それでも目標とすることについてやめようとは思わない。

日本における視聴者層の区分

ビデオリサーチなどの視聴率調査会社や広告代理店などでは、視聴者を下記のように区分している。

  • C層 4-12歳の男女 (Cは英語で子供を表すChildの意味)
  • T層 13-19歳の男女 (TはTeenager(ティーンエイジャー)の意味)
  • F1層 20-34歳の女性 (Fは英語で女性を表すFemaleの意味)
  • F2層 35-49歳の女性
  • F3層 50歳以上の女性
  • M1層 20-34歳の男性 (Mは英語で男性を表すMaleの意味)
  • M2層 35-49歳の男性
  • M3層 50歳以上の男性

出典: 視聴者 - Wikipedia