ほくそ笑む

R言語と統計解析について

メモ: 機械学習のリークについての記事

機械学習の Leakage についての解説記事を最近いくつか見かけたのでメモしておく。 Leakage in Data Mining | takuti.me 雑記 - クッキーの日記 leakって何?|カレーちゃん|note

非心ベータ分布を Stan で推定する (1)

1. はじめに ベータ分布は範囲が固定されている連続データの分布を柔軟に表現できるため便利である。 非心ベータ分布 (Noncentral Beta Distribution) はベータ分布を一般化した確率分布であり柔軟性はさらに上がる。 Noncentral beta distribution - Wikipe…

メモ: Local Explain における Fidelity の評価

機械学習モデルの解釈において、Local Explain が流行っている。 Global Explain の場合、解釈手法の評価は Fidelity によってなされる。 Fidelity (忠実度) は、解釈したいモデル f(x) を説明 g(x) がどれくらい忠実に模倣しているかを測る指標である。 通…

useR! 2018 メモ (3) 後半

SAR: a practical, rating-free hybrid recommender for large data Hong Ooi Video: https://www.youtube.com/watch?v=CcbKRJ3QLVQ GitHub: https://github.com/Hong-Revo/SAR Microsoft のレコメンド手法 SAR (Smart Adaptive Recommendation) について。 …

施策効果測定におけるメタアナリシスの応用

はじめに マーケティング施策を行うときに、その施策効果を測定するために、コントロールグループ(施策を適用しないユーザ)を作る場合がある。 例えば、販促メールを送るという施策を行うときに、一部のユーザには送らないようにする。 仮にメールを送らな…

犬は「さよなら」を言わない

スヌーピーが肺炎で入院した時、彼の兄弟が見舞いにやって来る。そしてスヌーピーの容態が良くなると黙っていなくなる。人間には素っ気ないかもしれないけど、犬はわざわざ「さよなら」なんて言わない(言葉に頼らなくても分かり合えている)。そのドライさ…

インタラクティブな分析とプログラミングの間には常に葛藤がある

インタラクティブな分析とプログラミングの間には常に葛藤がある。 インタラクティブに作業している場合には、R に期待通りの処理をしてもらい、R が間違った場合は自分で直ちに修正を行いたい。 一方、プログラミングの場合、微妙あるいは不可解な問題が生…

useR! 2018 メモ (2) 前半

rollmatch: An R Package for Rolling Entry Matching Kasey Jones Video: https://www.youtube.com/watch?v=2q7e1X8hF7Y CRAN: https://cran.r-project.org/package=rollmatch GitHub: https://github.com/RTIInternational/rollmatch 傾向スコアマッチング…

useR! 2018 メモ (1) Tutorial

Applications with R and Docker Scott Came (@scottcame) Slide: https://docs.google.com/presentation/d/1WF3inCd0TwuqHQhe_HAGymEV3dVHDJHQjFuTcbEBMKo 内容: Docker 入門 感想: Docker すごい。自分の PC に Docker 入れなくても Play with Docker と…

A Survey Of Methods For Explaining Black Box Models メモ (3)

機械学習の解釈可能性についてのサーベイ Guidotti+ (2018) "A Survey Of Methods For Explaining Black Box Models" のメモ A Survey Of Methods For Explaining Black Box Models メモ (1) - ほくそ笑む A Survey Of Methods For Explaining Black Box Mod…

A Survey Of Methods For Explaining Black Box Models メモ (2)

機械学習の解釈可能性についてのサーベイ Guidotti+ (2018) "A Survey Of Methods For Explaining Black Box Models" のメモ A Survey Of Methods For Explaining Black Box Models メモ (1) - ほくそ笑む 4 Open The Black Box Problems このセクションでは…

A Survey Of Methods For Explaining Black Box Models メモ (1)

機械学習の解釈可能性についてのサーベイ Guidotti+ (2018) "A Survey Of Methods For Explaining Black Box Models" のメモ 1 Introduction 現在、センシティブな個人情報を予測する機械学習モデルはブラックボックスである クレジットスコア、保険リスク、…

knitr の SQL チャンクオプションまとめ

knitr は R 以外の様々な言語に対応しています。 現在対応してるのは Python, SQL, Bash, Rcpp, Stan, JavaScripy, CSS です。 knitr Language Engines これらの言語を使いたい場合、R チャンクと同様に、次のようにしてチャンクを作成できます。 ```{sql, c…

Laplace accuracy

Classification based on predictive association rules (CPAR) is a more advanced AR based classifier based on information metric [34]. In CPAR, Laplace accuracy is used to measure the accuracy of rules. Given a rule , it is defined as follow…

Stochastic Online Anomaly Analysis for Streaming Time Series 読んだ

Stochastic Online Anomaly Analysis for Streaming Time Series (IJCAI 2017) https://doi.org/10.24963/ijcai.2017/445 Student-t process を使ったストリーミング時系列に対する新しい異常検知手法を提案する。 時系列関数が Student-t process に従うと…

言葉

ノートを取るくらい素直だったら、って思うことがあるよ。仕事を始めてすぐに大事なことをいっぱい見聞きするんだ。それをメモしておけば、もっと早くコツをつかめたかもしれないのに。手間を惜しんだってより、勘違いしてたんだな。技術は身につけるものだ…

Anomaly Detection in Streams with Extreme Value Theory 読んだ

Anomaly Detection in Streams with Extreme Value Theory (KDD 2017) http://www.kdd.org/kdd2017/papers/view/anomaly-detection-in-streams-with-extreme-value-theory ほとんどの異常検知手法は異常スコアを算出するが、異常かどうかを判断するためのし…

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection 読んだ

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection (ICDM 2016) http://ide-research.net/papers/2016_ICDM_Ide.pdf 複数の動作モードに対応可能かつ変数ごとの異常スコアを算出できる新しい異常検知手法を提案する。 通常、異常検知を行…

言葉

電車の中で母親が子供に、「勉強っていうのは、すればするほど、知らないことや分からないことが世の中にはいっぱいある、って分かることなんだよ。おれ知ってるぜーっていばってるのは、勉強したことにならないんだよ」って話してて、心の中で涙を流しなが…

言葉

「いいかい、君たち。分からなければ聞けばいい。持っていないなら借りればいい。逆に聞かれたら教えるべきだし、持っているものは与えるべきだ。人間、一人でできることなど高が知れている。技術の世界はみんなで共に創る『共創』が肝心だ」 newswitch.jp

Twitterで検索にユーザ名が引っかからないようにする方法

すぐ忘れるのでメモっておく。ちなみに OR は大文字じゃないとダメ。 一度TLで見かけたんですが、「『検索ワード OR @●●(実在しないような適当なID)』で検索すれば検索候補にユーザー名が引っかからない」っていうの知ってから滅茶苦茶便利になったからも…

いま確率密度比推定がアツい

最近、密度比推定の話を立て続けに観測したのでメモ。 アプリログの自動異常検知を試してみた~密度比による異常検知入門~ - Gunosyデータ分析ブログ Machine Learning Trick of the Day (7): Density Ratio Trick ← The Spectator 密度比推定まわりの書籍・…

Putting MRFs on a Tensor Train 読んだ

Putting MRFs on a Tensor Train (ICML 2014) http://proceedings.mlr.press/v32/novikov14.pdf マルコフ確率場(MRF)のパラメータ推定に使われる最尤訓練法では、分配関数の良い近似が必要とされる。 離散変数の正規化されていない同時分布をテンソル(多次元…

言葉

ぼくは二十歳だった。それがひとの一生でいちばん美しい年齢だなどとだれにも言わせまい。 ポール・ニザン『アデン・アラビア』より ポール・ニザン著作集〈1〉アデン アラビア作者: ポール・ニザン,篠田浩一郎出版社/メーカー: 晶文社発売日: 1966/12メディ…

言葉

どうしてこんなことになってしまったのだろう。 いくら考えあぐねても、『そうなってしまった』と言うほか答えはない。 恋は雨上がりのように(9) (ビッグコミックス)作者: 眉月じゅん出版社/メーカー: 小学館発売日: 2017/11/10メディア: Kindle版この商…

2017年のベイズ統計入門書まとめ

2017年もベイズ関連の本がたくさん出版されたのでまとめてみます。 下記の記事の続きのようなものですが、私はほとんど読めていません。。 ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む 冬休みのお供にどうぞ。ビジネスマンがはじめて…

本当にしんどい時に見るもの

https://anond.hatelabo.jp/20171226145739 私にもあるなーと思ったので書いてみる。 1. 火の鳥 鳳凰編 火の鳥 4 鳳凰編 (角川文庫)作者: 手塚治虫出版社/メーカー: KADOKAWA発売日: 1992/12/08メディア: 文庫購入: 2人 クリック: 9回この商品を含むブログ (…

最近のベイズ本まとめ

マンガでわかるベイズ統計学作者: 高橋信,上地優歩,ウェルテ出版社/メーカー: オーム社発売日: 2017/11/25メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る 恋する統計学[ベイズ統計入門]作者: 金城俊哉出版社/メーカー: 秀和システム発…

勾配ブースティング(Gradient Boosting) わかりやすい記事まとめ

1. 勾配ブースティングについてざっくりと説明する smrmkt.hatenablog.jp 2. Gradient Boosting と XGBoost Gradient Boosting と XGBoost | ZABURO app 3. 勾配ブースティング決定木を理解する hiyoko9t.hatenadiary.jp

言葉

「ずり落ちる」 ああ、いやだ。何ともいやな気分に人をさせる。腰まで泥に埋まったまま、丹念に家計簿を付けるような言葉だ。 牛への道 (新潮文庫)作者: 宮沢章夫出版社/メーカー: 新潮社発売日: 1997/04/25メディア: 文庫購入: 12人 クリック: 53回この商品…