読者です 読者をやめる 読者になる 読者になる

Gold Standard

論文を読んでいるとたまに Gold Standard という言葉が出てくる。 これは主に自分の提案した手法に対する比較対象を指す言葉として出てくる。

似たようなものに Baseline というものがある。 Baseline は分かりやすくて「既存手法をベースラインとする」のように、この手法の評価値は超えて当然とされるもの、むしろ超えないなら提案手法は無意味だぐらいのものを指す。

一方、Gold Standard は、この評価値を超えることはないが、近づけば近づくほど良いとされるもののことを指す。

例えば、人間に近い判断をさせるアルゴリズムを作ったとして、実際の人間の判断との近さを評価値とする。 この評価値は近ければ近いほどいいのだが、限界がある。 それは人間の判断にもばらつきがあることから生じる限界である。 人間の判断にもばらつきがあるため、人間 vs. 人間の近さ(評価値)は 0 にはならない。

アルゴリズムの良さを評価するには、別グループの人間の判断を取ってきて、人間 vs. 人間の判断の近さを測り、これをアルゴリズムの評価値と比較する。 アルゴリズムの評価値は、人間 vs. 人間の評価値を超えることはない(超えても無意味)なため、人間 vs. 人間の評価値に近いことを示せば良い。 これが Gold Standard である。

広告を非表示にする