指標の信頼性と平均への回帰

2011.3.26

by Baseball Concrete

1.重要な統計的性質

 セイバーメトリクスを考える上では、統計(学)に関する理解も重要となります。私は決して専門家ではありませんが、これまであまりちゃんと考えてこなかった「平均への回帰」に関する考え方の重要性を最近重く感じており、自分はこういう認識で話しているという表明の意味と単なる勉強ノートの意味を合わせて、ここに記述を試みたいと思います。ここに書く内容には私にとって根拠が必ずしも明らかでないものも含まれますし、細部の詰めは今後の課題としているところもあります。不適切な箇所に関する指摘は喜んで受け付けます。そのあたりご了承下さい。

 

2.古典的テスト理論

 心理学等の分野で実証研究によく用いられるらしい統計理論に、古典的テスト理論(Classical test theory)というものがあります。これはテストの結果など統計データを分析する際、観測値を真の値と誤差の関数と考えるものです。

 観測値=真の値+誤差

 観測値というのは野球の記録で言うなら単純に、選手の打率とか出塁率とか何らかの形で記録した数値のことです。真の値はその選手が持つ「本当の」数値で、たとえば通常のコンディションを保ったまま1億回打席に立たせた結果の打率と考えられます。それだけ打席数があれば偶然の影響は排除されるでしょう。誤差は指標の数値に系統的な関係を持たない観測値への影響です。たまたまその日の体調が良いとかヤマ勘が当たったとか。ランダムなものを指します。このランダムな誤差の特徴は、十分な試行数があれば平均化され最後には真の値の影響だけが残る点です(だから「1億回打席に立たせた結果の~」という言い方が成立します)。真の値と誤差に関しては完全な形で直接に計測することはできず、できるのは推定することだけです。

 ある選手のシーズンの打率が.287だったとして、その選手の本当の実力がちょうど.287である可能性は高くありません。そこには何らかの形での誤差が影響しています。これは誰もが経験的に了解していることでしょう。このことを明瞭に理解するために古典的テスト理論のモデルは役立ちます。ただし、簡略化したモデルであることには注意が必要で、たとえば観測値に選手個人以外が与える系統的な要因については考慮していません。パークファクターによって本塁打が多い場合でも、それは誤差には入りません。

 

3.信頼性

 観測値を真の値と誤差の和と考えるモデルから、信頼性(reliability)という考え方が導き出せます。信頼性というのは、その観測値(指標)がどれだけ選手の能力を的確に、少ない誤差で反映しているのかを定量的に表すものです。

 信頼性は、データのばらつきの度合いを表す分散という統計量を利用して以下のように表されます。

 信頼性=真の値の分散/観測値の分散

 つまり実際に観測されるデータのばらつきのうち、選手の実力の違いによるばらつきの割合です。3人の打者の打率が.267・.289・.314だったとして、このばらつきは誤差による部分が大きいのかそうではないのかということを信頼性は評価します。

 そして古典的テスト理論のモデルより、観測値というのは真の値と誤差の和ですから、観測値の分散は

 観測値の分散=(真の値+誤差)の分散

 ここで、誤差は定義上真の値と系統的な関わり(相関)がなく独立のものです。変数が互いに独立の場合分散は加算になりますから

 観測値の分散=真の値の分散+誤差の分散

 ここから

 信頼性=真の値の分散/(真の値の分散+誤差の分散)

 というふうに分解できます。つまり選手ごとに実力のばらつきがしっかりとある場合、誤差の影響が少ない場合に信頼性は高くなります。また全体の分散のうちの割合という形をしていますので、信頼性の値は具体的には0から1までの間となります。

 具体的に信頼性を計るにはどうすればいいのでしょうか。まず上記の考え方にそって数学的に計算する場合を考えてみます。真の値の分散と誤差の分散がわかれば信頼性の計算ができるのですが、真の値の分散は直接計測できません。しかし分散が加算となる性質を利用すると、観測値の分散から誤差の分散を減じたものであるとみなせるので、誤差の分散から間接的に推定する方法があります。式は以下で考えます。

 信頼性=(観測値の分散-誤差の分散)/観測値の分散

 ここまでに3つ信頼性の式が出てきていますが全て言い換えているだけで中身は変わりません。

 具体的に、打者の出塁率の場合として考えてみます。仮に規定打席に到達した打者の出塁率観測値の分散が0.034^2だとし、彼らの平均出塁率は.330で、打席数の平均は550とします。結果が成功か失敗かという二項の形で得られる試行の分散は確率の計算から成功率をp、試行数をnとして以下のように求められます。

 誤差の分散=p×(1-p)/n

 出塁率の例では  0.33×(1-0.33)/550=0.020^2

 これが誤差の分散となります。ただし集団に含まれる打者の打席数は細かく違うのであって、どのようなnを用いるのが本当に適切かどうかなどについて厳密にはわかりません。ここでは誤差の分散の推定くらいに考えておくことにします。

 観測した、そして計算したふたつの分散を用いると真の値の分散と信頼性が計算できます。

 出塁率の信頼性=(0.034^2-0.020^2)/0.034^2=0.65

 (信頼性=(観測値の分散-誤差の分散)/観測値の分散 の式の形)

 このように信頼性を計算(推定)することができます。

 以上のような計算を念頭において考えると、試行数と信頼性の関係というのも明確になります。真の値の分散(選手ごとの実力の違い具合)は、どのくらい実際の打席に立っているかによって変わる類のものではありません。とりあえず一定と考えられます。集団の平均値も同じように一定とみなします。一方、誤差の分散は「p×(1-p)/n」ですから、nすなわち試行数が増えると反比例して値が減少していきます。結果、誤差の分散に対する真の値の分散の比率が上がっていき、試行数の増加に応じて信頼性が上昇することがわかります。これははっきりと「少ない打席数のデータはあてにならない」とか「多くの打席数に立てば偶然の影響は平均化される」とかいうことの記述になっています。

 ただしここで説明している「信頼性」という言葉は多少ミスリーディングです。信頼性は誤差に影響される割合が小さいかどうかを表すのみであり、「再現性」や「一貫性」というような表現も可能です。信頼性が高いことはそれが特定の目的に対するものさしとして妥当であることを意味するものではありません。具体的に言うと問題はバイアスの存在であり、たとえば世論調査で男性から回答を得る割合が偏って高ければ仮にそれが十分な標本数で誤差の小さいものであっても世論を妥当に表すものだとは言えません。野球の統計でも、仮に信頼性が高くてもその指標はチームメイトの影響などを大きく受けたものであるかもしれません。

 

4.信頼性の経験的な算出方法

 信頼性の係数を算出するとき、経験的なデータを用いた方法が採用されることが多いです。いくつか例をあげます。

 再テスト法

 同一の集団に、同じテストを2回受けさせ、それぞれの得点の相関係数を信頼性とする方法。セイバーメトリクスでは、2年連続して一定機会以上出場した選手について1年目の成績と2年目の成績の相関係数をとるyear-to-year correlation(経年相関or年次相関or年度間相関?)がこれの一種と考えられるのではないかと思います。ある年に出塁率が高かった選手は翌年も高く、逆に低かった選手は翌年も低いという傾向がはっきりしているのであれば、出塁率は選手の実力を反映しているだろうと考えることは合理的です。これは計測が比較的容易で理屈も直感的に納得できるためよく利用されますが、1年だけのデータに関して信頼性を計算できないことと年をまたぐことで選手の実力そのものが変化してしまうことが問題点としてあげられます。

 折半法

 1つのテストを何らかの方法で同質とみなせるふたつのデータに割り、両者の相関から信頼性を計算する方法。野球のデータで言えば、あるシーズンの打率を前半戦の打率と後半戦の打率に分けて相関をとるというようなことです。ただしそれだと「後半戦に体力の問題で成績が悪化した」などの指標の性質の問題でない要素によってデータ間の違いが出てしまうので、偶数番目の打数と奇数番目の打数に分けるなど、どちらにもそれぞれの期間のデータがだいたい同じように振り分けられるような工夫がとられます。これもセイバーメトリクスで比較的よく用いられる手法のようです。

 Cronbachのα係数

 計算式を使い、折半法で可能な全ての分割に対する相関係数を計算し平均をとった場合と同等の数値を計算する方法。折半法のように分割方法に値が依存することがないため客観的で効果的とされます。社会科学ではメジャーなようですが、セイバーメトリクスでは指標がαをキレイに計算できるような「テスト」になっていないためか、用いられる機会を見かけないように思います。

 

5.平均への回帰

 信頼性の計算を、真の値の推定に活かすことができます。信頼性が十分に高い場合単純に観測値を真の値の推定とすることに大きな問題はありませんが、信頼性が低い場合には観測値は適切に真の値を表していない可能性が高いです。信頼性を利用して真の値を推定するには個々の観測値と集団の平均のデータを使用し、信頼性の係数でそれぞれに重みをつけます。

 回帰された観測値=信頼性×(観測値-観測値の平均)+観測値の平均

 または

 回帰された観測値=信頼性×観測値+(1-信頼性)×観測値の平均

 こうすると信頼性が1でない限り観測値は平均値へ近づくことになり、統計データのこのような性質を平均への回帰といいます。そもそも観測値の分散は真の値の分散と誤差の分散の和でしたから、誤差の分散の大きい少ない試行数では選手ごとの観測値のばらつきは「ふくらんで」出ているわけです。したがって、データに接するとき、基本的には観測値をそのまま真の値であるかのように扱ってはいけません。本来の値のばらつきを過大評価することになります。

 「あらゆる成績は平均へ回帰する」などと言われますが、そのくらいこの「観測値と真の値は別である」ことの理解は重要だと思います。わかりやすい例で言えばシーズン開始当初に4割を打っている打者もシーズン終了時には平均へ回帰し、3割台前半やあるいは2割台などに下がることになります。そしてシーズン開始当初の成績もシーズン終了時の成績も選手の通算成績も観測値であることに本質的な違いはなく、あるのは信頼性の定量的な違いです(もちろんシーズンごとに優秀な観測値を表彰する、といったことは別問題であり文句はありません)。あるいはパークファクターなどの数値も、1年程度の観測値では誤差を多く含むためにその球場がもつ本来の影響の大きさを観測の都合によって過大評価することになりかねません。やはり信頼性と回帰の考え方が重要となります。

 

6.おわりに

 冒頭のくり返しになりますが私は統計の専門家ではありませんし理解がやや曖昧なまま書いている部分もありますのでご指摘はいつでも受け付けたいと思います。ただしここに書いた諸概念は野球のデータ解析であまり認識されていない現状はあると思っていますので認識や議論のきっかけにでもなれば幸いです。

 

参考

仔猫の遊び場―心理学

Research Methods Knowledge Base

Classical test theory(en.wikipedia)

統計WEBコラム「誤差の問題」

 

トップ > 分析・論考 > 指標の信頼性と平均への回帰

ページのトップへ戻る
inserted by FC2 system