得点力評価の前提


 主な打撃指標・総合指標について、年度別チーム得点との相関関係と誤差の標準偏差。

指標相関係数標準偏差
Reg.965.140
XR27.963.144
BsR27.9620.1458
RC27.9618.1461
BRA.948.170
TA.947.171
GPA.947.172
DLSI.946.174
OPS.945.175
NOI.936.189
長打率.893.241
出塁率.830.298
打率.795.324

 データ元は1992〜2009年NPB12球団分延べ216チームです。
 代理アウト数で算出した試合あたり得点「得点×27/(打数−安打+盗塁刺+犠打+犠飛+併殺打)」を対象にとり指標それぞれ回帰分析から推定得点率に一次変換、相関係数と誤差の標準偏差を出しました。要するにそれぞれの指標から得点率を予測したらどのくらいの精度で一致するのかということを検証したものです。
 この手の話はセイバーメトリクスの前提となるものなのでNPBについても何度重ねて確認されてもいいことのように思います。
 値の見方は相関係数は1に近いほど片方が増えれば他方も増えるというような関係が強いということで、誤差はXR27なら27アウトあたりの得点を標準的に±0.144程度の誤差で推測できることを意味していて、当然誤差は小さいほうが予測としては正確と言えます。相関係数を2乗すると決定係数というものになり、決定係数は指標で得点の何パーセントが説明できるか、ということを表します。

 指標の式についてはページ末尾に掲載しておきますが、ひとつRegという特殊なものを追加したのでそれだけここで説明します。RegはXRと同様の変数を用いて対象となるデータ元から重回帰分析をして導き出したもので、そのように項目に一定の加重をするという方式をとる限りはこれ以上誤差の小さい式は作れません。重回帰とはそういう式を強引にひねり出す手法だからです。加算式の上限というひとつの目安として見て下さい。

 これらの指標は主に、打撃成績からチームまたは個人の攻撃力の高さを表すために存在しています。
 普通にチーム成績を見ても安打がどのような場面でどう繋がっていったのかといったことは全くわかりませんが、そのような細かい状況性を踏まえなくてもよく打ったこととよく点を取ったことは強く相関しているというわけですね。少なくともシーズン・チームレベルでは。
 最終的に得点数の上回ったほうが勝つゲームなのですから総得点を増大させるというのは間違いなく勝利に対して有効です。シーズン単位で見る場合得点の分布の問題が多少残りますが、基本的な考え方としては総得点の大小のみを考慮するのでも十分説得力があると思います。
 多分一般的なセイバーメトリクス的分析では言うまでもない前提となっていることで、逆に言うとこれが成り立たないとRCやOPSが使えません。


 各指標について。式の組成・相関の強さの段階ごとに大まかに3つのグループに分けられるように思います。

 (1)公式記録グループ
 打率・出塁率・長打率と公式記録として採用されている指標。総得点とは確実に相関関係がありますが、改良を重ねた新しい指標に比べるとその精度ははっきり劣ります。一般的に最もよく利用される打率は、実際の得点数に対し誤差が最も大きいです。
 長打率と出塁率では長打率が優れていますが、因果関係というより打撃の中身自体に相関があるのかもしれません。

 (2)簡易改良指標グループ
 BRAからNOIまでの、記録をちょっと足したり割ったり掛けたり簡単な係数で調節するなど、従来の指標に簡易的な改良を加えたものたち。ただしDLSIは毛色が異なり今回の中では例外的。
 この辺の指標の特徴は長打率や出塁率を単純に足したり掛けたりするだけでぐっと得点と相関が高くなることと、それに対していくらかの改変ではあまり差がつかないことですかね。例えばOPSとGPAの違いがそう大きなものだとは思えません。
 算出の簡単さを考えれば、こういった指標は得点力の評価に非常に有用なものだと思います。

 (3)得点予測式グループ
 RC・XR・BsRら、最初から得点の形で出力することを目的として存在している指標群。OPSなんかの改良指標の精度をさらに高めた感じで、打撃イベントに平均的な評価をする限りはこの辺が限界なのかもしれません。
 単純に得点を見積もるという点に関して3つの式の違いは正直感じられませんが、このような検証に耐えるために存在しているような式であるXRはさすがに誤差が小さいです。ただし犠飛を単なる打数として計算するとRCよりやや劣る程度になります。BsRは犠飛に加重をしていないわりに非常によく対応していると言えそうです(犠飛は「得点が記録された」ことを意味する例外的な状況依存スタッツであり、利用すれば精度が高まるのはある種当然です。しかし外野フライを打った打者というよりは無死または一死で三塁まで到達した先の打者の貢献が認められるべきもので、犠飛を打者を評価する式に取り込むことは危険性を孕むと私は考えています)。


 ……とまぁ、捉え方は人それぞれだと思いますけれども。他にもTAの分母を打席数にしたような指標だとかOPSをアウト率で割ったような指標だとか世の中には色々な総合指標がありますが、大部分は今回出した指標のどれかに近いものとなりそう大きな違いはないと思われます(例えば加算モデルとして一般的なLWTSは大体XRと同様の内容とみなしていいでしょうし、結果としてもそうです)。


 そういった結果からおそらく言えることは以下。


 そして打率に表れていない長打や四球は非常に大切で犠打や盗塁は総得点に対してそれほど重要ではないと思われることなどはマネー・ボールにある通り。
 打席のうち多く長打を放ったり出塁したりしている打者がチームから抜ける場合その分チームの打撃成績は悪化し、総得点は減少すると考えられます。それが具体的にどのくらいの影響になるのか(そもそもある打者は実際に有益なのかどうか)ということをRCなどの指標は明らかにしてくれるのであり、それを参考としてチーム編成を考えるといったことがセイバーメトリクスで一般的に行われています。無論チームへの有益さが計れるという意味で、それを個人への評価とすることもできるわけです。今更の話ですが。


 2010.2.26加筆
 ここまでこの内容を「前提」と書いていますが、これを「前提」とだけ書いておくのは誤解を招く可能性があるように思えてきました。
 というのも、別にRCやOPSなどの指標は“得点と相関が高い”ことを根本的な理由として使われているわけではないからです。というよりそれだけでは前提として不十分で、打点などのように他の打者に多くを委ねることなく安打や四球など基本的に個人で完結する数字を基に利得を組み立てているというところがもっと根本的に重要な点です。
 そしてその上で、そうして作られた指標が結果として得点を全然説明できないのであれば困りますから、確認作業をするわけです。その意味ではこのページの内容は「確認作業」と言えます。しかし、その確認作業ができていることをわかった上で指標を使うことになるので、結局はその確認作業は前提になるということになります。誤解のないようにと加筆しているくせにわかりにくい書き方ですみません。
 個人の得点創出を評価する式の評価にチーム単位での得点との関連を見ることは特別な意味がないという見方もあり、例えばBatting Runsなどは、式の組成上この確認作業を必要としない(そしてまたこのような検証にあまり馴染まない)とも言えます。
 チーム単位で得点と相関が高いことと個人を評価する指標として優れていることは別問題です。




 余談。OPSとGPA・NOIについて。
 マネー・ボールの中にビリー・ビーンGMの補佐役であるポール・デポデスタが「同じ値でも長打率より出塁率のほうが価値があるから、OPSのように等価とみるのはおかしい」という考えに基づき出塁率を3倍重視する指標(いわゆるNOI)を生み出したことが書かれています。
 しかし冒頭の結果の通り、OPSに比べて特に相関が上がるわけではない点がちょっと気になります。管理人が持っている日本語訳の文庫には《いままでになく正確にチームの得点力を表せる数式を発見した》と書かれていて、これ自体は今一歩微妙な表現です。実得点と相関が高いわけではないという事実で突っぱねるべきかどうかはわかりません。
 それに対して出塁率を1.8倍重視するGPAという指標があり、今回の検証ではこちらのほうが相関は高くなっていますし実際に利用されているのもよく見かけます。1.8倍がいいのか? 3倍がいいのか?
 MLB方面ではこの出塁率に掛ける係数は何がいいのかということについて大真面目な議論が結構な量飛び交ったようで、どうも3倍ではやりすぎになるというのはMLBでも同様のようですね。
 結論としては1.5〜2.0くらいが総得点との相関という意味では最も良いということですがこれは年次・リーグによってかなり異なり、2000年前後にも3が最も良く当てはまるリーグがあったらしいです。
 ポール・デポデスタがあの結論を発表したのはそのためかもしれませんし(セイバー研究者が一般的な傾向を探っていたのに対して球団の人間であるポールは自らに関係のあるリーグやそれに似た状況に限った研究をしていたとか)、まぁ全然別の事情があったのかもしれません。

 管理人としてはOPSの良さの半分は計算の簡単さだと思っています。
 OPSに補正を加えたり改変しているような指標は色々ありますが、なんやかんや手間をかけるなら最初からXRなどの式を入れてしまったほうが大して手間は変わらないし信頼できるので個人的にはそれほど魅力を感じたことはありません。
 当サイトの打者評価のページでは、OPSとGPAやNOIの間にある違いはOPSと打率や長打率の間にある違いに比べて微々たるものという判断と、細部が異なる指標をあれこれ乱立させるよりわかりやすく普及しているひとつの指標に絞ったほうが色々といいだろうということでOBP+SLG系のレートスタッツについてはあえてOPSのみの紹介に留めています。




 

発展:得点と勝利の関係

 総得点が多く総失点が少ないチームは勝率が高いのが普通で、逆もまた然りです。そういう、得点・失点がどのくらいだとどれだけの勝率になるかということの関係を定量的に表そうとしている式にピタゴラス勝率というやつがあります。

 ピタゴラス勝率=得点の二乗÷(得点の二乗+失点の二乗)

 不思議な式で、存在意義やら使い方やらわりと意見が分かれるようで面白いものなんですが、とにかく「得点・失点と勝利の関係を式にした」ということにおいてはっきりと有効な成果を挙げていて、改良版(二乗のとこをどうするか、が主な問題)も色々開発されていて得失点から勝率を出す目的では最良の精度の式のひとつであると言われています。
 ではこれ、なんなんでしょうか。数学的な難しいことはよくわからなくても、算数の発想として見ても単純にこの式の根本的な性質はわかります。
 総得点と総失点のみから勝率を導き出すと考えるとき、これらは全て論理的に妥当なものです。要するに得点が多いほど勝てるということで、特に「得点数=失点数」だとか「得点数と失点数のいずれかがゼロ」など特定のケースについて正しく機能することを確認したにすぎません。
 あとは得点と失点の比率が変化したときに勝率がどう変化するかということの具合、その調節です。これが二乗の担当する役割となっています。ここに関しては経験則的に現実と合致する手法が採られたのではないでしょうか。チームの実際の勝率とピタゴラス勝率の間には.900を越える相関が見られ、その相関はデータの範囲にもよりますがRPWによる予想よりも若干高いです。というわけで、ざっくばらんに言えばピタゴラス勝率の式というのは基本的な論理性に加えて統計的な合理性を持った式なのではないかと。

 ピタゴラス勝率の妥当性から、おそらく、球団は安心して総得点の増大と総失点の減少にこだわっていいということがわかります。これは通常当たり前のことのようでいて、しっかり定量的に確認されておくべきことです。ピタゴラス勝率(とRPW)の功績は実際にそれをして有用な目安を提供したことでしょう。
 例えば一般的に優勝チームの勝率は6割くらいです。勝率とピタゴラス勝率に強い相関があり、ピタゴラス勝率は総得点と総失点の関数ですから、ピタゴラス勝率を使えば優勝を目指して「勝率6割にするにはどのくらい得点を増やし失点を減らす必要があるか」ということがある程度具体的に把握できます。その際総得点を20や30は増やしたいという結論に至ったとして、どのように打者を補強すれば総得点がそれだけ増えるかといったことはこのページの主題である打撃指標のRCなどから求めることができます。
 以上のことから、得点を推定する式と得点から勝利を推定する式などがチームの合理的な意思決定や選手評価の助けになる、強力な道具になるということがわかります。








指標の計算式

打率
 安打/打数
出塁率
 (安打+四球+死球)/(打数+四球+死球+犠飛)
長打率
 塁打/打数
OPS
 長打率+出塁率
GPA
 (長打率+1.8×出塁率)/4
NOI
 (長打率/3+出塁率)×1000
TA
 (塁打+四死球+盗塁−盗塁死)/(打数−安打+盗塁死+併殺打)
BRA
 長打率×出塁率
DLSI
 デソポ―レフコウィッツ得点インデックス。メジャーリーグの数理科学で紹介されていた簡易的なシミュレーションモデルですが、算出方法はちょっとここで説明するには面倒。単純化した設定と確率の計算により期待得点値を算出するものです。
RC
  A×B/C
   A = 安打+四球+死球−盗塁死−併殺打
   B = 塁打+{0.24×(四球−故意四球+死球)}+0.62×盗塁+{0.5×(犠打+犠飛)}−0.03×三振
   C = 打数+四球+死球+犠打+犠飛
XR
  0.50×(安打−二塁打−三塁打−本塁打)+0.72×二塁打+1.04×三塁打+1.44×本塁打
    +0.34×(四球−故意四球+死球)+0.25×故意四球+0.18×盗塁−0.32×盗塁死
    −0.09×(打数−安打−三振)−0.098×三振−0.37×併殺打+0.37×犠飛+0.04×犠打
BsR
  A×{B/(B+C)}+D
   A = 安打+四球+死球−本塁打−0.5×故意四球
   B = {1.4×塁打−0.6×安打−3×本塁打+0.1×(四球−故意四球+死球)+0.9×(盗塁−盗塁刺−併殺打)}
   C = 打数−安打+盗塁刺+併殺打
   D = 本塁打

※RC・XR・BsRはそれぞれ(打数−安打+盗塁刺+犠打+犠飛+併殺打)/27で割る。




トップ > 四方山話 > 得点力評価の前提

inserted by FC2 system