偉大なるRuns Created
1.偉大なるビル・ジェイムズ
 私は、ビル・ジェイムズに敬意を表します。確かに、RCって不思議でしょう。何故出塁率に塁打をかけたら得点になるのか。そしてまた、ピタゴラス勝率って謎でしょう。後に調整されたとはいえそもそも2乗ってどこからきたのか。あるいは、RFも元々は雑です。突っ込みどころはいくらでもあります。
 それでも揺るぎないすごさは、さまざまな野球の出来事を具体的に図式化しようとしたその発想です。野球の要素から総得点を表すモデルを作る、得点がどのように勝利に繋がっているのかをモデル化する、守備力を主観で評価するだけじゃなくて客観的に実績から表す。その発想に持っていき具体的に式まで作ったことがすごいと思います。
 先にその考え方と土台を打ち出してくれている人がいれば、その土台を発展させて精度を高めたりすることは特殊な発想がなくてもできることです。明らかにビル・ジェイムズの登場以後野球の統計解析が発展したように思われるのもそういうことでしょう(だからといってビル・ジェイムズ以降の人々の貢献を偉大なものでないと言うものではありません)。
 野球に数式を持ち込んだのはビル・ジェイムズが最初ではありませんが世間に議論を巻き起こさせた中心人物という意味ではやはり彼は重要な人物です。



2.偉大なるRuns Created
 数々の指標を作り出したビル・ジェイムズですが、最も有名なひとつがRC(Runs Created)です。安打や四球を組み合わせて打撃成績からそのチームが記録する総得点を推定する式。
 RCの式は、眺めるほどになかなか面白いものです。
 まずはBasicバージョン。

 RC Basic=(安打+四球)×塁打/(打数+四球)

 冒頭でも言ったように、これは出塁率に塁打を掛けた形をしています。構造としては「出塁×進塁/機会」です。
 恐ろしいことに、これで非常によく実際のチーム総得点が予測できるんですね。そうしたらつまり、野球の得点というのは高い確率で出塁して長打を打って進塁することが大事なんだ、と考えることができます。会計で言う「売上=個数×単価」とかじゃないですが、野球を何か図式に落とし込み仕組みを反映したモデルにしてやろうって意欲が見えます。
 統計学的な発想をしてしまえば、XRのように冷たく鋭く誤差の小さい得点予想式自体は比較的容易に作れます。イベントの相対的な価値などもわかるのでそれはそれで有用なものになるでしょうが、ビル・ジェイムズが求めていたのはそういうことじゃないのでしょう。
 出塁率と長打率が高まるほどに総得点が高まる、出塁がゼロなら得点はゼロだからふたつは掛け算なのは筋が通る、というようなことを頭で考えることもできます。


 Basicに公式記録で参照可能な細かいコンポーネントも加えて評価の精度を上げた「テクニカルバージョン」に進みましょう。

 RC Tech=(安打+四球+死球−盗塁刺−併殺打)×(塁打+0.26×(四球−故意四球+死球)+0.52×(犠打+犠飛+盗塁))/(打数+四球+死球+犠打+犠飛)

 さて、Basicバージョンから「出塁×進塁/機会」の構造は全く変わっていません。各要素は分けて見るとそれぞれ以下になるわけですが

 出塁 : 安打+四球+死球−盗塁刺−併殺打
 進塁 : 塁打+0.26×(四球−故意四球+死球)+0.52×(犠打+犠飛+盗塁)
 機会 : 打数+四球+死球+犠打+犠飛


 四死球の進塁も評価されるようになったりしている点、犠打や犠飛も進塁であるから評価されている点などに特に不思議はありません。面白いのは盗塁刺や併殺打を「進塁のマイナス」と扱ってはいないというところです。
 塁に出てアウトになったのは出塁を帳消しにしたのと一緒で、RCは得点の仕組みを捕まえた式だから係数で無理矢理調整しなくても出塁から減算すればいいだけ(というよりむしろ出塁を減算しなければならない)なのだよ、という説明が聞こえてきそうです。多分、走塁死のデータが得られたときには盗塁刺と同様に出塁ファクターから引いたとしてもビル・ジェイムズは怒らないのではないでしょうか。やはりRCはあくまでどのように得点が記録されるかのモデル化にこだわっておりなるべく係数を使わずに得点を説明しようとしている意欲は変わらず感じられます。

 ちなみに野球の構造からすると単に「0.50×単打+0.72×二塁打……」のように各イベントに一定の加重をするだけではなく積算式とすることは理に適っています。出塁率が上がっていけば塁上が走者で賑わうことが多くなり四球や安打ひとつあたりで増加する平均得点数も大きくなっていくことは論理的に明らかで、常に一定の加重ではこの変動に対応できないからです。RCのような積算式ならば、正しさの度合いはともかくとしてとりあえずその様子を表すことができます。

 一般的にはRCの出塁ファクターのことをA、進塁をB、機会をCとして式を表します。つまり「RC=A×B/C」です。Basicバージョンでは「安打+四球」だったAがテクニカルバージョンでは「安打+四球+死球−盗塁刺−併殺打」になったりしていますが、根本的な式の構造は変わりませんよ、ということです。
 で、テクニカルバージョンで若干ややこしくなったRCですが、さらにTheoretical Team(理論上のチーム)バージョンというややこしいやつが出てきます。

 TTRC = {(A+2.4×C)×(B+3×C)/(9×C)}−0.9×C

 これは何なのかといえば、既に他のページで説明はしているのですが、打者個人についてRCを算出するための「標準的な8人の打者と打線を組んだ場合の打線の総得点を算出し最後に標準選手8人の分の創出得点を取り除くことで対象の打者の創出得点を出す」という内容の補正です。
 なぜそんな補正が必要なのかと言えば、前述したようにRCは打線の出塁率や長打率の向上による得点環境の変化を「捉えてしまう」からです。チームの打撃成績に適用する分には問題ありませんが、一人の強打者の打撃成績に適用する場合、その打者が9人で並んでどんどん得点が量産される(例えば自分が四球で塁に出て、それを自分が本塁打で返す)ような環境を計算していることになってしまいます。実際には打者一人が打線の環境に対して持てる影響は1/9ですから、それでは過大評価になります。従って補正の必要があります。逆に言えばチームの攻撃力としてのRCを計算するときこの補正は必要ありません。

 実際補正がどのように働くのかは以前に「打撃総合指標について」で書いたものをまた持ってきます。手抜きですみませんが同じ内容を書くことになるだけなので。

 例えば500打席で出塁(A)220の選手がいるとすると、標準的な打線に1/9として加入した場合のチーム(A)は、同じ機会数500に標準的な出塁率0.330の選手を8人加えて、220+8×0.33×500 → 220+2.64×500 → 1540 と計算されます。
 同様に進塁ファクター(B)も、対象選手が塁打300で標準長打率が0.370なら 300+8×0.37×500 → 300+2.96×500 → 1780 と計算され、機会数は対象選手分に9をかけたもの。(A)1540×(B)1780/(C)4500 が標準的な8人の中に対象打者を入れた場合のチーム得点で、こうすれば対象打者の打撃がチームの打撃環境に与える影響は1/9になり、個人の評価にあたっては実際の事情に近くなる……と考えられます。
 チーム得点は609と出ましたが最後に標準8人の得点創出 8×0.33×0.37×500 → 0.9678×500 → 488.4 を除くので、対象打者一人の得点創出は(609−488.4)=120.6となります。
 普通に220×300/500と計算すると132になりますがこれは大袈裟だというわけです。
 今回の計算とRCで採用されている係数が微妙に異なるのは後々の式のAファクターやBファクターが「出塁率」「長打率」と同じでないことなどが理由ですが、基本的なやっていることは変わりません。

 ……というわけです。Theoretical Teamバージョンでも表計算ソフトでひとつのセルに落としこめる程度の式ではありますが、その中にチームがあって野球が行われて最後に一人分の創出得点が取り出されているという、小宇宙がある感じがいいのです。シミュレーション的な面白味というか。
 実際の評価にあたって誤差の小ささを求めるなら重回帰分析のようなものを使うのが合理的で、数式に小宇宙だの面白味だのを感じるのは「客観的で適切な評価」を考えるときには確かに不適切なのかもしれません。それでも、仮に結果としてRCが得点を予測する誤差はXRより大きいとしても、私は仕組みで「野球」を捕まえようとしたビル・ジェイムズの姿勢には惹かれるものがありますし、ここまで書いたようなRCの軌跡それ自体も興味深いと感じました。
 情熱と意欲に対して「偉大なるRuns Created」というわけです。



3.Runs Created is dead.
 最後に裏切るようでなんですが、ビル・ジェイムズの姿勢と意欲には驚嘆するしかないとはいえ、それと実際に物として上がっている指標の有用性とは別だと言わざるを得ません。実際、細かく突っ込めばRCは変なんです。
 単純にBasicバージョンで考えるとして、1打数1本塁打に対して1×4/1=4点なんて結果を出しやがります。誰か出塁したなんて言っていないのに本塁打1本で4点。逆に100打数1本塁打だったら1×4/100=0.04点なんてことになってしまいます。ホームランが出ているのに記録された点数が1点未満という予測を出すなんて、野球の仕組み云々言えるのか。この問題は単に本塁打への係数を変えたりする「調整」で解決できるものではありません。結局、通常のプロリーグのレベルでは総得点として偶然上手く機能するけれども実際のところ野球の仕組みに論理的な対応をできるような式ではないと。

 今ではRCと同様の積算式でRCの欠点を改善するようにして作られたBase Runsという式が使われることが多くなっています。ここではもう数式とかの解説はやめますが野球の仕組みという話をするのであればBase Runsのほうが正しい。今では私もそう思います(Base Runsは上の例では両方1点という結果を返しますし、一般的にチーム得点に対する誤差の検証では最上級の結果を示します)。
 Tangotigerという米国のセイバーメトリシャンが「How Are Runs Really Created」という、得点というものがいかにして生み出されるのか、そしてその実態を捉えたモデルとはどういうものかについて書いた解説があり(http://www.tangotiger.net/)、RCやBase Runs等がどう対応するかも詳しく書かれているのですが、3部作となっているそのシリーズのまとめに書かれている言葉が「Runs Created is dead」です。(なお、「BaseRuns is the now」で「Linear Weights is alive and well」とのことです)
 確かにそうかもしれません。Linear Weights(Batting RunsやXRのようなタイプの式)は簡単で使いやすいし積算式としてもBase RunsがRCより優れていることがわかれば、もう別にRCを使う必要はありません。セイバーメトリクス系の情報を多く発信している米国のウェブサイトであるThe Hardball TimesはスタッツとしてMLB選手のRCを掲載していますが、とあるコラムではスタッフが将来的にはRCをBase Runsに切り替えるべきだろうと言及しています(現状RCを掲載している理由は、とても良いことは確かだしよく知られているから、と言っています)。
 ただし、この先RCが使われなくなっていくとしても、「ビル・ジェイムズが作った式は強引で変なもんだったね」で終わるのは何か違う、と思ったので今回少し変な記事を書いてしまいました。例え死んでも私にとっては「偉大なるRuns Created」です。




トップ > 四方山話 > 偉大なるRuns Created

inserted by FC2 system