DIPS再考

1.DIPSの登場

　ボロス・マクラッケンという人物がその後セイバーメトリクス界を騒然とさせることになるDIPSに関する議論を始めたのは知られている限りは1999年くらいのことで、Baseball ProspectusというWebサイトで記事を発表したのは2001年1月。現在でも読めるオリジナルの記事※1はセイバーメトリクス好きならばちょっと読んでおく価値ありかもしれません。面白いことに「この話をすると大抵『お前は頭がおかしい』という反応をいただく」という書き出しで始まっています。ある意味、文の書き出しだけでそこから起こる「革命」を示唆しているようです。

　そして記事は「被安打は投手の評価において意味のある統計ではない」という本題に進み、「同じ投手でもある年BABIPがリーグ最高かと思えば次の年には最低になったりする。投手のBABIPは年度ごとの相関関係が全然ない」などの論拠を上げていき、最後には改めて「メジャーリーグの投手はインプレー打球がヒットになることを防ぐ能力を持っているようには見えない」とまとめています。「とにかく色々調べてみたけど、やっぱりそのようだ。何故そうなのかの理由を完全に説明できるわけではないが、事実だ」いずれにせよこれがマクラッケンの立ち位置です。

　そうなんだからしゃーない、と。みんなカラスはどれも白いって言ってるけど僕にはどう見ても黒ばっかりなんだけど、というのを恐る恐るながら示してくれました。

　私は、DIPSはセイバーメトリクスの歴史全体で見ても最大級に価値のある大発見だと思っています。DIPSにより、それまで曖昧だった部分にひとつ明確な線引きが生まれ、偶然や守備の助けで高い成績を上げているに過ぎない投手を過大評価するという間違いを犯す確率が飛躍的に下がったと考えられます。新たな見方を提供し投手の評価法を大きく変えました。

　もちろんDIPSに対して、ちょっと待て、というツッコミも確かにあります。フェアグラウンドに飛んだ打球がアウトになるかどうかは投手の実力じゃないなんて、馬鹿なこというなと。「打たせて取る投手」がいるだろ、これだからセイバーメトリクスは極端でダメなのだと。誰が馬鹿かはともかくとして、マクラッケンの理論を受けて「そうは言っても投手はある程度BABIPに影響を持っているようだ」という研究はアメリカではセイバーメトリクスの中でちゃんと発表されています※2しマクラッケンもそのことは認めています。ただしそれでも「ある程度」で、DIPSの有用性を無に帰すというレベルには至っていません。

2.日本への適用について

　さて、日本では実際のところどれだけの投手がそういう、BABIPに影響を持っていると言えるかに関して体系的な研究はほとんどありません。アメリカは思い切り投げて振るだけの野球をやっているけれども日本は「打たせて取る」ことや「野手の間を狙って打球を打つ」ことを重視しているためDIPSの有効性はメジャーと日本では異なり日本にDIPSを当てはめるのはダメだ、という意見を見たことがあります。その他にもとにかく打たせて取る技術はある、という意見は時折目にします。それらの根拠は知りませんが仮に多くの投手がBABIPを制御するスキルを持っていてそれが現実に反映されるとすれば、BABIPが投手の能力でないとするDIPSの評価は確かに成り立たなくなります。NPBとMLBに高い共通性がある保証はありません。

　投手のBABIPを制御する能力に関して、ひとつのヒントは当サイト「指標の年度間相関」に掲載したDER（1からBABIPを引いた数字、見ているものはBABIPと同じ）の年度ごとの相関係数。特定の投手の「ある年のDER」と「翌年のDER」の相関係数はたったの.112。これは翌年のDERの1.3%が前年のDERで説明できるということを示していますが、このレベルだともはや「説明できる」と肯定文で書くのがかなり苦しく、「投手のDERは前後の成績からはほとんど説明できない」と言うのが日本語の感覚として普通です。

　1年ごとではサンプルサイズが小さいという問題があるために能力があっても反映されていない可能性は高いですし、能力だって年が変われば変動するさという言い方もできますが、いずれにせよ実際のところ「BABIPがどう出るかはわからない」ではそれに頼った選手評価は明らかに役に立ちません。予測できない能力、結果に表れない能力はもし仮に「ある」としても頼りにできないということです。

　「私はサイコロで狙って1の目を出す超能力を持っている。ただしそれは非常に難しく高度な能力であるから、集中してやってもいつでも成功するわけではないしいつ成功するか確実なことは言えない。成功の割合は全体的には1/6くらいだ」なんて話があったらいい笑いのネタです。そんなものは実質的には「ない」のと一緒だし何の利益ももたらしません。俺はそんな能力があるぞと公言して回れば周囲に変な人だと思われるだけです（その場合その男とマクラッケンとどちらが『頭がおかしい』か。話が飛んでいるように思われるかもしれませんがDIPSに関する論争には本質的にそういう面があります）。

3.個人のBABIPとチームのBABIP

　ここではまた別の観点からBABIPに関する資料を足してみましょう。どれだけの投手がグラウンド上に飛ぶ打球がアウトになるかどうかに関して運などでは片付けられない影響力を持っているとみなせるのか。これは統計学の検定を用いて検討することができます。

　まず、マクラッケンの考えに基づき投手のBABIPは守備に多くを委ねるものとし、「投手個人のBABIP＝チームのBABIP」を仮定します。言うまでもなく投手のBABIPとチームのBABIPとの間には実際には常に差がありますが、これが統計学的に見てサンプルサイズによる誤差で説明できるかどうかを検証の対象とするわけです。

　投手ごとの能力でBABIPに差がつくのであれば、チームの平均からの誤差で説明できるのは変です。仮に誤差で説明できるならば、能力でないのではないかという推論が成り立ちます。

　BABIPの式を定義しておきましょう。

　BABIP＝（安打－本塁打）／（打席－本塁打－四球－死球－三振）

　できれば打者が出塁することを意図していない打席である犠打は分母から除きたいところですが、投手については被犠打のデータが得られないので上記の式を使用します。いずれにせよ犠打がアウトになったインプレー打球であることは間違いありません（また、これはマクラッケンが使用した式でもあります）。

　「個人のBABIPとチームのBABIPの差」がサンプルサイズによる偶然の変動で説明できるものなのかというのを、当該のサンプルサイズにおけるBABIPの標準的な誤差を計算して検討します。式は「SQRT（チームBABIP×（1－チームBABIP）／個別BIP数）」で、個人のBABIPとチームのBABIPの差がこの偶然で起こりうる誤差の1.96倍より大きい（または-1.96倍より小さい）ということがたまたま起こる確率は5%程度しかないのでそういうサンプルがあればそれは偶然ではないとみなします。-1.96から+1.96までの間を信頼区間といいます。このあたりは統計学的な法則というか理論です（厳密じゃないでしょうが）。

　上記の　(1)運で起こりうる誤差を計算する　(2)個人のBABIPとチームのBABIPの差が誤差の何倍かを計算する　という手順を直近5年間、2005年から2009年までのBIP数が100以上の投手述べ770サンプルについて計算してみました。

　マクラッケンの当初の理論が正しいのであれば、BABIPの高低は投手が制御するものではないため、サンプルのうち信頼区間を外れるサンプルは5%程度に留まるはずです（BABIPが完全に運に基づいていても5%の外れは出ます）。

　結果は……

　信頼区間を外れたサンプル　54　／　サンプル全体　770

　信頼区間を外れたサンプルの割合＝7.01%

　誤差とするのに無理があるサンプルの割合は7%ということになりました。言い換えれば「93%の投手BABIPについては、チーム平均の誤差だとしてもさほど不思議はない」ということです。完全に誤差で片付けることは難しいのがわかりましたがそれでもこれはDIPSの理論を強力に支持しているように思われます。

　下の表は、対象とする最低限のBIP数ごとに、どれだけのサンプルが含まれるか、そのうち「個人BABIP－チームBABIP」が誤差の-1.96倍以下のものは何パーセントか、1.96倍以上のものは何パーセントか、信頼区間を外れるサンプルは上下合わせて何パーセントかをまとめたものです。

最少BIP数	サンプルサイズ	-1.96以下	1.96以上	信頼区間外
500	85	10.59%	0.00%	10.59%
400	178	9.55%	1.12%	10.67%
300	269	6.32%	1.49%	7.81%
200	398	5.03%	1.51%	6.53%
100	770	4.03%	2.99%	7.01%

　対象とする最少のBIP数を増やしていくと多少BABIPに運で説明しにくい偏りがある投手の割合が増えます。

　ただし「-1.96以下（BABIPが低く優秀）」な割合が増えて悪い方が減る変化に関しては必ずしも「やはり試合を任される良い投手たちはヒットを打たせない力があるんだ」という関係を意味するわけではありません。というのも、多く登板したり完投したりして多くのイニング数を任されるということは、普通は良い結果を出したことに原因があるからです。エース級の投手でもシーズン序盤にボコボコヒットを打たれればその年はローテーションを外して調整させられます。つまり、「多く投げる投手はBABIPが良い」のではなくて「BABIPが良い投手が多く投げる」面があるわけです。

　というわけで、これだけではDIPSの有用性を裏付けるデータにはなりませんが前掲の年度ごとの相関の資料も合わせると下のような結論が導けるのではないかと思います。とりあえずはこれが改めてDIPSとBABIPについて検証をしてみた結果です。

日本プロ野球においても多くの投手のBABIPはチームのBABIPの誤差の範囲である上に、再現性がない。

上記の事実により、投手のBABIPの大部分は投手個人の実力では制御されていない可能性が高い。

結果、BABIPを評価に含めないというDIPSの考え方は投手の評価としてノイズが少なく説得力のあるものである可能性が高い。

　一応付け加えておかないと怖いのがDIPSの話のデリケートなところですが、統計的に見ても「こいつは明らかにヒットを打たれにくい投手だな」という選手はいます。BABIPは運だけでは決して説明できません。それを否定する気は全くありません。しかしそういう投手が多いのか少ないのかということがDIPSの有用性を考える上では大切になるので、少なくとも条件を絞った上では具体的な数字を出しておこうというのがここでの試みです。「再現されないだけでBABIPは投手の責任・能力だ」という言い方もありそれはそれなのですが、結局プロのレベルではかなり似たような範囲に落ち着くことが多く短い期間での変動は能力を表すものさしとしてアテにならないのが統計的に確認できるということです。

　今回はシーズン単位で誤差を超える傾向が見られるかどうかを調べたことの結果であり、投手の通算成績などを調べていけばもっと強い傾向を見ることができると予想されます。

　なお、逆に被本塁打・与四球・奪三振が投手の能力とみなせるのかについて今回は検証を加えていませんが、野球の仕組みからしてほぼ守備が関わらないのは明らかですし年度ごとの相関関係の強さや投手ごとの偏りの大きさを見るにBABIPに比べれば遥かに投手ごとの能力とみなせると思われます。

　仮にA投手の防御率が3.00、B投手の防御率が4.00だったとしても、DIPS的にはB投手のほうが優秀でA投手の防御率はBABIPに頼ったものである場合、BABIPは再現が期待できないためB投手のほうが見込みが高いかもしれない、DIPSで投手を見るとそういう話になります。再現されないとしても結果的にBABIPが高かったならその年の評価（例えば年俸の査定）には値するのではないかという意見もありますが投手の責任でないものを投手の評価とするのは疑問ですしあくまで打球をアウトにしたのは野手であり、BABIPの数値だけからは投手が処理しやすい打球を打たせたのか野手が難しい打球を処理してみせたのかはわからないことから、事後の評価という観点からも注意が必要だと個人的には思います。

4.実用スタッツFIP

　私はこれまで「（13×被本塁打＋3×与四球－2×奪三振）／投球回＋3.2」といった形で計算する式をマクラッケンが開発した「DIPS」あるいは「DIPSERA」と呼んで使用してきました。しかしどうもマクラッケンはこういう式を定義したわけではないようで、このように簡単な形のものはTangotigerの仕事であるFIP（Fielding Independent Pitching）という式のようです※3（他にもほぼ全く同じ形で別の人が開発した式がありますが、ややFIPのほうが有名か）。

　式の内容としては細かいことを言わなければ混同しても問題ないように思われますしFIPはDIPSのひとつと言って差し障りないでしょうが、上記の形の式を使うのであればそこは作成者に敬意を表する必要があるでしょうから、今後サイトの表記を訂正したほうがいい部分があるかもしれません。

　そして、DIPSの理念を受け入れた上でFIPのような特定の式がどう機能するのか確認してみましょう。FIPの仕事というのは（BABIPを投手の評価とせず全投手で均一なものとみなし）投手の能力に基づく被本塁打・与四死球・奪三振だけでどれだけの働きをしているかを数値化することです。

　数値化は客観的で実態に即している必要がありますから統計的に導き出される得点期待値を利用します。基本の考え方は投手の被打撃成績をBatting Runsのような方法で得点化することです。

　0.46×単打＋0.75×二塁打＋1.03×三塁打＋1.40×本塁打＋0.30×四死球－0.27×アウト　※4

　まずは上記のように計算すれば、平均的な投手に比べて多く失った失点数の理論上の数値が出ます。しかしDIPSではBIPは均一と考えますから、平均的なBABIPと安打の種類の割合から計算しBIPの期待値増減をひとまとめにします。すると

　1.40×本塁打＋0.30×四死球－0.27×三振－0.04×BIP

　という式に変わります。

　これを防御率のように9イニングあたりの得点という形に変換してみましょう。単純に余剰失点を9イニングあたりに直せば「一試合あたりで平均的な投手に比べて何点多く失うか」がわかり、得点期待値の増減はリーグ全体でゼロになる相対値ですから、防御率のようにするには最後にリーグの平均防御率を足してやることで絶対的な数字が算出できます。

　（1.40×本塁打＋0.30×四死球－0.27×三振－0.04×BIP）×9÷投球回＋平均防御率

　リーグ平均の投手が一試合で4.20点とられるとすれば、リーグ平均に比べて一試合あたり0.50失点を少なくできる投手は3.70点の失点しか許さないことになるという当然の話です。

　ここで、BIPの期待値を基準に考えると、本塁打を打たれた場合-0.04に対して1.40の失点を許してしまいその差は1.44になります。同様に四死球も0.34、三振も-0.23、というようにBIPとの差を織り込んでしまえばBIPをわざわざ式に入れる手間が省けさらに以下のように変形します。

　（1.44×本塁打＋0.34×四死球－0.23×三振）×9÷投球回＋平均防御率

　9イニングに換算する際の「×9」も、どうせ毎回同じことを計算するのだから分配法則に従って最初からRuns Valueに掛け合わせておくとします。

　（13.0×本塁打＋3.1×四死球－2.1×三振）÷投球回＋平均防御率

　ところでこの計算では、BIPで防げる失点をゼロとみなしていることから平均的な投手でも平均防御率より高く出てしまいますので、その分を定数として減算して補正します。その補正値を仮に1.00として、平均防御率を4.20だとすれば

　（13.0×本塁打＋3.1×四死球－2.1×三振）÷投球回＋4.20－1.00

　当然最後の定数はまとめてしまって問題がないですし、影響が少ないRuns Valueの小数点以下を省略してしまえば

　（13×本塁打＋3×四死球－2×三振）÷投球回＋3.2

　となります。これで、FIPと同じ形が導けました。一見係数がざっくりしているとかBIPを無視しているというようにも見えますが、一応式としてはLinear Weightsに基づいて論理的に作られていると評価できます。別にTangotigerもこれこそが適切な式だとしているわけではなくて簡単に計算できるDIPSの評価式を提供しているだけであり、簡単なわりにはよく機能します。

　Runs Valueに関しては米国産であるBatting RunsやXRの日本への当てはまりの良さを見ても特に日本へ適用することに問題がないだろうと思いますし、それ以外の計算は特に問題なく各々の判断で「日本版」が算出できるものです。FIPは与四球を使用していますがTangotigerによればここから故意四球を除いたり死球を加えたりするのは自由にしてくれたまえということですし、最後の定数はリーグごとに算出していくことも考えられます（リーグ平均防御率から最後の定数を除くFIPを引くだけです）。

　私から見て疑問であるように思われるのは、失点の期待値については守備から独立した数値を算出しているにも関わらずアウト数（投球回）は現実に記録された数値が使用されているところで、ここはさほど手間も増やさず補正できるので丁寧に計算したほうがベターではないかと思っていますが、まぁ実際のところそれによる問題は非常に小さいです。

　ちなみに日本で直近5年（2005-2009）くらいを見ると、防御率が平均3.81、失点率4.19、FIP（除く定数項）0.80ですから、防御率のスケールに合わせたいのであれば3、失点率のスケールに合わせたいのであれば3.4を足すといいかと思われます。「（リーグ平均FIP－FIP）×投球回」でRSAAのように差をとる評価をする場合は、ここの大きさは関係ありません。

5.まとめ

　ボロス・マクラッケンが最初に行ったことは、投手の成績の中から「守備に依存している数字」と「守備から独立している数字」を分けることでした。DIPSの本質はそこです。その「守備から独立している数字（＝被本塁打・与四球・奪三振）」を簡単に防御率の形で評価できるように作られた式がFIPです。

　その実用性に関しては色々と疑問が呈されてきましたが、日本でもBABIPはやはり守備や運の要素が強いということを認めざるを得ないと思われます。ある程度特殊な投手がいることは確かですし、本塁打にパークファクターの影響が強いなどの問題はありますが、それでもDIPSは基本的に有用なものであると考えます。

　ちなみにDIPSは結果としてBABIPだけでなく「イベントの発生順」のばらつきも排除しています。つまり、「本塁打　四球　三振　三振　三振」というイニングと「四球　本塁打　三振　三振　三振」というイニングでは失点数は異なるわけですが、DIPSでは同一の評価になります。打たれたわりにどれだけホームインさせずに抑えるかということはLOB%（残塁率）という指標に現れるところなのですが、これもBABIP同様非常に再現性の低いものであり、この意味でもDIPSはノイズを排除する形になっています。

※1　Voros McCracken, "Pitching and Defense," Baseball Prospectus, 2001

※2　有名なのがTom Tippettによる以下の論文です。BABIPが優秀な投手などは無視できない程度に存在することをMLBの歴史的なデータから示しています。しかし、それでもBABIPの年度ごとの相関は非常に弱く、被本塁打・与四球・奪三振などの守備に依存しない数字に比べればBABIPには大きく運が左右するといった点については結果的にVoros McCrackenの研究を精査・支持するものとなっています。

Tom Tippett, "Can pitchers prevent hits on balls in play?" Diamond Mind Baseball, 2003

※3　Tangotigerは以下のページでDIPSの考え方に基づいてFIPを定義しています。

Tangotiger, "Defensive Responsibility Spectrum," Tango on Baseball

また、不勉強なためこの記事を書いてから知りましたがTangotigerは今回の記事とほぼ同じような手法を用いた検証を行っています。

Tangotiger, "DIPS Bands," Tango on Baseball

※4　FIPの計算式の組成については、Kincaidのブリーフィングを参考にしました。

Kincaid, "Evaluating Pitchers with FIP, Part I," 3-D Baseball, 2009

トップ　＞　分析・論考　＞　DIPS再考