イチからわかるwOBAのすべて
2013.12.1 by Baseball Concrete

 近年米国のセイバーメトリクス系ウェブサイト等で非常によく使われる打撃指標にwOBA(Weighted On Base Average)というものがあります。よく登場する指標については是非きちんと中身をおさえておきたいところで、今回はこのwOBAの紹介をしたいと思います。
 もっとも分析の世界にも流行り廃りはありますし、新しい指標の登場で今後使われなくなっていく可能性はあります。しかしそれでもwOBAはセイバーメトリクスの基本をおさえて合理的に成り立っている指標であり、応用範囲も広く、そのwOBAの内容を紹介することはその他の色々な指標の考え方に馴染んでもらうことにも間接的に繋がるのではないか、という気がします。
 そういったわけで、既に色々なところで紹介はしてきているのですが、細かいことも含めて改めてwOBAの説明を行うこととします。

1.定義

 まずwOBAとは何かということですが、wOBAは打撃成績が打席あたりの得点創出という意味でどれだけ有効なものかを示す指標です。簡単に言えば打率や出塁率と同じように打撃の指標で、高いほどチームの得点を増やすのに有効な打撃がなされていることを意味します。
 wOBAはTom M. Tango・Mitchel Lichtman・Andrew Dolphinという三名のセイバーメトリシャンの共著である『The Book: Playing the Percentages in Baseball』という書籍でその存在が世に出ました。開発者はTom Tangoです。オリジナルの計算式は以下のようになります。

 wOBA = (0.72×(四球−故意四球)+0.75×死球+0.90×単打+0.92×失策出塁+1.24×二塁打+1.56×三塁打+1.95×本塁打)/打席  ※解析の目的に応じて分母の打席数からは犠打、故意死球等を除く

 wOBAのリーグ平均値は出塁率と同じになるように設計されていて.330あたりの数値になります。出塁率は英語では「On Base Percentage」ですが、wOBAはもはやパーセンテージを表すものではないため、「(Weighted) On Base Average」という名称になっています。日本語にすれば「加重出塁平均」でしょうか。

2.目的意識

 そもそも何故wOBAは誕生したのでしょうか。開発者のTom Tangoによれば、wOBAは著作『THE BOOK』製作過程での必要性から作られたものとされています。
 『THE BOOK』はいわゆる野球のセオリーを分析した著作です。バント・打順・盗塁・敬遠・勝負強さ・プラトーンなどについて、その実態を定量的に分析しています。そういうことを分析してみようと思うと、例えば次のような問いに答える必要が生じてくるでしょう。


 こういった疑問は別に『THE BOOK』執筆に特有のものではなく、野球ファンとして一般的に抱くものでしょう。これらの問いに答えるためには打撃のパフォーマンスの量的な定義が必要になります。
 仮に勝負強さを検証しようと思ったときに、ある打者が接戦でない場面でヒットが何本、四球がいくつ、接戦の場面でヒットが何本、四球がいくつ、というデータがただ並んでいても、パフォーマンスにどう差が出ているのかを評価することができません。そこでwOBAという指標を通じてそれぞれの場合で打席の結果が得点の創出という意味でどれだけ有効かを測るわけです。
 『THE BOOK』の紹介では、出塁率と長打率に触れてからwOBAを出しています。出塁率はいい指標だけどどれだけ進塁したかを教えてくれない。長打率もいい指標だけど四球を無視する。すなわちリサーチの目的に対してそれぞれに不十分な面を持っている。そこで両者を合理的に統合した包括的な指標を作ろう。それがwOBAになります。そしてwOBAの値が優れたものであるか否かをわかりやすくするため、平均値を出塁率に等しくするための補正が施されます。
 なお打率は言及するまでもなくナンセンスなものとして捉えられていた(少なくともTangoの目的からすると四球を含める、分母が打数ではなく打席であるものが必要だった)ようです。
 また、単にLWTSを打席で割るのではなく出塁率の形式に合わせているのは、様々なケースについて算出されるwOBAの数値の差を標準誤差の観点から評価する際に出塁率のように出塁かアウトかという二項の結果として表される指標と同じような形で扱えるようにしたかったという技術的な事情もあったようです。
 一般のユーザーにwOBAが使用されるのは多くの場合が「あの打者とこの打者のどっちがすごいか」という個別的な比較ですが、元を辿ればwOBAはそういう使用を想定して作られたわけではなくもっとマクロな視点で分析をスムーズに進めるためのツールという側面が強いです(だから個々の比較に使ってはいけない、ということではなく)。

3.計算式の成り立ち

 次にwOBAの計算式がどのように導かれるのか、詳しく見ていきましょう。
 wOBAの一番の基礎には、まず得点期待値があります。得点期待値は、無死一塁、一死二三塁、二死二塁……など起こり得る状況について、その局面から平均的に見込まれる得点を集計した値です。どの年度・リーグを対象とするかによって数値は変わってきますが、以下に『THE BOOK』で使われている数値を引用します。


表1 1999年から2002年までのMLBの得点期待値表
アウト\走者走者無し一塁二塁三塁一・二塁一・三塁二・三塁満塁
無死0.5550.9531.1891.4821.5731.9042.0522.417
一死0.2970.5730.7250.9830.9711.2431.4671.650
二死0.1170.2510.3440.3870.4660.5380.6340.815
(出所)Tom Tango, Mitchel Lichtman, Andrew Dolphin, THE BOOK Playing the Percentages in Baseball, 2007, p.19を元に筆者作成。


 この得点期待値表を使うと、シングルヒットや四球や凡打などの各種の出来事がどれだけ(平均的な環境を仮定した場合の)得点の増減に影響するかがわかります。例えば無死走者なしの状況から平均的に見込まれる得点は0.555点であり、ヒットで無死一塁になると0.953点に上がります。この場合のシングルヒットは0.953−0.555=0.398点の価値があったことになります。もし一死一塁(0.573)からシングルヒットが出て一死一・三塁(1.243)になった場合には0.670点の価値です。
 そして発生したイベント(ヒットや四球などの出来事)ごとにこのような計算を行い得点期待値の変化を合計、その後発生回数で割ると「そのイベントは平均的に得点の見込みを何点高めるか」がわかります。


表2 各イベントごとの得点価値
項目得点価値
非故意四球0.32
死球0.35
単打0.47
二塁打0.78
三塁打1.07
本塁打1.40
アウト-0.30
(出所)前掲書p.28から筆者作成。

 二塁打であれば、その発生は、平均的なチーム環境と対戦相手を仮定した場合に、平均的な打席結果に比べてひとつあたり得点を0.78増やすということになります。アウト(凡打、三振)は平均的な場合と比べて得点の見込みを減らすためマイナスの価値です。
 ここまでで出て来た数字を係数として打者の打撃成績を評価するといわゆるLWTSという、各種項目に得点価値を乗じて選手を評価する方式になります(それを打撃成績に適用して打者の評価指標とする場合特にBatting Runsと呼ばれます)。LWTSはPete Palmerらによって1980年代中盤には完成されていた理論です。

 LWTS(Batting Runs)=0.32×(四球−故意四球)+0.35×死球+0.47×単打+0.78×二塁打+1.07×三塁打+1.40×本塁打−0.30×アウト

 重要なポイントですが、打撃の有効性の量的な尺度としてはこのLWTSで実質的に成立しています。しかしwOBAは出塁率のように扱える打席あたりのわかりやすい評価にするため、評価の実質としてはLWTSに基づきながらも式としての形を少し変えていきます。ここからがwOBAのキモです。
 まず出塁率はアウトをゼロとしてカウントしているため、それに合わせてLWTSの係数をアウトをゼロとする数字に変えます。単打であれば0.47点得点を増やし、アウトになる場合を基準とすると0.30点のマイナスを防いでいるため差し引き0.77点の価値があると考えます。すなわち全ての係数にアウトの得点価値の絶対値を足すわけです。

 {(0.32+0.30)×(四球−故意四球)+(0.35+0.30)×死球+(0.47+0.30)×単打+(0.78+0.30)×二塁打+(1.07+0.30)×三塁打+(1.40+0.30)×本塁打+(−0.30+0.30)×アウト}/打席
 =(0.62×(四球−故意四球)+0.65×死球+0.77×単打+1.08×二塁打+1.37×三塁打+1.70×本塁打)/打席


 LWTSの係数をこのように変え、最後に打席数で割る計算にすると、打席あたりの有効性をわかりやすく表す指標になってきます。ただしこの係数の元となった1999年から2002年までのMLBでその数字を計算すると平均値は.300になり、出塁率の平均値より低くなります。そこで、平均値を出塁率に合わせるために全体を1.15倍します(当然、上記の割り算を出してから1.15を掛けても各係数を1.15倍しておいても結果は変わりません)。

 wOBA = (0.72×(四球−故意四球)+0.75×死球+0.90×単打+0.92×失策出塁+1.24×二塁打+1.56×三塁打+1.95×本塁打)/打席  ※解析の目的に応じて分母の打席数からは犠打、故意死球等を除く

 これが冒頭にも示した、最終的なwOBAの式です。ステップ・バイ・ステップで見てきたのでかえってわかりにくかったかもしれませんが、端的に骨格を見れば次の式のような仕組みになっています。

 wOBA=wOBAスケール×(LWTS/打席+アウト価値)

 ここでwOBAスケールというのは「出塁率の平均値」と「出塁率に平均値を合わせる前のwOBAの平均値」の比率です(前述の計算であれば1.15)。wOBAスケールとアウト価値はリーグの全ての打者にとって同一の値であり、あくまでwOBAの高低は打席あたりのLWTS(Batting Runs)の優劣だけで決まることがわかります。LWTSからwOBAに持っていく過程が少しややこしく感じたとしてもそれはあくまで表面的に見た目を変えるためのものであって、「wOBAの実質的な中身はBatting Runsを打席で割ったものである」というのは覚えておくといいかもしれません。

 以下、計算式に関してよくある疑問に簡単に触れておきましょう。

(1)何故失策出塁が含まれるのか?

 打者ごとの失策出塁の多さには年度ごとに相関があり(多い打者とそうでない打者がいる)ある程度打者の能力であるとTom Tangoは指摘しています。俊足でゴロを多く打つ打者は性質的に失策で出塁することが多いと考えられますが、失策を凡打扱いするとこのタイプの選手の得点への貢献を系統的に過小評価することになります。
 また筆者としては、守備側が安打を阻止できなかったという同一の事実について記録員の判断によって失策が与えられるか否かによって事象の描写が変わることはそもそも適切でないと考えます。打者が塁に出て得点期待値に影響を与えているのですから、このことは式に含めるほうがグラウンド上で起きているプレーをうまく描写することができる(説明力が強まる)はずです。

(2)何故死球の係数が四球よりも高いのか?

 四球と死球は塁状況への影響としては同じ種類のプレーであるように思われますが得点価値が違います。これは実際にそれらが発生した状況から得点期待値の変動を計測していることによります。死球はランダム的に発生するのに対して、四球はある程度選択的な意図が働く(敬遠気味の四球などもある)ため守備側にとって痛手とならない場面での出現が相対的に多くなります。そのため発生回数あたりの平均値をとるとどちらかというと四球のほうが係数が小さくなります。
 このからくりは、どの程度打者の能力を反映しているかなどの価値判断とは関係ないわけですが、ちなみに調べてみると死球の多さは年度ごとに相関があり打者の能力であると考えられます

(3)何故犠打と故意四球が除外されるのか?

 強打者は自身の力によって敬遠を獲得しているのだからこれを評価するべきではないかという考え方もあり得ます。しかし敬遠や犠打は戦術的なものであり、式に含めると敵・味方ベンチの判断の巧拙によって評価が歪められてしまうため個人の働きを見るときには計算に含めるのは馴染まないと考えられます。
 また『THE BOOK』における戦術の分析上、打力の弱い打者は犠打をさせるべきか否か、どの程度の強打者なら歩かせるのが有効か、などを論じるときに、尺度として利用するwOBAにそもそも犠打・故意四球が入っていると都合が悪いという理由があると思われます。
 しかしこれははっきりした答えがあるものではなく分析の目的によるので「故意四球や犠打を計算に含めるべきか否か」という問いに対する答えは「場合による」になります

(4)何故打率のスケールに合わせないのか?

 わかりやすいスケールにするなら平均値を打率に合わせてくれという声も多いですが、この点Tom Tangoは、打率はこの先絶滅するかもしれないけど出塁率は本質的な数字であって常に存在する、という理由でこれを拒否しています。

(5)何故パークファクター補正をしないのか?

 例えばA球団の打者とB球団の打者のパフォーマンスをwOBAで比較するといった場合には本拠地球場による有利不利を考慮する必要がありますが、『THE BOOK』はMLB全体の統計からセオリーについて検証するという性格の分析が主だったため、パークファクターは偏りとして影響してこず、基本的に補正をする必要がなかったという理由です。Tom Tangoとしては、補正したい人はすればいいというスタンスです。

(6)盗塁を足すことはできないのか?

 『THE BOOK』の分析では攻撃全体の有効性を測る目的ではなく打席の結果に注目するために使われていたので盗塁・盗塁刺は含められていませんでしたが、含めて計算することもできます。その際、盗塁+0.25、盗塁刺-0.50という係数が使われることが多いです。

(7)OPSではダメなのか?

 打撃を得点とのつながりで総合的に評価する指標としてはOPSが有名です。しかしwOBAから見るとOPSは出塁を過小評価していることと単位が得点に基づいていないという問題があります。ちなみに『THE BOOK』では「(2×出塁率+長打率)/3」という計算式がwOBAの良い近似になるとしています。

4.応用式


 wOBAは簡単に色々な評価に応用できることが知られており、その利便性が一般的に広く利用される理由にもなっています。よく使われるものを見ていきます。

(1)wRAA(Weighted Runs Above Average)

 wRAA=(wOBA−リーグ平均wOBA)/wOBAスケール×打席

 wRAAは「同じ打席数をリーグの平均的な打者が打つ場合に比べてどれだけチームの得点を増やしたか」を示す指標です。平均的な打者のwRAAはゼロになります。上記の式の通り、wOBAに基づいて算出されます。wOBAはLWTSを打席で割ってwOBAスケールを掛けるという操作をして導き出されたわけですが、wRAAはその工程をまた逆に辿ることでLWTSを再生するという意味合いの式になっています。すなわち意味としてはwRAA=Batting Runsです。
 例えばリーグのwOBAが.330のときに.353の打者は、打席あたりで.023だけwOBAの優位があります。この.023というのはあくまでもwOBAの単位であってそのまま得点価値を表すわけではないので、wOBAスケールが仮に1.15であれば.023を1.15で割った.020が打席あたりで平均に比べて多く生み出す得点です。最終的に打席数が500なら、500に.020を乗じた10点分、500の打席を通じて得点を増やしたと評価されます。
 このwRAAは打席あたりの能率の高さと打席数という仕事の量を両方考慮するため打者の最終的な貢献度を測る際に非常に有効です。日本でよく見かけるRCAA・XR+などと表しているものは同じです。

(2)wRC(Weighted Runs Created)

 wRC={(wOBA−リーグ平均wOBA)/wOBAスケール+(リーグ総得点/リーグ総打席)}×打席

 wRCは対象の打者が創出した絶対的な得点数を表す指標です。計算式の意味としては上のwRAAに「同じ打席数に見込まれる平均的な得点数」を加算した形になっています。
 リーグの打席あたり得点が.110で打席あたりの得点創出の多さが.020であれば、その打者は一打席に.130の得点を生み出すことになります。500打席出場していれば、65得点です。数字の趣旨としてはBill JamesのRC(Runs Created)と同じだと考えればいいでしょう。
 wOBAがリーグ平均程度だと打席数が多くても少なくてもwRAAでは違いが出ませんがwRCでは打席数が多いほど数字が大きくなるため、地味にチームに貢献している打者などを評価することができます。
 基本的にチームの全ての打者のwRCを合計すればチーム総得点に近い値が出ますし、リーグのwRC合計はリーグの総得点数に正確に一致するという(計算式からごく当たり前ながら)キレイな性質を持っています。

(3)wRC+(Weighted Runs Created Plus)

 wRC+=100×{(wRAA/打席)/(リーグ総得点/リーグ総打席)+1}

 wRC+は打席あたりの得点創出の多さを、100をリーグ平均とした相対値で表す指標です。wRC+が120なら一打席で生み出す得点がリーグの平均的な打者に比べて20%多く、90なら10%少ないことになります。
 打席あたりの有効性を表す点はwOBAと変わりませんがリーグ内の相対値として補正されている点と(この数値を示しているFanGraphsなどに詳しい方法は書かれておりませんが)パークファクター補正を施されているという理由によって打撃力を公平に比較するためには非常に優れた指標であるとされます。

(4)Standard wOBA

 これはwOBAの応用ではなく少し違う角度からのwOBAの定義です。
 上で一応wOBAの計算式を導出しましたが、wOBAの係数というのはあくまでも得点期待値に基づいたものであって、得点期待値は年度やリーグが変われば多少変動するものです。その結果wOBAの係数も、細かいことを言えば年度・リーグごとに最適なものが存在するはずで調整が必要ということになります。
 しかしいちいち細かいことを気にするのは面倒なので「とりあえずはこれが基本形」という式があれば便利です。そこでTom TangoはwOBAの「スタンダード」バージョンを定義しています。
 打席の結果だけに注目する「ベーシック・バージョン」と盗塁も考慮する「スピード・バージョン」のふたつに分かれます。

 wOBA(ベーシック)=(0.7×(四球−故意四球+死球)+0.9×(単打+失策出塁)+1.3×(二塁打+三塁打)+2.0×本塁打)/(打席−故意四球−犠打)

 wOBA(スピード)=(0.7×(四球−故意四球+死球)+0.9×(単打+失策出塁)+1.25×二塁打+1.60×三塁打+2.0×本塁打+0.25×盗塁−0.5×盗塁刺)/(打席−故意四球−犠打)

 手元のデータに失策出塁がない場合には単にそれを無視し、あるいは四球と故意四球が区別されていない場合にはその区別を無視すればいいとされています。
 このスタンダード・バージョンは計算が簡便だということもさることながら、アウトをゼロ、出塁の平均価値を「1.0」とした場合に四球は概ね70%の価値があるんだなといったことがわかりやすく、モデルとして親しみやすい点が優れているように思われます。
 wOBAの係数が厳密に言えば年度ごとに変わるといってもその係数の変化は基本的に微々たるものであるため、スタンダード・バージョンを使用したとしても失われる正確性というのは量的には小さいです。試しにFanGraphsのデータを使って2013年200打席以上出場した全ての打者を対象に通常のwOBA(FanGraphsは年度ごとに係数の調整をしています)とベーシック・バージョンの関係を見てみると、決定係数は99.8%、二乗平均平方根誤差は.002でした。この誤差は、wOBAスケールを1.15、打席数を500としてwRAAの評価に直した場合に1点に満たないものです。要するに係数を小数点以下第2位までにしようが第1位にしておこうが結果はほとんど変わらないということです。
 また厳密に言えば常に最適な係数を探るべきなのはFIPも同じで、そうであるにも関わらずFIPは本塁打・四球・三振について13・3・-2という係数が一般的に用いられているところからしても、wOBAに「一般的な」係数を当てはめて用いることは無理のないところだろうと思われます(当方のブログ記事もご参考までに)。

(5)WAR(Wins Above Replacement)

 最後に、これは特にwOBAの応用で式が導けるというわけではないですが、現在セイバーメトリクスで最重要視されている指標にWARというものがあります。WARは選手の貢献度を総合的に評価するものですが、その算出の打撃部分にはwOBAが用いられています(FanGraphsのWAR及びBaseball ReferenceのWAR)。
 具体的にはwOBAをwRAAにしてパークファクターの補正をする形で使用されています。wOBAが各出塁項目に係数を掛けるだけという簡単な指標でありながら高い精度を誇ることが認められている証左と言えます。

5.wOBAを見る

 実際にwOBAを閲覧しようと思ったら、MLBに関してはFanGraphsが全選手のwOBAを掲載しています。FanGraphsのwOBAは年度ごとに係数を調整しているため各選手の得点への影響を示すものとして精度が高いと考えられます。また、wRAAやwRCなどの指標も網羅的に掲載されています。
 目にするwOBAをどう評価すればいいのかということですが、FanGraphsの用語解説によれば一般的には以下の表のような評価ができるとされています。


表3 wOBA評価の目安
評価wOBA
素晴らしい.400
非常に良い.370
平均以上.340
平均的.320
平均以下.310
悪い.300
非常に悪い.290
(出所)wOBA(FanGraphs)から、項目名を和訳。

 だいたいの分布を掴むという意味で上記表のような価値判断も有益ですが、wOBAは得点という意味のある単位をベースにしているため、最終的なインパクトを測るためにはwRAAなどに変換して得点にどれだけ増減を与えているかを見るのがいいでしょう。

6.信頼性と限界

 wOBAは打撃の有効性の指標としてどのくらい信頼を置いていいのでしょうか。基本的にはLWTSという理論的基礎を持っているため、打者の打撃をどれだけ得点に有効なものかを評価する指標としては筋が通っていると言えるでしょう。各イベントに対して平均的な得点期待値の変動を見込んでいるため、実質的にはチームの打線が平均的だと仮定した場合の得点への影響を評価していることになります。実際に打席に入ったときに走者が居るかどうかや自分が出塁したときに後続の打者に還してもらえたかどうかに左右されないため、打者個人を評価する方法としては公平性が高いと言えます。
 チームの得点を予測する精度に関しては、1953年から2008年までのMLBのデータによって検証を行ったColin Wyersの研究によれば、Runs CreatedやBase Runsなどより多くの項目を使用しより複雑な計算を用いる得点推定式と比べて遜色ない精度であることが示されています。
 そしてwOBAの高低がどの程度打者の能力によって決まるかついては、ある年のwOBAと次の年のwOBAの相関を見るという手法によって探ることができます。2001年から2008年までの間に連続した年でそれぞれ300打席以上出場した打者を対象に指標の相関を測ったBill Pettiの研究によれば「ある年のwOBA」と「次の年のwOBA」の相関係数は.61でした。
 wOBAの理論的な限界としては、各イベントに対して常に一定の得点価値を見込む加算式であるというLWTSの限界がそのまま当てはまります。野球の得点は線形に成り立ってはおらず非常に優れた打者がいると平均的な得点価値の加算分以上に得点が増大するという性質がありますが、wOBAはこれを描写できません。しかしこれはあくまでも性質としての理論的な問題で、実際には非常に極端な場合にごくわずかな誤差が生じるというレベルのものです。チームの得点の予測でも高い精度を誇ったように、現実的にはほとんど問題になりません。
 単純な加算式にすることで精度ではほとんど犠牲がないのに対して取り回しの良さから得られる利益は極めて大きく、このあたりがwOBAの人気の理由になっているものと考えられます。
 なおwOBAは前述のように、打者を「平均的な環境」を仮定して評価する指標です。そのため、各イベントの発生した状況を区別しません。例えば初回のホームランと9回裏のサヨナラホームランのインパクトを区別しないわけです。したがってWPAのように個別のプレーのインパクトを考慮したい場合にはwOBAそのままでは使えません。もちろんこれはwOBAの欠陥や問題点ではなく純粋に指標の意図の問題です。

7.読み方

Sesame Street - Monster in the Mirror (celebrity version)(YouTubeリンク・音量注意)





トップ > 四方山話 > イチからわかるwOBAのすべて

inserted by FC2 system