「最近3試合の打率」他

1.好調なのか偶然なのか

 データを扱うサイトの個人成績の欄や野球中継などでよく「最近3試合の打率」なんかの表示があったりします。前日までの直近3試合で打率.500だったりするとその日もいかにも打ちそうで、期待が持てるぞというような雰囲気を醸し出します。解説者の言説からするに、シーズンのそこまでの打率は別として、ここ数試合あまりにも打っていないのであれば代打を送ったほうがいいなどの目安になるような扱いを受けることもあるようです。
 とはいえ1試合4打数として3試合でも12打数ですから、統計学的に見るとあまりにもサンプル数が少ない点は気になります。数試合で多少調子が悪くても、それまで全体として打率の高い打者はやはり期待できるのではないかという意見もあり得ます。
 では、あくまで「その日の打率(ヒットの打ち具合)」を予測することを考えた場合、単純にシーズンの打率で予測するのに比べて最近3試合の打率で予測するほうが精度が高いのでしょうか。高いとすれば、どのくらいなのでしょうか。



2.検証

 上記の問題にあたり、次のような手順でデータを検証してみました。
 以下に打者ごとに算出した結果を示します。

 シーズン通算:(前試合までのシーズン通算打率−当日の打率)の標準偏差
 最近3試合:(前試合まで直近3試合の打率−当日の打率)の標準偏差
 最近5試合:(前試合まで直近5試合の打率−当日の打率)の標準偏差
 3-判定:「最近3試合」が「シーズン通算」より小さければTRUE、そうでなければFALSEと表示
 5-判定:「最近5試合」が「シーズン通算」より小さければTRUE、そうでなければFALSEと表示

選手シーズン通算最近3試合最近5試合 3-判定5-判定
ラミレス.221.246.242FALSE FALSE
内川 聖一.232.273.262FALSE FALSE
小笠原 道大.263.303.286FALSE FALSE
坂本 勇人.241.273.246FALSE FALSE
井端 弘和.233.256.248FALSE FALSE
青木 宣親.246.281.261FALSE FALSE
和田 一浩.239.276.257FALSE FALSE
宮本 慎也.232.266.255FALSE FALSE
東出 輝裕.235.259.248FALSE FALSE
阿部 慎之助.291.324.312FALSE FALSE
亀井 義行.275.314.300FALSE FALSE
森野 将彦.258.291.278FALSE FALSE
鳥谷 敬.233.264.248FALSE FALSE
ブランコ.227.256.246FALSE FALSE
関本 賢太郎.274.310.301FALSE FALSE
福地 寿樹.227.250.239FALSE FALSE
平野 恵一.236.270.255FALSE FALSE
荒木 雅博.236.273.253FALSE FALSE
ガイエル.257.299.279FALSE FALSE
金本 知憲.247.284.266FALSE FALSE
新井 貴浩.221.257.242FALSE FALSE
田中 浩康.289.321.305FALSE FALSE
栗原 健太.251.265.258FALSE FALSE
川島 慶三.248.284.271FALSE FALSE
吉村 裕基.237.273.257FALSE FALSE
相川 亮二.219.252.228FALSE FALSE
マクレーン.242.274.262FALSE FALSE
石川 雄洋.239.265.250FALSE FALSE
赤松 真人.267.301.288FALSE FALSE
平均.245.278.264 FALSEFALSE




3.結果の考察

 結果から、当日の打率を予測するには対象とした全ての打者について「最近3試合の打率」や「最近5試合の打率」に比べてシーズン全体の打率を用いるほうが精度が高いことがわかりました。
 仮に「シーズン通算」が本来は他の推定方法と比べて差がないまたは精度が低いとすると偶然最も誤差が小さくなる確率は1/3以下ですが、それが29サンプル連続で起こる確率は極めて低いため、サンプルによる偶然ということは考えにくいと思われます。
 従って、当日よく安打を打つかどうかを予測するのにシーズンの通算打率ではなく「最近3試合の打率」や「最近5試合の打率」を用いることは単純に間違っています。控えめに言っても、少なくとも2009年セ・リーグの規定打席到達打者については間違っていました。
 精度の差の大きさは問題にするほどではなく、「最近3試合の打率」を参考にするとしてもそれだけを頼りに予測を行う観戦者も少ないと思われることから、このような数字が出回ることの問題は取り立てるほどのものではないと思われます。それでも基本的に「少ないサンプルのデータはあてにならん」ということを積極的に意識しておくことは大切です。楽しみのために見ることは自由ですがそれにどのような意味を見出すかには注意が必要ということです。

 なぜこうなるのかといえば、基本的には大数の法則に類する考え方で説明がつくだろうと思います。つまり、通常は一定の平均的な(選手の実力の)範囲の出来事が起こる確率が高いわけです。だからこそ試合ごとにばらつきがありながらも各選手の打率は試合数を経るごとに固有の値に収束していくわけで、数試合の間でたまたま良いことや悪いことが集中してもその後はまた平均的な成果を得る確率が高いためそれを真に受けた予想をすると誤差になる、と。
 ただしこのことは好不調の存在を否定しませんし「数試合での良好な成果は調子が良いことを意味しない」と断じるものでもありません。良い結果が出ていて調子が良いときもあるだろうし、悪い結果が続いているけれども調子が良いときもあるだろうし、悪い結果が出ているけれども調子が良いときもあるだろうし、端的に言えば「数字からはわからない」ということです。セイバーメトリクスでは基本的に、数試合の結果から調子の良し悪しを判断し戦術に活かすことはほとんどできないとされています。※1
 少ない記録から判断するくらいであれば、主観的な観察による判断をしたほうがいいかもしれません。その際、どうしても結果が出ていないと悪く見えてしまいがちな点が厄介なところなのですが。



4.月別成績について

 話は変わって、これまたよく扱われる月別の成績について。
 例えば

 4月の打率 .196
 5月の打率 .345
 6月の打率 .298
 7月の打率 .242

 といった成績があるとき、シーズンを通した選手の調子を語るときに持ち出して「シーズン序盤つまづいて、5月は調子がよかったんだけれども、夏場に入ってまた調子を落としている」なんて解説がついたりします。月ごとの打率にばらつきが大きい打者は好不調のムラが大きい打者だというふうに言われたりもします。
 これについても、ただ単にサンプル数が少ないという問題はあります。しかしそれだけでなく、恣意的な区切りが場合によっては結構キツくでてしまう、ということにも注意が必要です。次の表を見てください。



 打者A・打者Bともに平均的に出場し続けている野手であることを仮定すると、月別の安打数はかなり極端に出ていますが、実は30日程度の期間で好調と不調を繰り返すという意味では全く同じ打者となっています。合計の安打数も同じで、単に区切りがどこに入るかによって全く違う安定度に見えているだけです。こういうとき、月別の打率を見て打者Aのほうがムラがある打者であるとするのは必ずしも適切だとは言えないでしょう。
 あり得ないほど極端なモデルだといえばそれはそうなのですが、定められた月の区切りという枠組み自体が野球のシーズンにとって特に意味のあるものではないことも確かであり、月別の成績を扱うときにこのようなことを認識しておくことは大切です。
 開幕ダッシュでよく打つことがいいかもしれないとかは別の話ですし、これがシーズンの開幕を3月後半であると考えたり開幕から15日ごとの区切りを想定したり週別の成績を想定したりしても同じことで、要は期間による区切りというのが必然ではなく物事を気まぐれに映し出してしまうかもしれないということです。








※1 TangoらによるTHE BOOKは、数試合良い(悪い)結果を残しているデータがその先も傾向を継続するかの予測に使えるかについての価値をやはり(特に打者について)かなり低いものだと評価しており、そのことに関する内容の章は「WHEN YOU'RE HOT, YOU'RE HOT(あなたはホットなときホットなのだ)」というやや嘲笑的な(?)タイトルで飾られています。
Tom Tango, Mitchel Lichtman, Andrew Dolphin, THE BOOK Playing the Percentages in Baseball, 2007, pp.53-68



トップ > 四方山話 > 「最近3試合の打率」他

inserted by FC2 system