⓪本記事の3行要約
- 送りバントの実証分析例から間違った比較の罠を解説する。
- 間違った比較により送りバントの影響を過小評価される可能性を解説した。
- 今回の間違った比較は効果の符号に影響しない点を解説した。
➀理想的な比較について
-(1)統計学における理想的な比較とは
統計学において、対照実験から得られたデータの比較が最も理想的です。つまり、全く同じ状況で介入の有無のみが異なる状況を用意し、それらの間でデータを比較するというものです。これは、非実験データにおける分析でも同様です。あるデータには介入された場合のと介入されなかった場合の結果が存在し、これらの差に介入の真の効果があると考えます。なお、この考え方をポテンシャルアウトカムフレームワークと呼びます
-(2)反事実の問題
しかし、理想的な比較に必要なデータは反事実(実際には発生しない)のため観測不可能な場合があります。例えば、2021年度の原監督の監督能力を検証したい場合には、原監督と他の監督が巨人の指揮を執ったときのデータが必要となります。しかし、複数の監督が同時に同一チームの指揮を執ることは不可能なので、このデータは片方しか得られません。すると、正しい比較ができなくなってしまいます。
-(3)データ収集の問題
また、モデルの定義に合致したデータが得られない場合もあります。例えば、作戦としての盗塁効果を検証する場合には、盗塁サイン時の牽制死を考慮した盗塁成功率のデータが必要です。しかし、盗塁サイン時を見分けることが困難なためこのデータは得られず、実際には通常の盗塁成功率で代用することとなります。この場合も、正しい比較ができなくなってしまいます。
-(4)本記事の方向性
本記事では、間違った比較の問題に陥った送りバントの実証分析を例として挙げます。そして、方程式を用いたモデルから期待得点・得点確率を算出することで、間違った比較によって分析結果が歪められることを解説します。
➁観測データの再現方法
-(1)方程式による期待得点・得点確率の算出法
ここでは、イニングを連立方程式として表現するモデルから期待得点・得点確率を算出しています。この算出法の大枠については過去の記事にて解説したためここでは触れませんが、下の仮定のもとで野球を疑似的にシミュレーションしている点に留意する必要があります。
-(2)野球をリアルに再現する工夫
これは野球を野球盤のように捉えたモデルであり、現実の競技とは大きくかけ離れた内容となっています。なお、ここでは2塁走者が単打で生還する確率を60%と仮定することで、『野球のOR』や野球盤の再現で生じたバイアスの一部を解消しようと試みています。
-(3)観測されたデータの再現方法
ここでは、無死一塁時に10%の確率で送りバントを行うものとしてモデルの方程式を修正しています。すると、このモデルから得られる各理論値は送りバントを組み込んだ値となるため、観測されたデータを再現することができます。なお、ここでは送りバント成功率を100%として計算しています。
[仮定]
- 打席結果は表1の6種類のみで成績に従って確率的に決定される。
- 走塁は打席結果のみに従い、表1のとおりに対応する。
- 2塁走者が単打で生還する確率pは0.6である。
- 以上の仮定で想定されないプレー(盗塁・失策等)は無視する。
※方程式による期待得点と得点確率の算出法の解説はこちら
③送りバントの効果に潜む罠
-(1)送りバントの効果とは
まず、作戦の実行が勝利確率に与える影響を作戦の効果といいます。そのため、送りバントの効果は送りバントを実行した場合と実行しなかった場合の勝利確率の差として表現されます。
しかし、実際に勝利確率を観測・推定することは困難です(実際にはセイバーメトリクスにより実施されています)。そこで、期待得点と得点確率に与える効果を考えましょう。すると、期待得点と得点確率に与える送りバントの効果は次のように表すことができます。
・期待得点への効果 | = | E[得点|ある状況のバント後]−E[得点|ある状況の強攻後] |
・得点確率への効果 | = | E[得点確率|ある状況のバント後]−E[得点確率|ある状況の強攻後] |
-(2)セイバーメトリクスの回答
2014~2018年のデータでは、無死1塁から1死2塁になることで、得点期待値は0.80から0.64に減少します。このことを考えても、送りバントは有効ではないと考えられます。蛭川晧平 著 岡田友輔 監修『セイバーメトリクス入門』より引用
セイバーメトリクスではしばしば上記のような実証分析を行います。送りバントの成功率を100%と仮定すると、無死一塁時の送りバントは一死2塁の状況をもたらします。そのため、これらの状況の比較で平均得点がどのように変化するのかを調べることで、送りバントの効果を検証することができそうです。
しかし、この分析方法には統計学の誤用ともいえる問題点が存在します。本記事ではこの実証分析例を用いて同時性による間違った比較の問題を解説します。
-(3)「間違った比較」の罠
送りバント状況を整理してゲームツリーとして表現したものが図1です。このとき、送りバント状況にはその状況におけるヒッティング時と送りバント時が含まれます。そのため、このモデルでは青矢印の比較から送りバントの効果を推定していますが、本来は赤矢印の比較からを推定されるべきなのです。
本ブログでも先の分析例と同様の方法で送りバントの効果を検証しましたが、ここでは全場面で強攻策が執られるものとしいたため問題ありませんでした。恐らく、先の分析例では各場面の作戦からグループ分けした形でデータを収集できなかったため、正しい比較ができなかったのでしょう。
では、方程式モデルにより再現されたデータよりこの問題の影響を考えましょう。表2は強攻時の各状況における期待得点をまとめたものです。これに対し、無死1塁時に10%の確率で送りバントを行った場合に観測される平均得点をまとめたものが表3です。これによると、無死において観測される平均得点は強攻時の期待得点よりも低くなります。このとき、無死1塁時も影響を受けているため、このままでは送りバントの推定効果にバイアスが発生してしまいます。
同様に、表3は強攻時の各状況における得点確率をまとめたものです。そして、無死1塁時に10%の確率で送りバントを行った場合に観測される得点率をまとめたものが表3です。ここでは、無死において観測される平均得点は強攻時の期待得点よりも高くなります。どちらにせよ無死1塁時も影響を受けているため、このままでは送りバントの推定効果にバイアスが発生してしまいます。
④「間違った比較」の罠を克服する
-(1)正しい比較を行う
先に挙げた実証分析ではそもそもの比較対象を誤っていました。本来、同じ場面における送りバントの有無が異なる個体を比較するべきです。そのため、無死一塁時ではなく無死一塁の強攻時を比較対象として用いるべきでしょう。なお、実際には投手・打者・打順といった全ての状況が同一で、送りバントの有無だけが異なる個体を比較する必要があります。よって、これでも不十分です。
-(2)実は解決する必要はない?
本記事では、無死一塁時に10%の確率で送りバントを行うものとして分析しました。このとき、期待得点・得点確率の観測値と真の値は次のような関係にあります。
値は不正確ですが大小関係に変化はありません。よって、間違った比較の問題は送りバントの効果の絶対値を小さくしますが、推定効果の符号には影響を与えないのです。これは数式からも確認することができます。
・E[得点(確率)|無死一塁] | = | 0.9×E[得点(確率)|無死一塁で強攻]+0.1×E[得点(確率)|無死一塁でバント] |
・送りバントの推定効果=0.9×(E[得点(確率)|無死一塁でバント]-E[得点(確率)|無死一塁で強攻])
確かに、このモデルでは送りバントの影響を過少評価してしまいますが、その符号には影響しないようです。
つまり、推定された効果の有無はあてになりませんが、推定された効果の正負は有益な情報です。先に挙げた実証分析では推定効果が負であるため、間違った比較の問題を解決したとしても結論は変わらないと考えられます。
⑤おわりに
-(1)まとめ
本記事ではセイバーメトリクスによる送りバントの実証分析を例に挙げて、間違った比較の問題を解説しました。そして、セイバーメトリクスは送りバントの影響を過小評価していることが明らかとなりました。ただし、送りバントが与える効果の正負には影響しないため、送りバントにより平均得点が低下するという結論には影響しないでしょう。
-(2)今後の展望
しかし、セイバーメトリクスによる送りバントの実証分析にはまだまだ問題点が残っています。次は「選択バイアス」による問題を取り上げたいと思います。
コメント
コメントを投稿