送りバントの効果に潜む「選択バイアス」の罠【統計の誤用を解説】

勝利数とWHIP・OPSの関係を表した図です。OPSと勝利数は正に比例し、WHIPと勝利数は負に比例するようです。

⓪本記事の3行要約

  • 送りバントの実証分析例から選択バイアスの罠を解説する。
  • 送りバントが得点確率に与える効果が過小評価される可能性を解説した。
  • 送りバントが期待得点に与える効果にバイアスは生じていなかった。

➀選択バイアスについて

-(1)選択バイアスとは

 選択バイアスとは標本を抽出する過程で発生するバイアスです。これは標本の収集や介入群と対照群の決定などの様々な場面で発生します。そして、分析結果を歪めてしまうのです。

 まず、標本を収集する段階で発生する選択バイアスを考えます。例えば、協力者を募る形で行われたインターネット上のアンケート調査では、特定の属性(若い・協力的な性格など)をもつ人々のデータしか得られません。すると、調査結果も母集団とはかけ離れたものとなってしまいます。この乖離が選択バイアスです。

 次に、介入群と対照群を決定する段階で発生する選択バイアスを考えます。例えば、タバコの健康被害を実証分析する場合の介入群(タバコを吸う群)には、特定の属性(20歳以上・タバコを自発的に吸う健康意識など)をもつデータしか得られません。すると、介入群と対照群の属性が異なるため比較できません。このギャップも選択バイアスです。

-(2)本記事の方向性

 本記事では、選択バイアスが発生している送りバントの実証分析を例として挙げます。そして、方程式を用いたモデルから期待得点・得点確率を算出することで、監督が戦術選択する過程で選択バイアスが発生していることを示します。


➁本記事の分析方法

-(1)方程式による期待得点・得点確率の算出法

 本記事では、イニングを連立方程式として表現するモデルから期待得点・得点確率を算出します。この算出法の大枠については過去の記事にて解説したためここでは触れませんが、下の仮定のもとで野球を疑似的にシミュレーションしている点に留意する必要があります。

-(2)野球をリアルに再現する工夫

 大まかには野球を野球盤のように捉えたモデルであり、現実の競技とは大きくかけ離れた内容となっている点に注意が必要です。なお、ここでは2塁走者が単打で生還する確率を60%と仮定することにより、『野球のOR』や野球盤の再現において生じた2塁走者の扱いによるバイアスを解消しようと試みています。

[仮定]

  • 打席結果は表1の6種類のみで成績に従って確率的に決定される。
  • 走塁は打席結果のみに従い、表1のとおりに対応する。
  • 2塁走者が単打で生還する確率pは0.6である。
  • 以上の仮定で想定されないプレー(盗塁・失策等)は無視する。

各打席結果と打者の出塁・走者の進塁がどのように対応しているかを示した表です。2塁走者が単打時に確率pで生還する野球盤を想像して頂ければわかりやすいかと思います。

※方程式による期待得点と得点確率の算出法の解説はこちら


③送りバントの効果に潜む罠

-(1)送りバントの効果とは

 まず、作戦の実行が勝利確率に与える影響を作戦の効果といいます。そのため、送りバントの効果は送りバントを実行した場合と実行しなかった場合の勝利確率の差として表現されます。

 しかし、実際に勝利確率を観測・推定することは困難です(実際にはセイバーメトリクスにより実施されています)。そこで、期待得点と得点確率に与える効果を考えましょう。すると、期待得点と得点確率に与える送りバントの効果は次のように表すことができます。

・期待得点への効果=E[得点|ある状況のバント後]−E[得点|ある状況の強攻後]
・得点確率への効果=E[得点確率|ある状況のバント後]−E[得点確率|ある状況の強攻後]

-(2)統計学の回答

作戦ごとのイニング総得点の平均値を比べると,「ヒッティング」で0.86点,「バント企図後ヒッティング」で0.98点,「ヒットエンドラン」で0.95点に対し,進塁率が最大であった「送りバント」は0.73点で最小となっている.
及川・栗山・佐藤(2011)『野球の無死1塁で用いられる送りバント作戦の効果について』より引用

 統計学ではしばしば上記のような実証分析を行います。確かに各作戦実行時の平均得点を比較しているため、これらの数値の差から各作戦の効果を推定することができそうです。

 しかし、この分析方法にも統計学的な問題点が存在します。本記事ではこの実証分析例を用いて選択バイアスの問題を解説します。

-(3)送りバント記録とOPSの関係

 では、送りバントはどのような打者によって実施されているのでしょうか。ここでは、2021年度レギュラーシーズンのスターティングメンバ―を基準として、OPSと送りバント記録の有無で分類しました。その結果をまとめたものが図1です。ここでは、同じ選手がスタメン回数分だけ重複して計上されている点に注意してください。

 これによると、OPSの低い選手の方が送りバントを記録する傾向にあるようです。これは当然の結果でしょう。送りバントの機会損失はその選手のヒッティング時に得られた打席結果です。そのため、OPSの大きさに従って機会損失も大きくなるため、送りバントの効果は小さくなります。監督は合理的に作戦を指示しているようです。

2021年度レギュラーシーズンのスタメンにおける送りバント記録の有無とOPS図ですの関係を表した表です。

-(4)「選択バイアス」の罠

 ここでは、2021年度レギュラーシーズンのスターティングメンバ―を基準として、OPSと無死一塁時の期待得点と得点確率を計算しました。その結果をまとめたものが図2・3です。なお、ここでは各群の平均値を"+"で表現しています。
 図2によると、送りバント記録の有無によってOPSの平均値は大きく変化するものの、期待得点自体にはあまり差がないようです。そのため、期待得点に対する実証分析ではあまり選択バイアスの影響を受けないかもしれません。
2021年度レギュラーシーズンのスタメンにおける送りバント記録の有無・無死一塁時の期待得点・OPSの関係を表した図です。送りバント記録の有無によって平均期待得点は変化しないため、この平均値比較では選択バイアスが発生していないようです。

 図3によると、送りバント記録の有無によってOPSの平均値は大きく変化するうえ、得点確率自体にも差が生じています。そのため、送りバントの得点確率に与える効果は選択バイアスの影響を受けており、過小評価されている可能性があります。

2021年度レギュラーシーズンのスタメンにおける送りバント記録の有無・無死一塁時の得点確率・OPSの関係を表した図です。送りバント記録の有無によって平均得点確率は変化しており、この平均値比較では選択バイアスが発生していると考えられます。

④「選択バイアス」の罠を克服する

-(1)リンゴとオレンジは比較しない

 この例えは異なるもの同士で比較してはいけないことを示しています。先の実証分析例では各群においてOPSが大きく異なりました。他にも打順や後続打者の能力なども異なるかもしれません。あくまで、同じ場面における送りバントの有無が異なる個体を比較するべきなのです。

-(2)ランダム化比較試験(RCT,ABテスト)

 しかし、野球において全く同じ場面など存在しません。野球は監督の裁量で決定できる打順などの要因だけでなく、湿度や気圧といった自然環境にも影響を受けるのです。そのため、全ての打席がリンゴとオレンジの関係になってしまい、このままでは比較不可能です。

 そこで、ランダム化比較試験という方法を紹介しましょう。ここでは送りバントの有無をコイントスで決定し、各作戦時の平均得点・得点率を比較します。すると、コントロールの可否に関わらない全要因の偏りを小さくして、平均処置効果を分析することができます。

-(3)実証分析的なアプローチ

 しかし、この平均処置効果にも問題は存在します。全選手における送りバントの平均的な効果を調べても意味はないでしょう。また、プロ野球において完全なランダムで作戦を決定することは困難でしょう。鈴木誠也選手の送りバントは負の効果を持つことは明白なため、これは敗退行為に近いプレーであると捉えられても仕方ありません。

 そこで、実証分析的なアプローチ(重回帰分析・傾向スコアマッチング)を考える必要があります。なお、これらについての解説は割愛します。詳しく知りたい方はこちらの本を参考にしてください。


⑤おわりに

-(1)まとめ

 本記事では統計学による送りバントの実証分析を例に挙げて、選択バイアスの問題点を解説しました。そして、統計学は送りバントの得点確率に与える効果を過小評価していることが明らかとなりました。ただし、送りバントが期待得点に与える効果は正しく分析できていそうです。

-(2)今後の展望

 しかし、送りバントの実証分析にはまだまだ問題点が残っています。次は「平均」による問題を取り上げたいと思います。


コメント