年度別成績に潜む「平均への回帰」の罠【統計の誤用を解説】

勝利数とWHIP・OPSの関係を表した図です。OPSと勝利数は正に比例し、WHIPと勝利数は負に比例するようです。

⓪本記事の3行要約

  • 平均への回帰の原因と問題点を解説します。
  • 年度間成績において発生する平均への回帰を解説します
  • 平均への回帰が発生する状況での分析法を説明します。

➀平均への回帰について

-(1)平均への回帰とは

 平均への回帰とは、1回目には極端な値が観測された標本において、2回目にはそれほど極端な値が観測されないない傾向のことです。これは、極端な値は標本のポテンシャルではなく偶然から得られることが多いことが原因で発生します。

-(2)回帰の誤謬とは

 回帰の誤謬とは、自然に発生した変動を別の要因によってもたらされたものだと解釈する誤りのことです。例えば、テストの成績上位者に実施した再テストの点数が1回目よりも低い傾向があった場合に、平均の回帰ではなく存在しないカンニングが原因だと結論付けてしまう可能性があります。

 しかし、平均への回帰に近いデータが観測されたからといって、必ずしもその変動の原因が平均への回帰であるとはいえません。なぜなら、先の例において実際にカンニングが発生していた場合にも平均への回帰に近いデータが得られるはずです。

-(3)本記事の方向性

 本記事では、前年度の成績から次年度の成績を予測する単回帰分析を行います。そこから、潜在能力から確率的に結果が得られる関係のデータを分析する際には、平均への回帰が発生しうることを説明します。

➁年度別成績に潜む罠

-(1)次年度成績の予測

 ここでは、2020・2021年度の選手別成績データから次年度成績の予測を行います。野手の場合には前年度OPSから次年度OPSを予測し、投手の場合には前年度WHIPから次年度WHIPを予測します。このとき、成績不振であった一部の選手は戦力外通告を受けているため、選択バイアスが発生している点に注意してください。

-(2)「平均への回帰」の罠

 まず、野手の前年度OPSから次年度OPSを求める単回帰分析の結果をまとめたものが図1・表1です。これによると、前年度OPSが高い選手ほど次年度OPSが高くなる傾向があるようです。しかし、回帰係数の絶対値が1未満であるためOPSの差は年々小さくなる傾向があります。

 これは大発見ではないでしょうか。OPSが平均以上の選手は次年度により低いOPSを記録する傾向にあり、OPSが平均以下の選手は次年度により高いOPSを記録する傾向にあるのです。つまり、若手選手のトレードにおいて高OPS選手が過大評価されており、低OPS選手が過小評価されているのです。

 しかし、実際には平均の回帰が原因である可能性が高いでしょう。そのため、この現象はプロ野球の特殊な要因ではなく、データの性質によって得られた可能性が高いのです。

2020・2021年度における年度とOPSの関係を表した図です。
次年度OPSを前年度OPSにより単回帰分析した結果をまとめた表です。これによると、前年度OPSの回帰係数は0.398です。

 次に、投手の前年度WHIPから次年度WHIPを求める単回帰分析の結果をまとめたものが図2・表2です。これによると、前年度WHIPが低い選手ほど次年度WHIPが低くなる傾向があるようです。しかし、回帰係数の絶対値が1未満であるためWHIPの差は年々小さくなる傾向があります。これも平均の回帰が原因である可能性が高いでしょう。

2020・2021年度における年度とWHIPの関係を表した図です。
<表2 シーズン間のWHIPに関する単回帰分析>

③「平均への回帰」の罠を克服する

-(1)複数年の成績を用いる

 まず、平均への回帰はポテンシャルから乖離したデータが観測されることが原因です。そのため、複数年のデータによってポテンシャルと観測値のギャップを小さくすることで、平均への回帰の影響を小さくすることができます。実際に、次年度成績を予測するモデルの多くでは複数年のデータを用いているようです。

-(2)平均への回帰を受け入れる

 また、分析上の問題から平均への回帰を避けられない場合があります。例えば、2年目のジンクスを検証する場合には1年目と2年目の成績を用いますが、これ以上遡ってデータは存在しません。そのため、平均への回帰を頭に入れたうえで回帰の誤謬に気を付けて分析することとなります。

④おわりに

 本記事では、2020・2021年度の選手別成績データから次年度成績の予測を行いました。その結果、年度間成績の回帰分析は平均への回帰に近い結果をもたらすことが明らかとなりました。そのため、私達も前年度成績から次年度の成績を予測する際には、平均への回帰に気をつけなければなりません。

コメント