2023-02-16 バイアスとバリアンスに関するメモ ■ バイアスとバリアンス データの中には、色々な情報が含まれている。 ある変数と別の変数の関係性であり、分析によって抽出をしたい関係性がまずある。 それだけではなく、別に分析対象ではない、「ノイズ」も含まれる。 理想的なモデルというのは、分析対象である関係性 ”のみ” を抽出したものである。 つまり、分析対象変数Aから分析対象変数Bの値を正確に予測できるモデルである。 ただ、理想的なモデルにはなかなか至らない。 理想に至っていない状態には、主に2つの状態がある。 それがバイアスとバリアンスがそれぞれ高い状態である。 まず、バイアスが高い状態というのは、 抽出したい関係性をそもそもとらえられていない状態であり、 モデルの予測値が、的外れの方向に外れてしまう。 (十分に学習できていない状態) ・モデルの複雑性が足りないとバイアスが高くなる(学習失敗による) 他方で、バリアンスが高い状態というのは、 分析したい関係性だけでなく、データに含まれる余計な関係性までを 抽出してしまったせいで、モデルの予測値のばらつきが大きくなる状態である。 (余計なものまで学習してしまった状態) ・学習データが少ないとバリアンスが高くなる。 (データが少ないとデータへの過学習は容易に起こりやすくなる。 過学習はノイズへの適合なので、バリアンスは大きくなる) ・モデルの複雑性が大きいとバリアンスが大きくなる。 (モデルが複雑だと、過学習が発生しやすくなるので、バリアンスは大きくなる) ※データが少ない場合にもバイアスが大きくなりやすいが、これはデータが少ないことによってバイアスが高くなるというわけではない。データが少ないときは、少数の各データがに含まれるノイズがデータが多い時よりも大きな影響力もち(ウェイトが高くなり)、それを過学習してしまった結果、予測値が的外れになるということが起きているので、少し次元の違う話である。 ■ バイアス、バリアンスとスコアの関係性 バイアスもバリアンスも、予測スコアの低下という形で現れる。 バイアスによる低スコアは、訓練データと検証データの双方において「スコアが低い」という形で現れる。 それに対して、バリアンスによる低スコアは、検証データにおけるスコアにのみ現れる。訓練スコアは高いのに、検証スコアは低いというときには、バリアンスが高いも出るになっているということが言える。