こんにちは、黒田です。
前回の記事でデータの欠損を分類し、それぞれについて紹介しました。今回は、データの欠損に対して、どのような対応ができるのかを述べていきます。
欠損値への対応
欠損値が生じた場合の対応法はいくつかあり、その分類も様々行われていますが、個人的に分かりやすいと思うのは、引用文献1の分類です。
- 除去法
- 単一値代入法
- 多重代入法
- 完全情報最尤推定法
それぞれについて説明します。
除去法
その名の通りで、欠損値が存在するサンプルを解析から除去する方法です。除去法は、除去するサンプルの選択基準によって以下の2つに細分できます。
- リストワイズ法:1つでも欠損値があるサンプルをすべて解析から除去する
- ペアワイズ法:相関係数などにおいて対になるデータの片方、または両方が欠損したサンプルを除去する
いずれにせよ、欠損値が含まれるサンプルを「なかったことにする」ことによって、その影響を回避するというコンセプトは共通しています。
単一値代入法
これもその名の通りで、欠損値部分に何かしらの単一値を代入する方法です。その「何かしらの単一値」が何かによって、さらにいくつかに分けられます。
- 平均値代入法 (Personal mean score)
- 最悪値代入法 (Personal worst score)
- 近似値代入法 (Hot-deck imputation)
- 前回観測値代入法 (Last observation carried forward)
それぞれ簡単に解説します。
平均値代入法 (Personal mean score)
PMSとも略します。意味はそのままで、欠損値を除くすべての標本の平均値を代入して補完する方法です。
最悪値代入法 (Personal worst score)
略称はPWS。これもそのままの意味で、欠損値以外の標本における「最悪の値」を代入する方法です。
近似値代入法 (Hot-deck imputation)
HDとも表記します。これは、欠損値を生じた被検者と他の属性が近い被験者を探し出し、その人と同じ値を代入する方法です。
前回観測値代入法 (Last observation carried forward)
LOCF法などと表記されます。比較的有名な方法なので、名前くらいは見たことがあるのではないでしょうか。これは、欠損値を生じた時点の直前におけるデータで、欠損値を保管する方法です。もっと有体にいえば、「前回のデータで置換する方法」です。その性質から、継時的に反復測定を行う試験などで見られることが多い方法です。
具体的には、次のようになります。ある薬剤を服用して、1時間後・2時間後・4時間後・8時間後のある血液検査の測定値が、次のように変化したとします (単位は省略)。
- 1時間後:12
- 2時間後:31
- 4時間後:24
- 8時間後:?
ここで、「?」が欠損値だとします。このときLOCF法に則れば、「?」に置換する数値は「24」です。なぜなら、その直前の4時間後時点における測定値が、24だからです。
古典的な手法の問題点
ここまで紹介してきた手法が、欠損値に対する古典的な処理方法です。しかし、少し考えてみれば分かると思いますが、除去法にしても単一値代入法にしても、それなりに大きい問題があります。
まず、除去法が妥当性を持つのは、基本的に欠損値の生じ方が、MCARの場合に限られます (MCARについては前回の記事を参照のこと)。MCARを仮定できる状況なら、除去法は見かけ上、得られたサンプルの中からランダムにいくつかを解析から除外することと同じ意味を持ちますから、バイアスの発生は問題になりません。
しかしながら、MCAR以外の場合、つまりMARやMNARを仮定すべきケースでは、欠損値の発生は評価項目や他の変数と関連しますから、欠損あるサンプルのみを除外すると必然的に何らのバイアスが生じます。さらにいえば、MCARを仮定できる状況は、それ自体が現実的でないことは、前回の記事でも指摘した通りです。つまり、除去法が妥当性を持つシチュエーションは基本的にないとみてよいでしょう。
また、仮にMCARであることが分かっているとしても、除去法によりサンプル数が減ることは、その後の解析を保守的にする、という問題は解決しません。「保守的」とは、つまり有意差が付きにくくなると換言できます。
以上のことを総合すれば、やはり除去法は好ましくないとなるでしょう。
では、単一値代入法はどうでしょうか。これもやはりそれぞれ問題点を有しています。
まず平均値代入法と最悪値代入法は、いずれもデータの変動に対する評価を誤らせる原因となりえます。具体的には、平均値代入法ではデータの変動が過度に小さく、最悪値代入法では過度に大きく評価される確率が増大します。
欠損部分に平均値を代入すると、本来よりも「揃った」データになりやすいですし、最悪値を代入すると、悪い方に偏ったデータになるからです。こうしたことから、これらの方法はよろしくありません。
次に近似値代入法ですが、これは前述の2つに比べれば妥当性が高そうに思えます。欠損が生じた被験者に近い属性の被験者のデータを使うと、本来測定されたはずの「真の測定値」に近づくと期待できるからです。
しかし、これとて「他の属性が近いという理由で、試験において注目している測定値も似たような値になる保証があるのか?」という根本的な疑問を棚上げにしています。加えて、「属性の近い被験者」が誰なのか判断するには、欠損データ以外の共変数を参照するしかありませんが、この共変数には何を使えばよいのか?試験において調査されている変数だけで十分なのか?というようにどこまで行ってもキリがなくなります。こうなると、近似値代入法も苦しくなってきます。
残った前回観測値代入法ですが、これは純粋に欠損が生じた被験者自身のデータから補完する値を導き出す点で、他の手法とは異なります。
ですが、一見して誰もが抱くであろう疑問、「直前の測定値から、その値が時間を置いても変化しないと仮定できる根拠は何か?」が大きな壁となって立ちはだかります。そもそも、何かの値を測定するということは、基本的にはその値が変動することが予想あるいは期待されるからでしょう。例えば、薬を飲めば血圧が下がる、といった具合です。
とすれば、上述の懸念はたいていの場合において正しいことになり、前回観測値代入法もよくない方法と見なさざるを得ません。
以上、今回述べた欠損値への対処方法は、いずれも問題あるものでした。
次回は、これらの問題を克服すべく生み出された、より新しいアプローチについて述べていきます。
では、また次回に。
Reference
- 瀧口徹 歯科疫学統計 −第9報 欠損値・異常値処理法− −不完全データをどう扱うか− ヘルスサイエンス・ヘルスケア 2012 12(2);104-117.
- http://koumurayama.com/koujapanese/