Quantcast
Channel: 薬剤師のためのEBMお悩み相談所-基礎から実践まで
Viewing all articles
Browse latest Browse all 345

データ欠損の3つの様式

$
0
0

こんにちは、黒田です。

 


2017年最初のテーマは、少し前にメタ解析におけるバイアスについて説明する過程で登場した、「データの欠損」です。

 


in vitroにおける実験系や動物モデルのin vivo研究では、欠損データがあると基本的には失敗研究とみなされるため、厳格なデータ測定・収集・解析が要求されます。

 


一方で、ヒトを対象にした臨床研究では、研究者だけの都合で事を進めるわけにはいかないので、試験計画通りいかないことがよくあるのは、ご存知の通りです。その中の1つに、これから数回にわたって取り上げる「データの欠損」が含まれます。例えば、予定した日に病院に来るのを忘れたり、一方的に試験参加を打ち切られてしまった場合などが、欠損が生じる具体例になります。

 


ところで、一口に「データの欠損」といっても、その発生機序はいくつかあり、それによってとるべき対応も変化してくるので、今回はデータ欠損の分類についてまとめます。

 

 

 

 

 

 

3つの欠損パターン

おおまかにいって、データ欠損の様式は次の3種類です。

 

  • Missing Completely At Random (MCAR):完全にランダムな欠損
  • Missing At Random (MAR):ランダムな欠損
  • Missing Not At Random (MNAR):ランダムでない欠損


一応、日本語も併記しましたが、使われることはあまりなく、そのまま英語表記されるケースが大部分です。それぞれについて、以下で解説します。

 

 

 

 

Missing Completely At Random (MCAR)

これはその名の通り、完全にランダムに欠損が生じているタイプです。

 


「完全にランダムに」とは、もう少しいえば「測定値や他の共変数と無関係に」という意味になります。例えば、血液サンプルから何かの測定を行う場合に、研究者が誤ってサンプルをこぼしてしまった、などの原因で生じた欠損が、MCARにあたります。

 

 

 

 

Missing At Random (MAR)

MARは、観察されている変数に依存して、欠損が生じるものをいいます。というと何やら難しく感じますが、具体例で考えれば意外と簡単です。

 


ある職場で、勤務する職員の50m走のタイムを計るとします。ちなみに、測定は日曜日におこない、休日出勤手当はつかないとしましょう。

 


となると、女性職員の参加率は悪くなると予想されます。なぜなら、日焼けのリスクがありますし、汗をかくとメイクが崩れる、適切な運動着を持っていないなどの点で、気が乗らない人が多いと考えられるからです。こうなると、女性のタイムには欠損が多くなります。

 


このケースでは、性別という「観察されている変数」に依存して、データの欠損が生じています。こうしたタイプの欠損をMARと呼びます。

 

 

 

Missing Not At Random (MNAR)

残るMNARは、上記のMARとの対比でいえば、「欠損している変数に依存して生じる欠損」となります。やはり、何やら禅問答のようですが、これの意味するところはこういうことです。

 


上記の50m走の例を今一度使います。このような記録会にはよくあることですが、そもそも運動が苦手な人はあまり参加したくないでしょう。この例では休日出勤手当もつかないわけですから、なかには測定をサボってしまう人も出てくるでしょう。結果として、これらの人のタイムは欠損になります。

 


この場合、「運動が苦手=50m走のタイムが悪い」ということですから、欠損が生じた原因は、欠損値である「50m走のタイム」そのものに求められます。このような欠損のパターンをMNARといいます。

 

 

 

 


とても簡単なまとめ

これまでの内容を、ものすごく単純化してまとめると、次のようになります。

 


欠損が生じている原因は?

  • まったくの偶然→Missing Completely At Random (MCAR)
  • 欠損値以外の測定データ→Missing At Random (MAR)
  • 欠損値そのもの→Missing Not At Random (MNAR)

 

 

 

 

MCARは現実的でない

ここまでが、それぞれの欠損パターンの説明ですが、むしろ実務において気になるのは、「今目の前に起こっている欠損が、どのパターンに該当するか見分ける方法は何か?」でしょう。

 


しかし、注目している欠損がどのパターンに該当するのか、見分けることは通常できません。

 


もう少し説明しましょう。まずはMCARについてですが、そもそもこれは現実的に起こり得ると仮定できるものでしょうか?MCARであるというためには、「欠損はすべての変数から独立したものである」と証明しなければなりません。「独立している」とは「無関係である」と言い換えてもよいですが、「無関係である」ことを証明するのは、論理的には不可能です。

 


したがって、MCARは概念として欠損パターンの1つと位置付けられますが、実際にこれを仮定してその後の解析を行うのは、現実的でないとみるべきです。ある意味で、「机上の空論」に近いものがありますね。

 

 

 

 

MARとMNARは区別できない

ということは、残されたMARとMNARのどちらにあたるのか判断できれば、さしあたりよいことになります。

 


しかし、最初に結論をいえば、注目した欠損がMARとMNARのどちらに該当するか判別することは不可能です。

 


まず、MNARから考えましょう。これは先ほども述べたように、「欠損が、欠損値そのものに依存して生じる」タイプです。まず抑えてほしいのは、欠損のパターンがMNARであることを積極的に証明することはできない、ということです。

 


どうしてか。MNARであることをいうには、欠損値を知る必要があるからです。しかし、これは不可能です。なぜなら、欠損値は欠損している、つまり測定されていない (だからこそ欠損値) からです。データとして存在しないものについて論じることはできないということです。

 


となれば、妥協案として「MARでない」ことを仮定することで、MNARとみなす方法が考えられます。しかしながら、これもまた不可能です。なぜなら、「MARでない」というためには、「欠損のパターンは、その試験で測定されていない変数に依存する」ことを示さなければなりません。

 


これもまたできない相談です。だって「測定されていない変数」は手元にありませんから、検証すること自体が不可能ですからね。ここでも、データとして存在しないものは論じられない、という話になります。

 


したがって、「MARでない」ということをもって、MNARであると仮定するの無理があります。

 

 

 

 

基本的にはMARを仮定する

以上のことを総合して得られる結論は、ただ1つです。基本的には、MARを仮定しておけば問題ありません。

 


MCARは非現実的であるから、もはや考えないことにします。そうすると、心残りはMNARでしょう。「合理的な説明はできないけど、本当はMNARかもしれないのに、それを考慮せずMARを採用するのは不適切ではないか」と。

 


しかし、そもそも冷静になって考えてほしいのですが、MNARにばっちり合致する欠損が出る臨床試験は、そもそもプロトコールからして間違っているのではないでしょうか。

 


「間違っている」という表現ではいささか強すぎるかもしれませんが、欠損値となるデータは「PECO」でいうところの「O」すなわち評価項目に相当するものです。臨床試験でもっとも重要といっても過言でない評価項目それ自体が、欠損値を生じる原因となっているとしたら、試験デザインからして何かがよくないとみるのが普通でしょう。

 


したがって、MNARとなる欠損が出るような試験は、そもそも失敗試験である可能性が高いので、その後の解析云々以前の問題となるわけです。これらを考え合わせれば、これ以上に掘り下げる意義がある欠損パターンは、やはりMARだけになると思います。

 

 

 

次回は、欠損パターンごとの補正方法について論じます。

 

 

 

では、また次回に。

 

 

 

 

 

Reference

  1. 松山裕 経時観察研究における欠測データの解析 計量生物学 2004 25(2);89-116.
  2. http://koumurayama.com/koujapanese/

Viewing all articles
Browse latest Browse all 345

Trending Articles