Quantcast
Channel: 薬剤師のためのEBMお悩み相談所-基礎から実践まで
Viewing all 345 articles
Browse latest View live

共分散分析 (ANCOVA) の説明

$
0
0

こんにちは、黒田です。

 


以前に、分散分析 (ANOVA) について説明しましたので、今回はその発展形に相当する「共分散分析 (ANCOVA)」について書こうと思います。ANCOVAとは「Anlysis of covariance」の頭文字をとったものです。

 


分散分析との違いを簡潔に表現するなら、「ANCOVAは交絡を考慮した分散分析である」となります。以下で、もう少し詳細を述べていきます。なお、ANCOVAについてもANOVAのときと同じように、実際の計算過程を示して説明したいところなのですが、この演算はかなり煩雑になり、手計算は無理があるので、今回は観念的な説明にとどまることをあらかじめ断っておきます。

 

 

 

 

 

分散分析では交絡の影響が不明

以前の記事で、分散分析の説明をしたときに、疾患の有無と特定の血液検査所見との関係を、例として挙げました。

 


そのときは、分散分析を行った結果として、疾患の有無と血液検査所見に関連性がありそうであると結論が得られたわけです。

 


しかし、被検者の有する属性は、他にもたくさんあります。具体的には体重・年齢・性別などです。では、もしこのとき取り上げた血液検査所見が、年齢の影響を受けることが知られているものだとしたらどうでしょうか。今一度、そのときに出した例を示すと以下の通りです。

 

 

 


ここには年齢のファクターは、入っていませんが、例えば疾患Bを有している被験者の平均年齢が70歳で、健常者のそれが40歳だとすれば、これはちょっと無視できないことになるでしょう。

 


上記は、「交絡」に関する一般的な、さらにいえばありふれた説明です。しかしここで重要なのは、一元配置分散分析では、検討されている要因は一つだけ (この場合は疾患の有無) であり、交絡の影響については分からないということです。

 

 

 

共分散分析と交絡

そこで、何らかの方法でこの交絡を除去して検定を行いたいと考えるのは自然な発想です。冒頭でも述べたように、このときに用いられるのが共分散分析というわけです。

 


その共分散分析の理論については、アウトラインは普通の分散分析と同様です。ここで思い出していただきたいのですが、これまた以前の記事で、「分散分析と直線回帰は、本質的に同じものである」ということを説明しました。

 

 

つまりが、分散分析を行った場合には、回帰直線が得られている、と言い換えてもよいことになります。共分散分析について説明するうえでは、回帰直線をイメージして行うのが早道と思われます。

 


直線回帰式は、要するに一次関数と同じ形状の回帰ですから、その特性は以下の2つのファクターによって決定づけられます。

 

●傾き
●切片

 

私が以前の記事で使った、「疾患の有無-血液検査値」という関係性では片方が名義尺度であり、回帰直線を考えるうえで相性がよろしくないので (本来は、分散分析の記事を各段階でこのことに気づいていればよかったのですが。申し訳ありません)、Referenceから具体例を拝借して、以下の解説につなげたいと思います。

 

 


この図は、分散分析と直線回帰の関係性を説明した記事でも引用したものです。ちなみに、これはウサギが食べるエサの量を目的変数、ウサギの体重を説明変数とした回帰直線です。

 


回帰直線が記載された散布図には、全データがプロットされていますが、これをウサギの雌雄で分けると、次のようになります。

 

 

 

 

これを見た感じでは、雄の方が食べるエサの量に与える体重の影響が大きそうに感じます。つまり、このケースではウサギの雌雄が交絡となっている可能性が浮上するわけです。

 

 

 


共分散分析を行った結果

そこで、共分散分析の出番となるのですが、細かい計算過程などを全部すっ飛ばしていえば、これを行った結果は以下のようになるそうです。

 

 

 

図中でまるで囲まれている部分に「交互作用」とあります。交互作用とは、2つの変量を選び出したときに、その間で生じる影響のことです。交互作用に関するこの説明は、自分で書いていて上手ではないなと思うのですが、ここではウサギの雌雄が違うと、体重増加と食べるエサの量の関係性が異なるか?を見ていると思っていただければよいでしょう。

 


さて、この例では交互作用のp値が0.04となっています。有意水準αは0.05に設定されているようなので、これは有意な交互作用ということになります。

 


このことが何を意味するかといえば、「ウサギの雌雄で回帰直線の傾きに有意差がある」ということです。今一度確認すれば、もとの分散分析では、ウサギが食べるエサの量を目的変数、ウサギの体重を説明変数とした回帰直線が得られていました。

 


ともあれ、これは直線回帰の側から見たものですので、分散分析風にいえば、「体重によってエサを食べる量に差があるか?」を検定していたということです。

 


しかし、実際にはもとの分散分析では考慮していなかった、「雌雄」という交絡因子が有意な影響を与えていることが、共変数によって明らかになった、というわけです。これが、共分散分析によって交絡が調整できる簡単な仕組みの解説です。

 


逆にいえば、共分散分析で交互作用が有意にならない、言い換えれば、回帰直線の傾きに有意差がない (=統計学的に傾きが同じと見なせる) 場合には、注目している因子が交絡として意味のある影響を与えているとはいえないと見なせます。この場合では、観察された差は、元の分散分析で注目している要因の影響である可能性が高まるわけです。

 


では、また次回に。

 

 

 

Reference

光永貴之 使える統計学基礎講座 (第3回) -直線回帰と分散分析- 農業作業研究 2010 45(2);119-127.

 

 

 


共分散分析についての詳細な理論を知りたい方へ

$
0
0

こんにちは、黒田です。

 

前回、共分散分析 (ANCOVA) についての記事を書いたわけですが、そこでは具体的な計算過程などは、完全に省略して、おおまかな理論についての説明に終始しました。

 

 

個人的には、論文等の一次情報の批判的吟味や、統計ソフトを使用しての実際の検定適用などを行うにあたって、数学的な演算などについて逐一知っておく必要まではないのかな、と思います。ともあれ、やはり気になるという知的好奇心が旺盛な方には、以下の書籍をおススメします。

 

 

実践統計学入門実践統計学入門
3,024円
Amazon

 

 

この本の第15章に、共分散分析に関する詳細な解説と、具体的な計算手順があります。もし手に取ってくださった方がいれば、該当箇所を見てください。私が計算過程の説明を放棄したことにもうなずいていただけると思います。

 

 

それはともかく、共分散分析以外にも、データ欠損に対する対応や、比例型モデル・差分型モデルなど、タイトル通り「実践」に役立つ内容が盛りだくさんとなっています。かなり濃い内容となっているので、どちらかといえば純粋な臨床家よりは、研究者向きかもしれません。

 

 

ただし、これまたタイトルに「実践統計学」とあるからか、明らかに統計学に関する知識をある程度有した人をターゲットオーディエンスにした作りになっています。そのため、生粋の初学者が読むと、第1章から「?」となること請け合いです。この点はご注意ください。

 

 

では、今回は紹介のみにて。

 

 

層別化しての分散分析と共分散分析

$
0
0

こんにちは、黒田です。

 

 

以前、共分散分析 (ANCOVA) に関する記事を書きました。そのなかで、共分散分析を行なった例として、ウサギの「体重-食べるエサの量」の関係における交絡としての雌雄の影響を評価する、といったケースを取り上げました。

 


この記事をみて、次のような感想を持たれた方がいるかもしれません。

 


「ウサギの雌雄が交絡になりそうなら、共分散分析をしなくても、オスとメスにわけてそれぞれ分散分析をすればよいのでは?

 


これは傾聴に値する意見と思います。しかし、いろいろな事情を考慮すれば、「層別化しての分散分析は、必ずしも不適切ではないが、スマートな手法ではない」と結論できると考えます。この記事では、その理由について述べます。

 

 

 

 


層別化の根拠

確かに、取り上げたケースではウサギの雌雄をはじめから分けておき、それに分散分析を適用すれば、雌雄が交絡として機能することは原理的に不可能です。

 


共分散分析は、交絡を考慮した分散分析である」と以前に述べましたが、層別化を伴った分散分析によって交絡が除去できるなら、共分散分析の存在意義が不明と感じるかもしれません。

 


ただし、問題は「どのようにして、交絡因子のあたりをつけるか」です。先に取り上げた例では、散布図上でオスのデータとメスのデータがプロットされた場所が、明らかに異なっていたため、一見して「どうも性別が交絡になっているようだな」と気づけます。

 


この「一見して」が微妙な問題で、この表現では統一的な基準としてはあまりにも漠然としています。したがって、最終的にはここにも検定を行う必要が生じます。この場合の検定では、回帰直線の傾きに有意差があるか?が調べられることは、以前の記事で述べた通りです。

 


つまり、層別化を行う際の分類に使用する属性 (交絡因子と思われるもの) が、本当に交絡に値するかどうかは、検定によって確かめるほかないということです。

 

 

 


多重性の問題が発生

したがって、層別化しての分散分析をまじめに実行しようと思ったら、次の2ステップを踏むことになります。

 

-------------------


層別化の根拠となる要因の有意性に関する検定

その要因で層別化して、それぞれ分散分析

 

-------------------


すると、ここで新しい問題が生じます。それは検定の多重性です。上の表記ではやや分かりづらくなりますが、これらは端的にいえば、回帰直線の検定を2回行っていることとイコールです。

 


通常、有意水準α=0.05とするケースが多いですが、これは検定1回当たりのαエラー (差がないのにあるとするエラー) の確率が0.05という意味です。ということは、2回連続で検定を行うと、1回以上エラーが起きる確率は、

 


1-(0.95)^2=0.0975

 


となり、αエラーの確率が9.75%まで上昇します。約2倍ですね。こうしたことから、層別化しての分散分析は、統計学的には好ましくないといえます。

 


したがって、共分散分析を使って一発で検定をかけた方がよいのです。

 

 

では、また次回に。

 

 

 

ロジスティック回帰分析における説明変数の選択基準

$
0
0

こんにちは、黒田です。

 


先日、ブログに以下のコメントをいただきました。

 


この中でなされている質問は、なかなかに意味深長なものがありますので、このコメントに回答する形で、この記事は進めていきます。

 


-------------------

 

ブログ一周年おめでとうございます。

 

最近、拝読し始めましたが参考にさせて頂いております。

 

統計に関しては疎いもので統計に関する記述は短時間で効率的に学ぶことができ、助かっております。

 

先日、ロジスティクス回帰分析に関して触れられておりましたが、オッズ比に関してそのままのオッズ比と補正されたオッズ比がありますが、補正の基準するものとしないものの判断基準はどのようなのになりますでしょうか?


また、補正項目はどのように選択するのでしょうか?

 

教えて頂ければと思います。

 

-------------------

 


ブログ一周年おめでとうございます。

 

最近、拝読し始めましたが参考にさせて頂いております。

 

 

ありがとうございます。多少なりとも参考になれば幸いです。

 

 

 

先日、ロジスティクス回帰分析に関して触れられておりましたが、オッズ比に関してそのままのオッズ比と補正されたオッズ比がありますが、補正の基準するものとしないものの判断基準はどのようなのになりますでしょうか?


また、補正項目はどのように選択するのでしょうか?

 


要約すれば、「ロジスティック回帰分析における補正項目の選択基準はどうなっているのか?」ということでしょうか。そうと仮定して、以下は記述します。

 


まず、ロジスティック回帰分析等の多変量解析において、「交絡を調整する」とは、端的にいえばその因子を回帰式の中に組み込むこととイコールです。

 


ということは、「補正項目の選択」と「組み入れる説明変数の選択」もイコールになります。要するに、上記のご質問は、説明変数選択の基準について問うていることになります。

 

 

 

説明変数は少ない方が望ましい

まず、大前提として、ロジスティック回帰分析や重回帰分析では、回帰式中の説明変数の種類は少ないに越したことはありません

 


その理由は以前の記事でも述べましたが、「多重共線性」の問題があるからです。今一度簡単にいえば、これは性質の近い説明変数を複数入れることで、回帰式が不安定になってしまうことを指します。

 


また、説明変数の多すぎる回帰式は、見た目がよくないばかりか、実際に使おうとしたときにも煩雑で、役に立ちにくいといえます。

 

 

 

 

説明変数の選択法

そこで、ある程度影響の大きい説明変数を厳選して回帰式に組み込む必要性が生じるのですが、この方法は非常におおざっぱにいえば、次の2通りです。

 


●一定ルールに則って自動的に選択
●自分で選択

 


上に書いた「自動的に選択」には、いわゆる「ステップワイズ法」などが該当します。他にもいろいろな方法はありますが、いずれにせよあらかじめ設定した寄与率を超える変数を組み込む、という方針は共通しています。

 

 

なので、こちらを用いる場合は研究者の意志は働かないので、そもそも「変数の選択」を考える必要性がなくなります。強いて言うなら、研究デザインをする段階で収集した情報と、しなかった情報の差があるくらいです (そもそも収集していない情報は組み込みようがないので、ある意味これが「選択」になっている)。

 


もう一方の、「自分で選択」は、通常「変数指定法」などと呼ばれます。つまり、自分であたりをつけて「これは影響がありそうだ」という変数を組み込んだ回帰式にする方法です。質問者の関心は、これを行う場合の選択基準、ということでしょう。

 


もっとも原始的な手法は、組み入れるか迷っている説明変数と、目的変数とで単回帰分析を行って、これの検定をする方法です。要は、最初に他の変数の影響を考慮せずに検定する、ということです。これによって有意と認められた変数を重回帰式に組み込みます。

 


これでもよいのですが、いかんせん泥臭い感は否めないので、もう少しスマートな方法として、「あらかじめ有意水準を甘くして多変量解析をし、有意差がついた変数を候補とする」というものがあります。

 


基本的に、有意水準α=0.05とするケースが多いですが、この方法を用いるときは、これを0.1や0.25などにし、組み入れるかどうか迷っている変数を全部入れて解析します。ここで有意差がついた説明変数は、目的変数へ意味のある影響を与えている可能性が高いものなので、これらを組み入れる変数の候補として採用するわけです。

 

 

 

別の解析方法を適用することもある

この、「有意水準を甘くした多変量解析→候補の選定」という手法を用いる場合ですが、例えばロジスティック回帰分析による回帰式作成をするときに、前解析として重回帰分析など別の解析法を使うケースがあります。

 


これは、ロジスティック回帰分析と重回帰分析が、それぞれモデル全体の有意性の評価に、尤度比検定と分散分析という異なる手法を採用していることによります。

 


これにより、解析に用いられているモデルの特性に由来する、結果へのバイアスを軽減できるというメリットも生じます。

 

 

 

どの方法がよいかはケースバイケース

上記の、「自動で選択」と「自分で選択」のどちらが好ましいのかは、一概にはいえない問題です。

 


もちろん、自分で選択できるだけの根拠や自信があればそれはそれでよいのですが、そもそもロジスティック回帰分析をする、ということは目的変数に影響しそうな説明変数が分からないことを出発点にすることが多いでしょう。

 


つまり、多変量解析を行う研究は、探索的側面が強いことが多いので、最初からマニュアル選択ができることはむしろ稀です。こういう場合、自動で選択の手法を用いればよいです。

 


まとめれば、どちらの手法が好ましいかは、多変量解析を行う目的に依存するので、ケースバイケースということです。

 

 

 

では、また次回に。

 

 

 

Reference


対馬栄輝 医療系研究論文の読み方・まとめ方 東京図書

 

 

 

「自由度」とは何か?

$
0
0

こんにちは、黒田です。

 


昔学生だった頃、同期や後輩によく質問されたものとして、

 


「自由度って何なのか、まったく分からん」

 


というものがあったことを、つい先日思い出しました。

 


出身大学を貶める意図はありませんが、当時の学部での統計学の講義は、お世辞にもわかりやすいものとはいえなかったので、これも無理ないことだと思ったものです。

 


かくいう私も、講義を聞いただけでは自由度というものがさっぱりわからず、自主的にいろいろと調べてようやく自分なりに理解でき来た、というのが偽らざる実情です。

 


そこで、今回は初学者の大敵であるこの「自由度」について、私なりの理解をまとめます。なお、繰り返しですが、これは私の我流な理解の仕方なので、間違いや不適切な内容が混入している可能性があることを、最初に断っておきます。「それは違うぞ」という記述を発見した方は、お問合せフォームやコメントより、そっと教えていただければ幸いです。

 

 

 

 

よくある疑問

私の経験上、自由度に関して抱かれることの多い疑問は、次の2つではないでしょうか?

 

  • そもそも、自由度が何のことか分からない
  • よく「自由度n-1」などの表記を見るが、なぜ「-1」されるのか分からない


ここでは、順にこれらの疑問について掘り下げていきます。

 

 

 

 

 

自由度とは?

自由度 (dgrees of freedom) の定義については、手持ちの資料 (1) に次のような説明があります。

 

 

--------------

 

統計量を計算してデータのばらつきや偏りを予測 (推定) する際に、他と独立して扱えるデータ数、または、その予測に有効にはたらいているデータ数を自由度 degrees of freedom と呼ぶ。

 

--------------

 


これは、記述内容そのものは正しいのですが、一方で「この説明を読んで分かるのは、そもそも説明されなくても分かっている人だけ」というタイプの説明と思われます。まあ、こういうタイプの説明は石を投げれば当たるほどあるのですが。

 


それはともかく、これではなかなか理解できないでしょうから、思いっきり単純化して説明してみます。

 


いきなり結論をいえば、自由度とは、互いに独立に測定したデータ数とイコールです。

 


例えば、近所の田んぼに生息するアマガエルの体重に興味があるとします。そこで、実際に田んぼに繰り出して10匹のアマガエルを捕まえて、それぞれの体重を測ったら、自由度は10です。なぜなら、個々のカエルの体重測定値には、それぞれ何の関係性もないからです。

 


1匹目が5.0g、2匹目が6.1gだったとしても、3匹目の体重がこれらの数値に左右されることは原理的にありません。以下同文で、9匹目までの体重が明らかになっても、10匹目の体重には何の影響もありません。つまり、自由度10とは、10個の測定値が互いに関係性を持たず「自由に」存在しうる、というある意味では当たり前なことを述べているわけです。

 


ここでいう「関係性」とは、例えば他のカエルの体重から、次の1匹の体重を予測する場合などを指します。分かりやすい例でいえば、9匹の体重から関係式を作って (回帰です)、その式を使って10匹目の体重を推定するなどが、これにあたります。

 


もし、このように計算によって10匹目の体重を推定した場合、自由度はどうなるでしょうか?この場合、10匹目の体重は、これまでの9匹のそれから「自由」であるとはいえません。むしろ、9匹の体重から導き出された回帰式によって「ひとりでに」決まることになります。

 


つまり、最後の1匹分の測定値が「自由」でなくなったので、自由度は「n-1=10-1=9」となります。

 

 


自由度「n-1」がよく出てくる理由

自由度「n-1」という、よく見るパターンが発生するシチュエーションについては、およそイメージができたことと思います。

 


この「n-1」ですが、その姿を見ることができるもののうち、もっとも身近なのは標準偏差だと思います。標準偏差sの計算式は、以下の通りです。

 

 


ここで、上式中の文字は、それぞれ次の意味です。

 

 

  • :標本の平均値
  • :個々の測定値
  • n:データ数


要するに、個々のデータと平均値の残差を2乗したものを足し合わせて、「n-1」で割って平方根とれば、標準偏差の出来上がりです。

 


ここで、「n-1じゃなくてnなら感覚的に納得しやすいんだけど」と思う方が多いのではないでしょうか。というか、私もかつてはそう思っていました。

 


この「nじゃなくてn-1」となる理由は、ひとことでいうなら「標本平均値が式中で使用されてるから」となります。どういうことか。これから説明します。

 


思いっきり単純化する目的で、n=2すなわち、データ数が2個の場合を考えます。また、実質的に議論と関係する、上式中の分子部分にだけ着目することにします。

 


2つのデータをそれぞれA・Bとしますと、分子部分は、「(A-平均値)の2乗」+「(B-平均値)の2乗」となります。順番に計算する過程を考えましょう。

 


具体的な数値に置き換えてみます。「A=6、B=8」とするなら、平均値は当然ながら7になります。このとき、

 


「(A-平均値)の2乗」=(6-7)^2=1

 


です。このときに重要なのは、「A」に入る数値 (ここでは6とした) は、なんでもOK、すなわち「自由」であるということです。ここでは、あくまでも仮に「6」としましたが、これが13でも573でも100万でも、理屈の上では構いません。

 


ところが、続く「(B-平均値)の2乗」部分では、こうはいきません。なぜなら、平均値はすでに決まっているので (ここでは7)、「A」に入った数値によって、Bに入る数値は「ひとりでに」決まってしまいます。

 


言い換えれば、「平均値が7になるように、Bが帳尻を合わせる役目をしなければならない」ということです。これではBに入る数値の選択では「自由」とはいえませんから、この場合の自由度は、n-1すなわち1となるのです。

 

 

 

母平均と標本平均

「いや、ちょっと待てよ。今標本のうち最後の1つが、平均値の帳尻合わせに利用されるっていったけど、そもそも平均値自体が全部の標本が分かっていなければ決定しないんだから、それって矛盾だろう?」と思われるかもしれません。

 


これは、「母平均」と「標本平均」の区別ができていない場合に陥る疑問です。それぞれの意味するところは、先ほどのカエルの例を再び引用すると、次のように表現できます。

 

 

  • 母平均:全世界のアマガエルの平均体重
  • 標本平均:捕まえたアマガエルの平均体重


このうち、実際に観察ができるのは、標本平均であることには同意いただけるでしょう。まさか、全世界のアマガエルを一斉に捕獲することなどできませんから。

 


しかし、一方で、調査を行う研究者が興味があるのはどちらか?と問われれば、これは母平均でしょう。標本平均は、これを推測するうえでの一種のツールに過ぎないわけです。つまりが、

 


アマガエルの体重の平均値を知りたい。しかし、世界中のアマガエルを調査するのは無理だから、サンプルとしていくつかのアマガエルを調査して、そこから計算で普遍的に通用するアマガエルの体重を導き出す

 

 

ということです。そして、ここでいう「計算」がすなわち統計ということです。

 


説明が長くなりましたが、ここで重要なのは、先ほど示した標準偏差の式のオリジンでは、標本平均の代わりに母平均が使用されているということです。

 


しかし、いま述べたように、母平均というものは普通は分かりません。したがって、計算に使用することも不可能なので、これを標本平均に置き換えたのが、上で示した式です。

 


また、その一方で母平均は、サンプリングした標本と無関係に、常に存在しているものでもあります。いってしまえば、「真理」のようなものです。我々がそれを知ることは事実上不可能ですが、確かにあるもの、と表現できるので、まさに「神のみぞ知る」ともいえます。

 


つまり、母平均を使用していたときの標準偏差の式では、すべての標本が「自由に」決定できます。なぜなら、母平均は標本個々のデータとは無関係なので、先ほど述べたような「帳尻合わせ」に最後の1個のデータが使用されることもないからです。

 


したがって、母平均を使用した場合の標準偏差の式では、分母部分は「n」になります。これを、標本平均でも使える形に置き換えたときに、「帳尻合わせ」問題が発生したため、それによって自由度も「n-1」に調整する必要が生じた、というのが一連の「自由度n-1問題」の背景です。

 


そして、これが「自由度n-1」がいたるところで見られる理由でもあります。平均値に限らず、母集団に関する情報は基本的に知りようがないので、それに代用する形で標本のデータを利用するわけです。そこに何かしらの代表値が出現すれば、この「帳尻合わせ問題」が発生し、自由度をnから1小さい値にする必要が生じるからです。

 

 

 

以上が、自由度について私が理解している内容です。冒頭でも述べましたが、「それって違うのでは?」という部分があれば、ご教授いただければ幸いです。

 


では、また次回に。

 

 

 

Reference

  1. 市原清志 バイオサイエンスの統計学 南江堂

 

 

片側検定と両側検定

$
0
0

こんにちは、黒田です。

 


今回は、時折議論となる「両側検定と片側検定」について考えてみたいと思います。

 


この問題については、個人的には正直あまりこだわる必要はないかなと考えているのですが、気になる人は気になるようですので。

 


片側検定の判定は甘い

だいたいは理解している方が多いと思いますので、主におさらいになりますが、両側検定と片側検定の意味するところを図示すると、次のようになります。

 

 

 

両側検定

 

 

 

 

 

片側検定

 

 

 


図中でオレンジ色を付けた部分に、それぞれの検定では着目し、その確率がどの程度かが論じられるわけです。

 


有意水準が0.05の場合をここでは考えます。この場合、図でオレンジで塗った部分の確率密度の合計が0.05を下回る場合、統計学的に有意と見なす、ということになります。

 


普段よく使うであろう両側検定では、観測された現象の「稀さ」、すなわち中心からどのくらい離れているかという確率は、大小の二方向に均等に割り振られます。統計学的有意の判定水準であるα=0.05のケースを想定すれば、このときは大小の両側に0.025ずつ確率が割り振られることになります。

 


これは、どちらか一方に注目すればα=0.025の片側検定とイコールの関係です。つまり、同じ有意水準で考えた場合、両側検定は片側検定の倍厳しいということです。

 


といっても、繰り返しですが普通は両側検定を使いますので、こちらを基準に言い換えれば、片側検定は、両側検定の倍甘いとも表現できます。

 

 

 

 

 

どちらを使うのがよいのか?

理論上での両者の相違点は、上記の通りですが、むしろ気になるのは「実際上、両者をどのように使い分けたらよいのか?」でしょう。

 


個人的な見解を述べるなら、普通は両側検定を使っておけばよいと思います。この理由は、次の通りです。

 


そもそも、統計学的仮説検定を行うのはなぜなのか?という問いに立ち返るなら、その答えは「観察された現象がどのくらい珍しいものなのか調べるため」でしょう。これは、先ほども述べた通りです。

 


例えば、一標本t検定の場合、これを調べるために、対になるデータの残差を用いて、これが残差平均値とどのくらい離れているのかを調べるわけです。

 


このとき、平均から乖離する方向は、大きい方向と小さい方向の2通りがあります。このことも上で指摘しましたが、そもそもどちらの向きに離れるかは、研究する前には分からないのが一般的です。

 


統計手法は、研究のデザイン段階であらかじめ決めておいて実施するのが理想です。こうした性質上、前もってどちらに振れるか分からないデータを扱うのですから、検定方法もどちらにも対応できるように、両側検定を指定しておくのが正道でしょう。

 

 

 

 

 

片側検定が使える場合とは?

例外的に片側検定でもOKと思われるケースもあることはあります。

 


薬学領域でもっとも卑近な例としては、用量依存性を検定する場合でしょう。例えば、エナラプリル2.5mg/dayと同5mg/dayの降圧効果を比較する場合、常識的に考えれば5mg/dayの方が有意に降圧効果が劣るということはまずありえませんから、こうしたデザインならば片側検定を使うことは合理的といえるでしょう。

 


逆にいえば、このように確率の偏りの方向性が、一方向に限定できると強く推定できるケースを除けば、あえて片側検定を選択する必要性は薄いと思います。

 

 

 


偏りが片方にしか生じないケース

ここで注意が必要なのは、統計量の性質上、偏りが片方にしか発生しない場合があるということです。

 


具体名を挙げれば、F分布やカイ二乗分布がこれにあたり、大きい方向にしか偏りが生じません。これはなぜかといえば、これらの統計量は2乗値だからです。もとの測定値を2乗したことで、負の数がなくなり、大きい方にしか偏らなくなります。

 


ちなみに、t検定などで使う「両側」「片側」確率に対応する用語として、こうした片方にしか偏りが生じない場合では「上側」確率という用語が用いられる場合があります。

 


それはともかく、こうした事情から、これらの分布を用いる検定には実質的に片側検定は存在せず、すべて両側検定となります。まあ、それほど大きな問題にはつながらないとは思いますが、この点はご注意ください。

 

 

では、また次回に。

 

 

 

 

Reference

 

市原清志 バイオサイエンスの統計学 南江堂

 

 

 

固定効果モデルと変量効果モデル

$
0
0

こんにちは、黒田です。

 


このブログのアクセス解析をしていて気づいたのですが、なぜかメタ解析について書いた記事のアクセス数が、突出して多くなっていました。

 


もしやと思い調べてみると、それもそのはず、2016年12月15日時点におけるGoogle検索で、「ファンネルプロット」では1位、「フォレストプロット」では2位にこのブログが表示されているからです。

 


他にも有用なページは多いであろうに、それを押しのけてこのブログが表示されてよいのだろうか?と心配になる部分もありますが、ともあれメタ解析について調べる人の訪問が多いのであれば、それに対応した記事を作成した方がよいだろうと判断しました。

 


そこで今回は、メタ解析における統計手法である、「固定効果モデル」と「変量効果モデル」について書きます。

 

 

 

 

 

 

固定効果モデル (Fixed Effects Model)

ここでいう、「統計手法」とは、メタ解析において各試験の結果を統合するステップを指しています。

 


固定効果モデルについて一言で説明するなら、「研究間の差異はすべて誤差とみなす方法」となります (1)。

 


メタ解析に組み込まれた試験の結果には、当然ながらバラつきがあるのが普通ですが、これをどのように取り扱うかが解析法によって異なり、固定効果モデルの場合はすべて誤差として片づけるということです。

 


ところで、このモデルでは何を「固定」しているかといえば、「真の治療効果」です。治療効果は固定、すなわち一定であるとみなすからこそ、そこからのずれの原因をすべて誤差に帰属させることができる、と表現してもよいでしょう。

 

 

 

 

 

 

変量効果モデル (Random Effects Model)

一方で、対となる変量効果モデルは、研究間で治療効果 (真のeffect size) の差異が存在する、という前提の下で行う解析モデルです (1)。

 


この場合の「差異」とは、例えば被験者属性の差、行なわれた介入の種類の差などを指します。このように、治療効果の違いは存在するものの、その違いはある分布に従ったものであると、同時に仮定されます (2)。

 


要するに、上の固定効果モデルでは、研究間の効果の差異はもっぱら誤差に由来すると見なしましたが、変量効果モデルでは「誤差+研究ごとの偏り」という2つの要素が考慮されていると考えればよいでしょう。

 


ところで変量効果モデルは、「ランダム効果モデル」とも呼ばれますが、何が「ランダム」かといえば、こういうことです。

 


それは、分析に含まれる研究が、メタ解析において設定した基準を満たすあらゆる研究の「ランダム」サンプルであると仮定するという意味です (1)。

 


これは、母集団からいくつかの標本をサンプリングする構図と重なるものがあります。

 

 

 

 

 

 

両者の使い分け

このように、複数の手法が存在する場合には、「どのようなケースでどちらを使用するのがよいのか?」という疑問が生じるのが常です。

 


ここで紹介している、固定効果モデルと変量効果モデルについては、一般的に次ように考えられています (3)。

 

 

-------------------

 

固定効果モデルは既に行われた研究で認められた効果が研究全体として本当に有意だったのかを明らかにしたい場合に用い、ランダム効果モデルはその効果がこれから将来の患者に対しても認められるだろうかを明らかにした場合に用いる。

 

-------------------

 


これは、感覚的にも納得しやすいと思います。というのも、固定効果モデルの方は、「既に行われた研究で認められた効果」を対象にしている、つまりこれが「固定効果」にあたります。

 


一方で、変量効果モデルは「これから将来の患者に対しても認められるだろうか」とあるように、次の「ランダム」サンプルにも結果を一般化できるか?という点に着目しているからです。

 


したがって、これらのモデルは根底にある考え方が異なっており、目的によって使い分けるべきといえます。よく、「試験間の異質性を評価して、それが検出されたら変量化効果モデル、検出されないなら固定効果モデル」という考え方がされるそうですが (2)、これまでを総合すれば、これは褒められた手法ではないでしょう。

 

 

 

 

 

基本は変量効果モデルでOKか

引用文献の1番では、固定効果モデルを使用する具体的なケースとして、次のようなものを挙げています (1)。原文は英語なので、私が訳したものを以下に引用します。

 

 


-------------------

 

製薬企業が被検者1000人を組み込んだ試験を行おうとしている。しかし、処理能力は1回の試験ごとに100人が限界なので、100人ごとの試験を10回繰り返しで行った。この場合、各試験は同じ集団から選出されたことが分かっているので、固定効果モデルをし使用するのが適切である。

 

-------------------

 

 


かなりの意訳になっていることはお断りしておきます。それはさておき、このようなシチュエーションは、実際の臨床試験では稀でしょう。たいていは違う集団から選び出した被験者のデータを統合するわけですから。

 


ここから、基本的には変量効果モデルを使用するのが適切なケースが多いと考えられます。むしろ、固定効果モデルが使用されている場合に、その適否を慎重に吟味するのがよいかもしれません。

 

 

 

では、また次回に。

 

 

 

Reference

  1. https://www.meta-analysis-workshops.com/pages/paperseries.php
  2. 折笠 秀樹 系統的レビューとメタアナリシスの実際 日本循環器病予防学会誌 2003.38;34-42.
  3. http://aihara.la.coocan.jp/?cat=140

 

 

効果量 (effect size) とは何か?

$
0
0

こんにちは、黒田です。

 


メタ解析などの分析手法について勉強していると、「効果量 (effect size)」という概念がよく出てきます。

 


何の気なしに目にする機会が多く、あまり系統立てて調べたことがなかったので、今回これについて理解したことをまとめておくことにしました。

 

 

 

 

 

 

 

効果量とは何か?

まず、効果量とはそもそも何か?といえば、「差の程度を表すもの」と簡単には表現できます。

 


歴史的なことをいえば、これまでは (今でも?)、統計において重要視されていたのは「P値」でした。これが有意水準α、要するに0.05を下回っているかどうかに意識が集中されていたということです。

 


しかし、これはかなり前にも指摘したことですが、同じ現象を検定しても、サンプルサイズが大きくなればP値は小さくなります。つまり、例えばN=100で試験を行い検定したら有意差が出なかったとしても、同じ試験をN=1000で行えば有意差が出る、ということが普通に起こりえます。

 


つまり、P値では群間の差がどの程度の大きさであるかについては、何の情報も得られません。これでは困る、ということでP値以外の指標が必要になったわけです。

 


そこで、昨今ではよく見る「信頼区間 (CI)」が汎用されるようになります。基本的に95%CIの形で出てくると思いますが、これなら例えば「残差平均=5、95%CI:2-8」などとなり、ごく単純化にいえば、「95%の確率で2から8の間に収まる」ことが分かります。

 


ついでにいえば、統計学的仮説検定法と、信頼区間を使う「区間推定法」は互換性がある、有体にいえば形を変えただけの関係性です。要するに、信頼区間を算出することは、検定を行うことと同じ意味を持っていて、具体的には信頼区間が残差データの場合「0」を、比率データの場合「1」を含まなければ、検定で有意であることと同じ意味を持ちます。範囲が分かって、ついでに有意差も分かるということで、使い勝手のよい指標です。

 


しかし、信頼区間もN数によって変化する、というP値と共通の欠点を有しています。具体的には、N数が増えると小さくなります。したがって、信頼区間も万能ではないということです。

 

 

 

 

 

 

効果量の分類

この記事は、参考文献として以下を参照しています。

 


----------------

 

水本 篤・竹内 理 研究論文における効果量の報告のために―基礎的概念と注意点― 英語教育研究 2008 31;57-66.

 

----------------

 


その中で、効果量の分類として、次の2つが挙げられています。

 

  • 平均値の差を標準化したもの
  • 変数間の関係の強さを表すもの

 

それぞれについて、以下にまとめます。

 

 

 

 

 

平均値の差を標準化したもの

「平均値の差を標準化したもの」の具体例としては、「Cohen’s d」が代表的です。上の文献から引用すれば、これは次の式で記述されます。

 


これの意味するところは、「群間の平均値が標準偏差の何倍離れているか?」です。d=1なら、標準偏差分だけ離れているということです。

 


こうしたタイプの効果量は、その代表がdであることから、「d family」と呼ばれることがあります。

 

 

 

 

 

 

変数間の関係の強さを表すもの

Cohen’s dも、指標として明確なものといえますが、数値を見ただけでは直感的に理解しにくい側面もあります。ある意味で、青天井に数値が大きくなる可能性もあるからです。

 


そこで、ある範囲に絶対収まる指標があると便利です。実は、この条件に合致する効果量で、おそらくは無意識的に使っているものがあります。

 


それは、相関における「相関係数r」です。効果量として相関係数を使う場合、絶対値をとります。値が正でも負でも、絶対値が同じであれば効果量としては同じものだからです。

 


すると、効果量rの範囲は0から1までとなり、これなら一目見ただけで効果量の大きさを理解しやすくなります。

 


このような効果量は、rが代表格であることから「r family」と呼ばれます。

 

 

 

 

 

 

効果量の具体例

先に挙げた引用文献には、効果量の具体例とその目安、つまりどのくらいの数値なら効果量が大きい・小さいと見なすのか、がまとめられていますので、以下に引用させていただきます。

 

 

 

 

 

 

 

まとめ

まとめますと、

 

  • 標準化された数値なので、異なる研究間でも差の程度を比較できるのは効果量の特長
  • P値や信頼区間では、N数の異なる報告間の比較は不可能
  • 効果量には「d family」と「r family」がある


ということでしょう。

 

 

では、また次回に。

 

 

 


固定効果モデルと変量効果モデルの使い分け

$
0
0

こんにちは、黒田です。

 

 

先日、メタ解析における固定効果モデルと変量効果モデルについての記事を書きました。

 

 

その中で、「基本的には変量効果モデルを使用するべきケースが多く、固定効果モデルが適するケースは例外的」という旨の記述をしました。

 

 

この点に関して、そのときもReferenceに挙げた下記URLにおいて、より詳細な説明がなされていたことに気づいたので、その要点をまとめておきます。

 

----------------

 

https://www.meta-analysis-workshops.com/pages/paperseries.php

 

----------------

 

 

 

 

 

 

 

 

やはり変量効果モデルが基本

上記Referenceにおいては、研究間の異質性を検定→有意なら変動効果モデルを、有意でないなら固定効果モデルを使用する、というアプローチが間違っている理由、として以下の2つが挙げられています。

 

 

 

理由①

----------------

どちらのモデルを使用するかは、サンプリングの方法にもとづいて決定すべきであり、統計学的仮説検定の結果によるべきではない。異なる集団への介入効果を検討する場合は変量効果モデルが適している。

 


P値が有意でない場合には固定効果モデルを使用するのがよいと考えるのは、有意差が出ないこと=帰無仮説が正しいと考えていることを意味する。検定結果として、P値が有意でないことは、帰無仮説が正しいことを意味しない。

----------------

 

 

これは、冒頭で誤りであるとした方法において通底する、考え方の誤りを指摘するものです。

 

 

つまり、「異質性の検定が有意でない=研究間に異質性はない」というロジック自体が不適切であるという指摘です。

 

 

ここのところは、統計学の基本の「き」になりますが、帰無仮説が棄却できない=帰無仮説が正しい、という図式は単純には成り立たないことに注意が必要です。これは、純粋に被験者数が不足していたとか、別の理由が考えられるからです。

 

 

こうしたことを考慮すれば、大変に説得力のある理由です。

 

 

 

 

 

 

理由②

----------------

まず固定効果モデルを使用することを考慮し、変量効果モデルを使用するには根拠 (すなわち異質性が有意であること) を必要とする、という考え方は明らかに間違っている。

 


実際には、変量効果モデルを出発点とすべきである。変量効果モデルにおいては、真の効果量は研究間で異なっているかもしれないし、そうでないかもしれないと仮定する、すなわちいずれの両方のケースを想定している。

 


解析の一環として、真の効果量を推定するが、その大きさはゼロであっても、そうでなくてもよい。

 


他方、固定効果モデルでは、研究間の真の効果量は同一であることを要求する。それゆえに、固定効果モデルの方が適用条件が厳しい。

----------------

 

 

こちらの理由は、そもそものモデルにおける守備範囲が、変量効果モデルの方が大きいことを指摘するものです。

 

 

真の効果量の大きさは、メタ解析を行う時点では分からないのが普通ですが、こうした真の効果量が不明な状況に対応できるのは、変量効果モデルの方だけということです。

 

 

一方で、もし真の効果量が一定であることが明らかな場合でも、変量効果モデルは使用可能です。逆に、固定効果モデルはこうした条件が想定できる場合しか使用できないので、よほど自信がなければ、変量効果モデルを選択しておいた方が無難といえます。

 

 

 

 

 

 

結論としては、やはり変量効果モデルを基本として、固定効果モデルを使うのは特段の事情がある場合に限るのが、やはり賢明ということでしょう。以前の記事で間違った内容を書いていなくて安心しました。

 

 

 

では、また次回に。

 

 

メタ解析におけるバイアスに関して

$
0
0

こんにちは、黒田です。

 


メタ解析に関する記事を続けて投稿します。

 


メタ解析を行った論文を読んでいると、次のような図が出てきたのを目にしたことがあるのではないでしょうか (1)。

 

 

 

 

 

 

 

 

 

 

これらは、端的にいえばメタ解析に組み込まれた試験のバイアスを評価した結果を示しています。

 


今回は、メタ解析におけるバイアスについてまとめます。

 

 

 

 

 

 

6種類のバイアス

メタ解析のバイアスに限らず、分類にはいろいろな種類があるのが常ですが、ここではReferenceとして挙げている「Cochrane Handbook for Systematic Reviews of Interventions.」の分類に則って紹介します。

 


この資料では、バイアスを以下の6つに分類しています (1)。

 

 

  • 選択バイアス (Selection bias)
  • 施行バイアス (Performance bias)
  • 検出バイアス (Detection bias)
  • 症例減少バイアス (Attrition bias)
  • 報告バイアス (Reporting bias)
  • その他のバイアス (Other bias)


他の分類法でも、これらについては大同小異でしょう。ちなみに、上記の各バイアスについての説明は、Referenceの2番に求めることができます (2)。

 

 

  • 選択バイアス:群への割り付けの際に生じるバイアス
  • 施行バイアス:評価を行う治療とは別の介入が、不平等に行われること
  • 検出バイアス:アウトカム評価に関するバイアス
  • 症例減少バイアス:プロトコールからの逸脱およびフォローアップ失敗により生じるバイアス


報告バイアスに関しては、上記Reference2には記載がありませんが、これは研究結果がポジティブなら論文などの形で報告がされやすく、逆にネガティブなら報告がされにくい、というバイアスのことです。

 

 

 

 

個々のバイアスの詳細なうちわけ

コクランでは、先に挙げた各バイアスをさらに細分化しています (1)。以下にそれぞれ紹介します。

 

 

選択バイアス

ランダム化シーケンス生成 (Random sequence generation)

 

介入群・対照群への割り付けがランダムに行われたことが検証できるように、どのようにシーケンスを生み出したのか、その方法を記述することです。「シーケンス」とは「割り付け順序」などとも表現されますが、要するに割り付けを行う規則性を定めたものです。例えば、実薬をA、プラセボをPとしたとき、被検者6名ごとに「PAAPPA」の順に割り付ける場合などのことです。

 

 


割り付けのコンシールメント (Allocation concealment)

 

「コンシールメント」とは、ある程度EBMに詳しい人でも、あまり聞き馴染みのない言葉かもしれません。これは、非常におおざっぱにいえば、上で説明したシーケンスが、被験者や研究者にバレないようにすることです。

 

 

上の例では「PAAPPA」というシーケンスを提示しましたが、このシーケンスがバレてしまうと、逆算で自分がどちらに割り付けられているか推測がついてしまいます。そうなると、ランダム化を保つために、割り付け方法に追加で手を加える必要が生じますので、選択バイアスの原因となります。つまり、選択バイアスを評価するうえでは、コンシールメントに関する情報も必要ということです。

 

 

 

 

施行バイアス

被験者と研究者の盲検化 (Blinding of participants and personnel)

 

盲検化については、この記事を読んでいるほどの読者には、特に説明不要でしょう。研究者としては、よい研究結果をあげたいと考えるのが常ですから、もし盲検化が行われていないと、実薬群を贔屓したくなるかもしれないからです。

 

 

 

 

検出バイアス

アウトカム評価に関する盲検化 (Blinding of outcome assessment)

 

これも盲検化に関するものです。問題となる理由も上記と同様で、意図的にどちらかの群の評価をよくまたは悪くすることを防ぐためです。二重盲検試験なら通常は問題になりませんが、PROBE (Prospective Randomized Open Blinded-Endpoint) 法などのように、試験期間中はオープンラベルで進行し、アウトカム評価だけ盲検化するデザインもあるので、注意する必要があります。

 

 

 

症例減少バイアス

アウトカムデータの欠損 (Incomplete outcome data)

 

解析から除外されている症例が多いと、RCTにおいてはランダム化の崩れなどを生じるほか、場合によっては恣意的に被検者を選別している可能性が疑われます。RCTでは、ITT解析されているかどうかも、これにかかわります。

 

 

 


報告バイアス

選択的な報告 (Selective reporting)

 

そのままですので、特に解説のしようもありません。

 

 

 

 

 

次回は、具体的にこれらをどのように評価するのかについて述べていきたいと思います。

 


では、また次回に。

 

 

 

 

Reference

  1. Cochrane Handbook for Systematic Reviews of Interventions. Version 5.1.0 http://handbook.cochrane.org/
  2. Jüni P, et al. Systematic reviews in health care: Assessing the quality of controlled clinical trials. BMJ. 2001 Jul 7;323(7303):42-6. PMID: 11440947

メタ解析におけるバイアスの評価法

$
0
0

こんにちは、黒田です。

 


前回の記事で、メタ解析に組み込まれた試験のバイアスについて触れました。また、同じく前回の記事の冒頭で示した以下の図は、メタ解析における個々の試験の各種バイアスを、視覚的に表現したものです。

 

 

 

 

 

 


緑色は「Low risk of bias」、黄色は「Unclear risk of bias」、赤色は「High risk of bias」となります。つまり、「緑・黄・赤」の順にバイアスのリスクが、「低い・不明・高い」ということです。これはちょうど信号機と同じ対応関係ですから、感覚的にも納得しやすいでしょう。

 


しかし、それぞれのバイアスが「Low」「Unclear」「High」であると決めるには、然るべき評価を行う必要があります。この各種バイアスの評価にも、ある程度統一的な基準があるので、今回はそれについて述べていきます。

 

 

 

 


各バイアスの評価基準

それぞれのバイアスが、いずれのグレードに相当するかに関するクライテリアは、前回も引用した「Cochrane Handbook for Systematic Reviews of Interventions」に記載されています (1)。以下に、これを適宜噛み砕いて紹介します。

 

 

 


選択バイアス

ランダム化シーケンス作成

Low risk of bias

 

以下の方法を用いたシーケンス作成が行われている場合

  • 乱数表
  • コンピュータによる乱数発生
  • コイントス
  • カードシャッフルまたは封筒法
  • サイコロを振る
  • くじ引き
  • 最小化法

 


High risk of bias

 

シーケンス作成プロセスにおいて、以下のような非ランダム成分が含まれる場合

  • 誕生日
  • 日付
  • 病院のカルテ番号
  • 以下のような、非系統的なアプローチはなおさらである
  • 研究者の判断による割り付け
  • 被験者の希望による割り付け
  • 別の研究結果にもとづく割り付け
  • 介入が可能であるかを考慮した割り付け

 


Unclar risk of bias

 

「Low risk」か「High risk」かの判断ができない場合

 

 

 

補足

最初にこれを見たときに、正直いって少し驚きました。なぜなら、「Low risk of bias」の基準である封筒法やコイントスなどは、RCTにおけるランダム化の手法としては、好ましくないと一般に見なされているからです。こうした手法を用いた試験は、RCTというよりもCCTに分類されるとみるのが普通で、したがってエビデンスレベルも下がります。

 


しかし、よく考えてみれば、メタ解析において組み入れ対象になるのは、必ずしもRCTだけではありません。そのため、バイアス評価基準もより広範な研究デザインに適用できるように、守備範囲の広いものにする必要があります。封筒法やサイコロなどは、「RCTにおけるランダム化手法」としてみればよくない方法ですが、それでも割り付けの確率自体は均等です。つまり、ここでのクライテリアでは純粋に割り付けが確率論的に均等に行われる方法が採用されているか、という視点から設定されたのだ、と個人的には解釈しています。

 


それはそうと、Low risk of biasに出てきた「最小化法」については少々説明が必要かもしれません。これは、ずいぶん前に紹介した「適応的ランダム化」の手法の一種です。適応的ランダム化とは、割り付けの途中から、群間に生じた偏りを是正する目的で、意図的にバランスをとるように以後の割り付けを行う手法の総称でした。

 


最小化法はこのうち、最初の被験者を1/2の確率で割り付け、以降は研究において注目する要素が均等になるように割り付ける方法です (2)。例えば、「年齢」「性別」「体重」を群間で均等になるように割り付けたいとします。このとき、次の被験者を割り付けたとき、これら3つの要素の均衡度の差が小さくなる方の群に割り付ける、ということです。

 


「おいおい、それじゃあ全然ランダム化じゃなくて、完全に恣意的じゃないか」という声が聞こえそうです。確かに、一見するとおよそ「ランダム化」と名乗ることは不適切そうな手法に思えます。しかし、よくよく考えてみるとこれはなかなかに意味深長な手法です。

 


というのも、ランダム化の本質に立ちければ、この意義は「群間の背景因子の偏りを最小化すること」です。ということは、逆にいえばこの目的が達成できるなら、必ずしもランダム化という手法にこだわる必要はなくなります。適用される研究デザインは異なりますが傾向スコアなども、これに近い考え方をした方法でしょう。その試験における重要な背景因子が既知であるなら、それらが十分に均等になるランダム化以外の方法を採用することは、十分に現実的だと思います。

 


「でも、最小化法だと未知の因子についてはまったく調整できないだろう」と思うかもしれません。それは確かにその通りです。しかし、かといって「普通のランダム化」をすれば未知因子の影響を確実に排除できるか、となればそう単純な話ではありません。

 


なぜなら、ランダム化がなされる被検者は、あくまでも「標本」でしかないからです。ランダム化にて行われているのは、母集団から抽出した標本を、その範囲内で偏りが生じないように割り付ける作業に他なりません。

 


つまり、仮に「厳密な意味での」ランダム化を行ったとしても、母集団からの標本サンプリングの過程で生じるバイアス (選択バイアス) は、避けようがないということです。ランダム化も、決して理想形や究極の形ではないともいえるでしょう。

 


もちろん、選択バイアスがあるのは、どんな割り付け方法でも同じなのだから、これ以上未知因子による影響を受けないようにする方が好ましい、という意見も傾聴に値するものです。しかし、この時点で我々の興味関心は「あくまでも真の意味でのランダム化をしなければならないのでは」という原理主義的な立場から、「実用に耐える方法とそうでない手法の境界はどこにあるのか」というプラクティカルな立場へと変化しています。

 


要するに、十分実用に耐えるのであれば、統計学的な正しさにこだわり過ぎる必要はない、という結論に落ち着きます。コクランがこうしたロジックを構築したのかは分かりませんが、結果として最小化法も、Low risk of biasとして認められています。

 

 

いきおい、最小化法についての説明が長くなってしまいました。次に行きます。

 

 

 

 


割り付けのコンシールメント

Low risk of bias

 

以下のいずれかの方法またはそれに類するもので、被検者および研究者が、割り付けについて知ることができないようにした場合

  • 登録センターでの割り付け
  • 同じ外観で連続番号が振られた薬剤の容器
  • 不透明で封がされた容器に連続番号を振ったもの

 

 

High risk of bias

 

被験者および研究が、割り付けを知りうる、次のような方法

  • オープンランダムな割り付け方法の使用
  • 割り当て封筒がきちんと封印されていない (不透明でないなど)
  • 交互または順番での割り付け
  • 誕生日
  • 症例番号での割り付け

 


Unclar risk of bias

 

「Low risk」か「High risk」かの判断ができない場合

 

 

 

補足

「Unclar risk of bias」にはさらに、コンシールメントについての記述が十分になされていない研究が多いことを示唆する記述があります。

 


そこに挙げられている例は、「封筒法を使用したことは記載されていても、その封筒に番号が振ってあるのか、不透明なのか、封がされているのか、などが記載されていない」というものです。

 


確かに、こうした情報まで論文本文から読み取れる例は少ないといってよいでしょうから、結果的にコンシールメントについての評価は「Unclar risk of bias」となるケースも多いと思われます。

 

 

 

他のバイアスについての評価基準は、次回以降に紹介します。

 


では、また次回に。

 

 


Reference

  1. Cochrane Handbook for Systematic Reviews of Interventions. http://handbook.cochrane.org/
  2. 佐藤俊哉 人間栄養学講座連載ランダム化臨床試験をする前に【第4回】ランダム化の方法  栄養学雑誌 2007. 65(5);255-260.

メタ解析におけるバイアスの評価法2

$
0
0

こんにちは、黒田です。

 


引き続き、メタ解析に組み込まれた試験のバイアス評価基準について紹介します。

 

 

 

施行バイアス

被験者と研究者の盲検化

Low risk of bias

 

以下のいずれかの場合

  • 盲検化がされていない、または不十分であるが、アウトカム評価において盲検化の影響がない場合
  • 被検者および重要な研究者への盲検化が確かに行われており、それが破たんしていない場合

 


High risk of bias

 

以下のいずれかの場合

  • 盲検化がされていない、または不十分であり、アウトカムが盲検化の影響を受ける場合
  • 被検者および重要な研究者への盲検化が行なわれているが、それが破たんした可能性があり、且つアウトカムが盲検化の影響を受ける場合

 

Unclear risk of bias

 

上記のいずれに該当するか分からない場合

 

 

 

補足

例えば、主要評価項目が「全死亡」であるなら、そもそも盲検化の影響は受けません。「自分は実薬群だから、死ぬのを止めよう」ということはできないからです。このような評価項目だけを使用するならば、仮にオープンラベル試験でも、この項目はLow riskと判断されるということでしょう。

 


逆に、盲検化の影響を受ける評価項目の代表格は、「入院」です。「自分はプラセボ群だから、入院して調べてほしい」とか「この人、プラセボ群だからこのまま帰して急変したら、ちょっと面倒かもな。念のため入院してもらおう」ということがあり得るからです。

 


これはメタ解析だけに限った話ではないのですが、「入院」という評価項目は、いろいろな試験の複合エンドポイントにしれっと混じって出てくることが多いです。この場合も、盲検化されていない場合、上記のようなことが起こり得るので、評価項目としての価値が毀損されます。

 


循環器系疾患の治療薬などの試験で、「全死亡・心筋梗塞・脳卒中」などと並んでいることが多いので、うっかり騙されないように注意したいものです。

 

 

 


検出バイアス

アウトカム評価時の盲検化

Low risk of bias

以下のいずれかの場合

  • アウトカム評価において盲検化がされていないが、その評価が盲検化の影響を受けないと判断される場合
  • アウトカム評価における盲検化が確かに行われており、それが破たんした形跡がない場合

 


High risk of bias

 

以下のいずれかの場合

  • アウトカム評価において盲検化がされておらず、その評価が盲検化の影響を受けると判断される場合
  • アウトカム評価における盲検化は行われいるが、それが破たんしたことが疑われ、且つ評価が盲検化の影響を受ける場合

 

 

Unclear risk of bias

 

上記のいずれに該当するか分からない場合

 

 

 

補足

一つ上の項目とほとんど同じ内容なので、説明は不要でしょう。

 

 

 

 


症例減少バイアス

評価項目データの欠損

Low risk of bias

 

以下のいずれかの場合

  • 評価項目データに欠損がない場合
  • データ欠損が生じた理由が、真のアウトカムと無関係である場合
  • データ欠損の数が群間で均等であり、その理由も似たものである場合
  • 二値アウトカムデータの場合、観察された事象のリスクと比較して、アウトカム欠損の割合が、介入の臨床的効果に影響を与える程度でない場合
  • 連続値データの場合、欠損データの効果量が、観察された効果量に臨床的に十分な影響を与えない程度の場合
  • 欠損データが適切な手法で補完されている場合

 


High risk of bias

 

以下のいずれかの場合

  • データ欠損の生じた理由が真のアウトカムに影響する場合、あるいはデータ欠損の数または理由が群間で不均等である場合
  • 二値アウトカムデータの場合、観察された事象のリスクと比較して、アウトカム欠損の割合が、介入の臨床的効果に影響を与える程度である場合
  • 連続値データの場合、欠損データの効果量が、観察された効果量に臨床的に十分な影響を与えうる程度の場合
  • 「As-treated」解析が行われている場合

 


Unclear risk of bias

 

上記のいずれに該当するか分からない場合

 

 

 

補足

記載事項をそのまま和訳すると仰々しいのですが、要するに、

  • 欠損がない
  • 欠損があってもその理由が合理的かつ群間に差がなく、欠損データが評価項目に影響しない程度の場合

に、Low riskになるということです。High risk of biasの項の中にある「As-treated」については、あまり見たことがない表現であるためそのままにしましたが、察するにこれは「per-protocol解析」と同じ意味でしょう。つまり、脱落例を除外した解析方法という意味と思います。

 


また、Low risk of biasに「欠損データが適切な手法で補完されている場合」とありますが、「適切な手法」とは何か?疑問に思うことでしょう。これについては、ひとことではいえない奥深い問題ですので、機会があれば後日触れたいと思います。

 

 

 

 

報告バイアス

選択的報告

Low risk of bias

 

以下のいずれかの場合

  • 試験プロトコールが参照でき、レビューにおいて関心のあるアウトカムがすべて事前に定めた方法で報告されている場合
  • 試験プロトコールは参照できないが、事前に定めたものを含めて、すべての期待されるアウトカムを報告していることが明らかな場合

 


High risk of bias

 

以下のいずれかの場合

  • 事前に定めた主要評価項目がすべて報告されていない場合
  • 1つ以上の主要評価項目が、事前に定めた測定法・分析法・サブセットで報告されている場合
  • 1つ以上の主要評価項目が、事前に設定されたものでない場合
  • レビューにおいて関心のある評価項目の1つ以上が報告が不十分であるためにメタ解析に組み込めない場合
  • その試験で当然報告されることが期待される重要な評価項目を、含んでいない場合

 


Unclear risk oof bias

 

上記のいずれに該当するか分からない場合

 


補足

特段、驚くに値する内容はないと思います。

 

 

 

 

 

その他のバイアス

Low risk of bias

 

その試験に他のバイアスがないと思われる場合

 


High risk of bias

 

1つ以上の重要なバイアスのリスクがある場合。例えば、

  • 特定の試験デザインを採用したために生じるバイアス
  • 詐欺的な内容だとクレームがついている場合
  • 他の問題がある場合

 


Unclear risk oof bias

  • 他のバイアスのリスクが存在する可能性はあるが、次のいずれかである場合
  • 重要なバイアスのリスクが存在するか判断できる情報が不足している場合
  • 特定された問題によって、バイアスがもたらされるという根拠に乏しい場合

 


補足

ある種、ゴミ箱的なカテゴリなので、あまり補足もありません。

 

 

 

 

 

 

というわけで、メタ解析に組み込まれる試験の、各種バイアスの評価基準でした。なんとか年内に説明しきれて、ほっとしています。

 

 

では、また来年にお会いしましょう。

 

 

 

Reference

  1. Cochrane Handbook for Systematic Reviews of Interventions. http://handbook.cochrane.org/

高速道路の安全ドライブ3つのポイント-政府広報: PR

$
0
0
高速道路にはどんな危険があるの?3つのポイントを知って、安全・快適なドライブを!

2017年になりました

$
0
0

あけましておめでとうございます、黒田です。

 

 

2017年酉年になりました。本年もよろしくお願いします。

 

 

このブログを始めて2回目の正月になるわけですが、昨年の正月に書いた記事をいまさら見返したところ、「近いうちにメルマガ事業を始めたい」などと書いていました。

 

 

しかし、その後会社設立・薬局開設に関する準備その他もろもろをしていたところ、すっかり後回しになり、結局1年経っても始められていません。口だけになってしまって、大変申し訳なく思っています。

 

 

というより、ブログの方も定期的に更新するのがなかなかきつく、年の半ばには若干ネタ切れ状態になりました。しかし、時々読者の皆さんからいただくご意見・ご感想などから新しい着想とやる気を得て、何とか継続できている状態です。よろしければ、今後もどんどんコメントをいただければ幸甚です。

 

 

本年は前年比較で目標を下方修正し、マイペースに更新していければ、と考えています。多少なりとも、自分の学びを皆さんに還元できればよいと、併せて考えています。

 

 

では、今年もよろしくお願いします。

データ欠損の3つの様式

$
0
0

こんにちは、黒田です。

 


2017年最初のテーマは、少し前にメタ解析におけるバイアスについて説明する過程で登場した、「データの欠損」です。

 


in vitroにおける実験系や動物モデルのin vivo研究では、欠損データがあると基本的には失敗研究とみなされるため、厳格なデータ測定・収集・解析が要求されます。

 


一方で、ヒトを対象にした臨床研究では、研究者だけの都合で事を進めるわけにはいかないので、試験計画通りいかないことがよくあるのは、ご存知の通りです。その中の1つに、これから数回にわたって取り上げる「データの欠損」が含まれます。例えば、予定した日に病院に来るのを忘れたり、一方的に試験参加を打ち切られてしまった場合などが、欠損が生じる具体例になります。

 


ところで、一口に「データの欠損」といっても、その発生機序はいくつかあり、それによってとるべき対応も変化してくるので、今回はデータ欠損の分類についてまとめます。

 

 

 

 

 

 

3つの欠損パターン

おおまかにいって、データ欠損の様式は次の3種類です。

 

  • Missing Completely At Random (MCAR):完全にランダムな欠損
  • Missing At Random (MAR):ランダムな欠損
  • Missing Not At Random (MNAR):ランダムでない欠損


一応、日本語も併記しましたが、使われることはあまりなく、そのまま英語表記されるケースが大部分です。それぞれについて、以下で解説します。

 

 

 

 

Missing Completely At Random (MCAR)

これはその名の通り、完全にランダムに欠損が生じているタイプです。

 


「完全にランダムに」とは、もう少しいえば「測定値や他の共変数と無関係に」という意味になります。例えば、血液サンプルから何かの測定を行う場合に、研究者が誤ってサンプルをこぼしてしまった、などの原因で生じた欠損が、MCARにあたります。

 

 

 

 

Missing At Random (MAR)

MARは、観察されている変数に依存して、欠損が生じるものをいいます。というと何やら難しく感じますが、具体例で考えれば意外と簡単です。

 


ある職場で、勤務する職員の50m走のタイムを計るとします。ちなみに、測定は日曜日におこない、休日出勤手当はつかないとしましょう。

 


となると、女性職員の参加率は悪くなると予想されます。なぜなら、日焼けのリスクがありますし、汗をかくとメイクが崩れる、適切な運動着を持っていないなどの点で、気が乗らない人が多いと考えられるからです。こうなると、女性のタイムには欠損が多くなります。

 


このケースでは、性別という「観察されている変数」に依存して、データの欠損が生じています。こうしたタイプの欠損をMARと呼びます。

 

 

 

Missing Not At Random (MNAR)

残るMNARは、上記のMARとの対比でいえば、「欠損している変数に依存して生じる欠損」となります。やはり、何やら禅問答のようですが、これの意味するところはこういうことです。

 


上記の50m走の例を今一度使います。このような記録会にはよくあることですが、そもそも運動が苦手な人はあまり参加したくないでしょう。この例では休日出勤手当もつかないわけですから、なかには測定をサボってしまう人も出てくるでしょう。結果として、これらの人のタイムは欠損になります。

 


この場合、「運動が苦手=50m走のタイムが悪い」ということですから、欠損が生じた原因は、欠損値である「50m走のタイム」そのものに求められます。このような欠損のパターンをMNARといいます。

 

 

 

 


とても簡単なまとめ

これまでの内容を、ものすごく単純化してまとめると、次のようになります。

 


欠損が生じている原因は?

  • まったくの偶然→Missing Completely At Random (MCAR)
  • 欠損値以外の測定データ→Missing At Random (MAR)
  • 欠損値そのもの→Missing Not At Random (MNAR)

 

 

 

 

MCARは現実的でない

ここまでが、それぞれの欠損パターンの説明ですが、むしろ実務において気になるのは、「今目の前に起こっている欠損が、どのパターンに該当するか見分ける方法は何か?」でしょう。

 


しかし、注目している欠損がどのパターンに該当するのか、見分けることは通常できません。

 


もう少し説明しましょう。まずはMCARについてですが、そもそもこれは現実的に起こり得ると仮定できるものでしょうか?MCARであるというためには、「欠損はすべての変数から独立したものである」と証明しなければなりません。「独立している」とは「無関係である」と言い換えてもよいですが、「無関係である」ことを証明するのは、論理的には不可能です。

 


したがって、MCARは概念として欠損パターンの1つと位置付けられますが、実際にこれを仮定してその後の解析を行うのは、現実的でないとみるべきです。ある意味で、「机上の空論」に近いものがありますね。

 

 

 

 

MARとMNARは区別できない

ということは、残されたMARとMNARのどちらにあたるのか判断できれば、さしあたりよいことになります。

 


しかし、最初に結論をいえば、注目した欠損がMARとMNARのどちらに該当するか判別することは不可能です。

 


まず、MNARから考えましょう。これは先ほども述べたように、「欠損が、欠損値そのものに依存して生じる」タイプです。まず抑えてほしいのは、欠損のパターンがMNARであることを積極的に証明することはできない、ということです。

 


どうしてか。MNARであることをいうには、欠損値を知る必要があるからです。しかし、これは不可能です。なぜなら、欠損値は欠損している、つまり測定されていない (だからこそ欠損値) からです。データとして存在しないものについて論じることはできないということです。

 


となれば、妥協案として「MARでない」ことを仮定することで、MNARとみなす方法が考えられます。しかしながら、これもまた不可能です。なぜなら、「MARでない」というためには、「欠損のパターンは、その試験で測定されていない変数に依存する」ことを示さなければなりません。

 


これもまたできない相談です。だって「測定されていない変数」は手元にありませんから、検証すること自体が不可能ですからね。ここでも、データとして存在しないものは論じられない、という話になります。

 


したがって、「MARでない」ということをもって、MNARであると仮定するの無理があります。

 

 

 

 

基本的にはMARを仮定する

以上のことを総合して得られる結論は、ただ1つです。基本的には、MARを仮定しておけば問題ありません。

 


MCARは非現実的であるから、もはや考えないことにします。そうすると、心残りはMNARでしょう。「合理的な説明はできないけど、本当はMNARかもしれないのに、それを考慮せずMARを採用するのは不適切ではないか」と。

 


しかし、そもそも冷静になって考えてほしいのですが、MNARにばっちり合致する欠損が出る臨床試験は、そもそもプロトコールからして間違っているのではないでしょうか。

 


「間違っている」という表現ではいささか強すぎるかもしれませんが、欠損値となるデータは「PECO」でいうところの「O」すなわち評価項目に相当するものです。臨床試験でもっとも重要といっても過言でない評価項目それ自体が、欠損値を生じる原因となっているとしたら、試験デザインからして何かがよくないとみるのが普通でしょう。

 


したがって、MNARとなる欠損が出るような試験は、そもそも失敗試験である可能性が高いので、その後の解析云々以前の問題となるわけです。これらを考え合わせれば、これ以上に掘り下げる意義がある欠損パターンは、やはりMARだけになると思います。

 

 

 

次回は、欠損パターンごとの補正方法について論じます。

 

 

 

では、また次回に。

 

 

 

 

 

Reference

  1. 松山裕 経時観察研究における欠測データの解析 計量生物学 2004 25(2);89-116.
  2. http://koumurayama.com/koujapanese/

データ欠損への対処法①

$
0
0

こんにちは、黒田です。

 


前回の記事でデータの欠損を分類し、それぞれについて紹介しました。今回は、データの欠損に対して、どのような対応ができるのかを述べていきます。

 

 

 

 

欠損値への対

欠損値が生じた場合の対応法はいくつかあり、その分類も様々行われていますが、個人的に分かりやすいと思うのは、引用文献1の分類です。

 

  • 除去法
  • 単一値代入法
  • 多重代入法
  • 完全情報最尤推定法


それぞれについて説明します。

 

 

 

 


除去法

その名の通りで、欠損値が存在するサンプルを解析から除去する方法です。除去法は、除去するサンプルの選択基準によって以下の2つに細分できます。

 

 

  • リストワイズ法:1つでも欠損値があるサンプルをすべて解析から除去する
  • ペアワイズ法:相関係数などにおいて対になるデータの片方、または両方が欠損したサンプルを除去する


いずれにせよ、欠損値が含まれるサンプルを「なかったことにする」ことによって、その影響を回避するというコンセプトは共通しています。

 

 

 

 

 

 

 

単一値代入法

これもその名の通りで、欠損値部分に何かしらの単一値を代入する方法です。その「何かしらの単一値」が何かによって、さらにいくつかに分けられます。

 

  • 平均値代入法 (Personal mean score)
  • 最悪値代入法 (Personal worst score)
  • 近似値代入法 (Hot-deck imputation)
  • 前回観測値代入法 (Last observation carried forward)


それぞれ簡単に解説します。

 

 

 

平均値代入法 (Personal mean score)

PMSとも略します。意味はそのままで、欠損値を除くすべての標本の平均値を代入して補完する方法です。

 

 

 


最悪値代入法 (Personal worst score)

略称はPWS。これもそのままの意味で、欠損値以外の標本における「最悪の値」を代入する方法です。

 

 

 


近似値代入法 (Hot-deck imputation)

HDとも表記します。これは、欠損値を生じた被検者と他の属性が近い被験者を探し出し、その人と同じ値を代入する方法です。

 

 

 

 


前回観測値代入法 (Last observation carried forward)

LOCF法などと表記されます。比較的有名な方法なので、名前くらいは見たことがあるのではないでしょうか。これは、欠損値を生じた時点の直前におけるデータで、欠損値を保管する方法です。もっと有体にいえば、「前回のデータで置換する方法」です。その性質から、継時的に反復測定を行う試験などで見られることが多い方法です。

 


具体的には、次のようになります。ある薬剤を服用して、1時間後・2時間後・4時間後・8時間後のある血液検査の測定値が、次のように変化したとします (単位は省略)。

 

 

  • 1時間後:12
  • 2時間後:31
  • 4時間後:24
  • 8時間後:?


ここで、「?」が欠損値だとします。このときLOCF法に則れば、「?」に置換する数値は「24」です。なぜなら、その直前の4時間後時点における測定値が、24だからです。

 

 

 

 

 

 

古典的な手法の問題点

ここまで紹介してきた手法が、欠損値に対する古典的な処理方法です。しかし、少し考えてみれば分かると思いますが、除去法にしても単一値代入法にしても、それなりに大きい問題があります。

 


まず、除去法が妥当性を持つのは、基本的に欠損値の生じ方が、MCARの場合に限られます (MCARについては前回の記事を参照のこと)。MCARを仮定できる状況なら、除去法は見かけ上、得られたサンプルの中からランダムにいくつかを解析から除外することと同じ意味を持ちますから、バイアスの発生は問題になりません。

 


しかしながら、MCAR以外の場合、つまりMARやMNARを仮定すべきケースでは、欠損値の発生は評価項目や他の変数と関連しますから、欠損あるサンプルのみを除外すると必然的に何らのバイアスが生じます。さらにいえば、MCARを仮定できる状況は、それ自体が現実的でないことは、前回の記事でも指摘した通りです。つまり、除去法が妥当性を持つシチュエーションは基本的にないとみてよいでしょう。

 


また、仮にMCARであることが分かっているとしても、除去法によりサンプル数が減ることは、その後の解析を保守的にする、という問題は解決しません。「保守的」とは、つまり有意差が付きにくくなると換言できます。

 


以上のことを総合すれば、やはり除去法は好ましくないとなるでしょう。

 


では、単一値代入法はどうでしょうか。これもやはりそれぞれ問題点を有しています。

 


まず平均値代入法と最悪値代入法は、いずれもデータの変動に対する評価を誤らせる原因となりえます。具体的には、平均値代入法ではデータの変動が過度に小さく、最悪値代入法では過度に大きく評価される確率が増大します。

 


欠損部分に平均値を代入すると、本来よりも「揃った」データになりやすいですし、最悪値を代入すると、悪い方に偏ったデータになるからです。こうしたことから、これらの方法はよろしくありません。

 


次に近似値代入法ですが、これは前述の2つに比べれば妥当性が高そうに思えます。欠損が生じた被験者に近い属性の被験者のデータを使うと、本来測定されたはずの「真の測定値」に近づくと期待できるからです。

 


しかし、これとて「他の属性が近いという理由で、試験において注目している測定値も似たような値になる保証があるのか?」という根本的な疑問を棚上げにしています。加えて、「属性の近い被験者」が誰なのか判断するには、欠損データ以外の共変数を参照するしかありませんが、この共変数には何を使えばよいのか?試験において調査されている変数だけで十分なのか?というようにどこまで行ってもキリがなくなります。こうなると、近似値代入法も苦しくなってきます。

 


残った前回観測値代入法ですが、これは純粋に欠損が生じた被験者自身のデータから補完する値を導き出す点で、他の手法とは異なります。

 


ですが、一見して誰もが抱くであろう疑問、「直前の測定値から、その値が時間を置いても変化しないと仮定できる根拠は何か?」が大きな壁となって立ちはだかります。そもそも、何かの値を測定するということは、基本的にはその値が変動することが予想あるいは期待されるからでしょう。例えば、薬を飲めば血圧が下がる、といった具合です。

 


とすれば、上述の懸念はたいていの場合において正しいことになり、前回観測値代入法もよくない方法と見なさざるを得ません。

 


以上、今回述べた欠損値への対処方法は、いずれも問題あるものでした。

 


次回は、これらの問題を克服すべく生み出された、より新しいアプローチについて述べていきます。

 

 

では、また次回に。

 

 

 

 

Reference

  1. 瀧口徹 歯科疫学統計 −第9報 欠損値・異常値処理法− −不完全データをどう扱うか− ヘルスサイエンス・ヘルスケア 2012 12(2);104-117.
  2. http://koumurayama.com/koujapanese/
     

データ欠損への対処法②-多重代入法

$
0
0

こんにちは、黒田です。

 

 

今回は、前回の記事で紹介しきれなかった欠損値の補完方法について述べます。

 

 

 


多重代入法 (MI)

この記事で取り上げる多重代入法 (MI) は、欠損値の補完方法として現在主流となっているものです。その詳細については、引用文献1に詳しいので、細かい理論などに興味がある方は、そちらを参照いただければと思います。

 


しかし、MIについて私が勉強するときに、いろいろな資料に目を通しましたが、簡単にまとめられているものが少なく、初学者や門外漢が最初に読むにはハードルが高いものが大半だった記憶があります。

 


そこで、できる限り細かい内容は省いて、文献の批判的吟味等を行う上で必要な部分だけを掻い摘んで紹介したいと思います。実際にMIを行う場合にも、現在では統計ソフトが自動で行ってくれますので、あまり細かいことを知らなくても何とかなると思います。

 

 

 

 

 

ベイジアン法について

MIについて薬学領域の研究者や薬剤師を対象に説明する場合、ポピュレーションファーマコキネティクスなどで使用される「ベイジアン法」に例えるとわかりやすいと思います。

 


この記事を読んでいるような読者には釈迦に説法でしょうが、ベイジアン法に基づく薬剤投与設計について簡単に復習すると、これは次のような原理です。

 


ベイジアン法を行えるTDMソフトウェアに、年齢・体重・腎機能 (ScrやCLcrなど) など患者背景にあたるデータを入力します。

 


すると、その情報をもとにソフトに内蔵されている母集団薬物動態パラメータより算出された、その患者の薬物動態パラメータが得られます。

 


このパラメータと、薬剤の投与履歴情報を突き合わせて計算すれば、任意の時間における薬物の血中濃度の推定値が得られます。

 


ここまでは、俗にいう「初回投与設計」に属する内容で、薬物の血中濃度実測値がなくても、血中濃度の予測ができます。この血中濃度予測値が、治療域に入るようにしましょう、というのが初回投与設計の基本的な考え方です。

 


しかし、当たり前のことですが、こうした予測値は実測値と乖離することがよくあります。この原因はいろいろ考えられますが、大きなものとして、TDMの対象となっている患者が、ソフトに内蔵された母集団にとって典型的なパラメータを持っていない、というものが挙げられます。

 


早い話が、ソフトに内蔵された母集団に近い属性を持った患者の投与設計は上手くいきやすいですが、そうでない場合は外れやすいということです。これはもちろん、母集団パラメータから算出 (大抵何らかの関数の形です) される、患者のパラメータ推定値が、実際の患者パラメータと大きくずれているからです。

 


そこで、任意の時間における薬物血中濃度実測値を併せて与えてやることで、「その投与履歴で、その時間に、その血中濃度になるような」パラメータを算出することができるようになります。

 


要するに、初回投与設計では「患者背景+投与履歴」だけの情報しかなかったところに、「血中濃度実測値」という新しいファクターを組み込むことで、患者のパラメータ算出の精度を著しく向上することができます。これがベイジアン法です。

 

 

 

 

 

 

MIの3つのステップ

ベイジアン法の説明に思わぬ紙面を割いてしまいました。早いところ本題に移りましょう。

 


なぜベイジアン法を引き合いに出したのかといえば、「データの代入→分析→結果の統合」という工程が、MIと共通していることを指摘するためです (1)。

 


いま述べた、

  • 代入
  • 分析
  • 統合

が、MIにおける3つのステップになるわけです。引用文献1から、模式図を拝借します。

 

 

 

それぞれ、以下で説明します。

 

 

 

 

 

代入

ここで「代入」するのは、もちろん欠損値に対して、です。

 


簡単にいえば、MIでは欠損値にたくさんの種類の「仮想データ」を代入して疑似的な「完全データ」を作成、これを用いて演算を行い、その結果を統合する方法です。

 


「その代入するデータはどうやって決めるのか?」と疑問に思うことでしょう。これを決定するファクターは主に以下の2つです。

 

 

  • 平均値および分散
  • 他の変数

 

「平均値および分散」は、欠損しているデータの種類、それ自体にかかわるものです。これについては具体例で考えた方が分かりやすいと思いますが、例えば欠損しているデータが被験者の体重であったとしましょう。

 


何の条件指定もなく、乱数発生によって欠損値をしたとすると、代入される数値は理論上「-∞~∞」となります。しかし、常識的に考えてもらえばお分かりのように、被験者が成人なら考えられる体重の範囲は30~150kg程度のものでしょう。このような推論を行うことができるのは、「成人の体重」というデータに対して、「平均値と分散」がどの程度であるか、おおまかなところが分かっているからです。

 


もう1つの「他の変数」は、欠損している種類のデータ以外にかかわるものです。すでにお気づきの方もいるでしょうが、これは回帰に他なりません。なぜなら、ある変数から別の変数を予測しているからです。

 


実際には、MIの下位互換として、他の変数から作成した1つの回帰式から欠損値を求める方法もあるのですが、これは測定の不確定性を考慮できないので、よくないやり方とされています (1)。冷静に考えていただければお分かりと思いますが、欠損値が全て同一の回帰直線上にのる形で予測可能、というのはちょっと不気味でしょう。測定にはバラつきがあるのが普通なのに、それが無視されているからです。

 


以上みてきたように、MIにおける代入のステップでは、ある程度発生させる乱数の範囲を絞る情報を与えることで、結果が収束しやすくなり、現実的な代入が行なえるようになるわけです。

 

 

 

 

分析

この段階は、普通の統計処理と同じです。違いとしては、代入のときに発生させた乱数およびデータセットの数だけ、施行回数が増えるだけです。

 

 

 

 

統合

さて、分析の結果として、発生させた乱数・データセットと同じだけの出力が得られます。

 


このとき、データの平均値と標準誤差が別々に統合されます (1)。代入の過程で作成されるデータセットの数が多いほど、統合の結果得られる標準誤差も小さくなります。つまり、バラつきの少ないデータになるということです。

 

 

 

 

 

データセット数はいくらが目安か?

ということは、代入の際に作成するデータセットは多い方がよい、ということになりますが、いたずらに多くしてもいつまでも演算が終わらず、現実的でありません。

 


そのため、「だいたいこの程度の回数を実行していればOK」という基準が求められるのは、なかば必然です。

 


では、この基準とは何回か?といえば、統一的な基準はない、が正確な回答でしょう。

 


かつては5回くらいでもよしとされていました (1)。ところが、ご想像の通りこの回数は計算機の処理能力向上と共にどんどん増加していき、現在では100-1000回ほど行っていれば、十分な施行回数を重ねたと見なされる傾向にあるようです (2)。

 


このあたりは日進月歩ですし、個人の感覚論になってきますので、ここに挙げた回数もすでに古くなっている可能性もあります。だいたいのオーダーを抑えておけばよいのではないでしょうか。

 

 

 

では、また次回に。

 

 

 

 

Reference

  1. http://koumurayama.com/koujapanese/
  2. http://www.ism.ac.jp/~noma/MultipleImputationDec2016QA.pdf
     

尤度とは何か?

$
0
0

こんにちは、黒田です。

 


ここしばらく続けているデータ欠損の補完方法に関して、まだ説明していない「完全情報最尤推定法」に触れていきたいと思います。

 


ですが、その前に「尤度」とはそもそも何かについて述べておきたいと思います。というのも、上記の「完全情報最尤推定法」とは、端的にいえば尤度を最大化する手法ということになるのですが、少なくとも私が学生だった頃、「尤度」についてきちんとした説明を受けた記憶は皆無だからです。

 


そのため、薬学関係者の中には尤度についてよくわかっていないという人も、結構多いのではないかと推測されます。これが正しいなら、尤度について初歩的な説明をここで述べることは有用でしょう。これが、この記事を作成した動機です。

 

 

 

 

 

尤度の定義

そもそも、「尤度」の読み方さえ分からない人もいるかもしれませんので、念のため確認しておくと、これは「ゆうど」と読みます。

 


尤度の「尤」は訓読みすると「もっとも」ですので、尤度とは「もっともらしさ」ということです。たいていの説明ではこのように述べられていると思います。

 


が、これは分かったような分からないような説明です。ですので、もう少し違った方面から定義について説明します。

 


数学的には、次のように尤度は定義づけられます。事象x1、x2、・・・、xiの生じる確率が、p(x1)、p(x2)、・・・、p(xi)であるとすると、尤度は次のように記述できます。

 

 

-------------
p(x1)p(x2)・・・p(xi)

-------------

 


例えば、コインを3回投げてすべて表が出た場合、尤度は1/2×1/2×1/2です。

 

 

 

 

 

 

確率と尤度はどう違うか?

こうした尤度の定義はずっと前に目にしていたのですが、これがイマイチ分からない状態がずっと続いていました。なぜなら、

 


「これって、確率と全く同じことじゃないのか?」

 


と感じていたからです。

 


実際、尤度と確率は式にすると同じ形になり、したがって具体的な数値を代入して計算した結果も同じになります。ということもあり、ずっと確率と尤度の違いが分かりませんでした。

 


しかし、後にいろいろな資料に目を通して、一応自分なりの言葉で説明できそうなところまで来たので、この記事を書いたわけです。

 


両者の違いは、簡単にいえば次の通りです。

 

 

  • 確率:これから行う施行の結果の確率
  • 尤度:すでに観測された現象に対する説明の「もっともらしさ」


もう少し説明します。上記でコイントスの例を挙げましたが、この場合に確率と尤度の違いが不明瞭になったのは、コインを投げるという施行を行う以前から、表と裏が出る確率がともに1/2であると分かっているからです。

 


これに対して、医学・薬学を含めた自然科学領域では、確率未知の事象を対象にすることがよくあります。例えば、新規開発された医薬品を服用した時の、ある時間における血中濃度などです。

 


「血中濃度は確率とは違うだろう」と思うかもしれませんが、自然界の現象は、何らかの分布形に従うものが多いです。薬物の血中濃度は一般に対数正規分布すると知られていますが、この意味するところは、複数の被験者で測定した特定の薬物血中濃度を対数変換すると、そのデータは正規分布するということです。

 


個々の血中濃度は単純な数値ですが、それらの分布は正規分布、すなわち平均値のところがもっとも大きい確率を示し、両側に行くにしたがって確率が低下する釣り鐘様の分布形となります。要するに、直接的に確率の形で記述できないデータでも、その分布は確率の形で論じることができるということです (だからこそ、確率密度という概念があるわけです)。この場合、平均値や標準偏差などが分かれば、確率密度が求められます。

 


少々話がそれました。上記の薬物血中濃度の例では、その平均値や標準偏差は分かりません、なにしろ新規の薬剤ですから。

 


ともあれ、実際に投与を行い、血液サンプルから測定を行えば血中濃度のデータは手に入ります。例えば、これを30名の被験者に対して行い、結果として30のデータが得られたとき。このときに、「こうしたデータを与える集団の平均値や標準偏差は、いくらであるのがもっともらしいか?」を考えるのが尤度という概念ということです。

 


表現として適切かどうか自信はありませんが、個人的には確率と尤度は同じ現象を「逆の方向から見ている」という風にイメージしています。つまり、これから起こる現象についてどういう結果を与えるか予想するのが確率、すでに起こった現象からもとになった分布を考えるのが尤度、というイメージです。

 


もう少し数学的にいえば、同じ式中の個々の測定値を未知数とみれば確率に、平均値や標準偏差を未知数とみなせば尤度になるといってよいと思います。

 

 

 

 

 

最尤法とは何か?

薬学領域では、尤度は「最尤法」という言葉で登場することが多いという印象を持っています。これについて触れておかないと、上記の説明もあまり意味がなくなってしまいますので、ここで補足しておきましょう。

 


最尤法とは、文字通りなのですが「尤度がもっとも大きくなるようにパラメータを決定する方法」を指します。もう少しいえば、尤度が最大になるときの値をパラメータとして採用することです。ちなみに、ここでいう「パラメータ」とはモデルのパラメータです。具体的には平均値などですね。

 


「尤度が最大になると、具体的に何がよいのか?」と思われるかもしれませんが、こういうことです。

 


尤度が低くなるようなパラメータとは、正規分布を例にしてみれば、明らかに観察されている頻度が低い値を平均値に設定している場合などです。より具体的にいえば、実測値として70や75や78などが多くみられるデータに対して、平均値=10などとした場合です。

 


これでは、設定したパラメータは実際に観察された現象を上手く説明できていないことは明らかですから、平均値=10とした見立ても信用できないことになります。

 


逆に、尤度を大きくするパラメータの場合は、設定したパラメータから導かれる確率密度が、実測データを上手く説明できるものになります。要するに、尤度が大きいときのパラメータは、信頼性が高いということです。

 


そこで、パラメータをいろいろと変化させたときの尤度を連続的に計算し、尤度が最大になるときのパラメータを採用しましょう、というのが最尤法の基本的な考え方です。

 


これで、欠損値の補完方法である「完全情報最尤推定法」を説明する準備が整いました。これについては次回述べます。

 

 

 

では、また次回に。

 

 


Reference

  • http://koumurayama.com/koujapanese/
  • http://myenigma.hatenablog.com/entry/20120624/1340538748
  • http://qiita.com/kenmatsu4/items/b28d1b3b3d291d0cc698

データ欠損への対処法③-完全情報最尤推定法

$
0
0

こんにちは、黒田です。

 


昨今、欠損値への対応として多重代入法 (MI) と並んで主流になっている手法である「完全情報最尤推定法」について、今回は述べます。

 

 

 

 

 

概要

完全情報最尤推定法は、「full information maximum likelihood (FIML)」とも表記されます (1)。

 


これはどういった方法かといえば、「最尤推定」とあるように最尤法の一種です。というか、考え方自体は通常の最尤法と特に変わるところがありません。

 


理由はよくわかりませんが、データ欠損の補完に使用する場合においては、このような特別な名称が与えられているということです (なぜ、この場合に特別な名称が設定されているのかご存知の方がいらっしゃれば、ぜひ教えてください)。

 


では、「完全情報」の意味するところは?といえば、欠損値以外に測定されているデータを含めた、あらゆる情報を用いるという意味合いです (2)。

 

 

 

 

 

 

FIMLでは共分散構造分析法を用いる

「あらゆる情報」とは、どうにも捉えどころのない表現ですので、これについてもう少し掘り下げて書いておきます。

 


例えば、多変量解析における回帰分析では目的変数に影響しそうな要因を、説明変数として式に組み込みます。例えば、大腸がんの発症を目的変数にした場合に、説明変数として食事の内容、喫煙、がん家族歴などを組み込む、という具合です。

 


当然、説明変数になりそうな要因については、被験者においてどうなのか事前に調査を行うわけです。しかし、当たり前のことですが、いくら説明変数を増やしても、目的変数へ影響するファクターを出し尽くすことは不可能です。加えて、現実的な問題として、説明変数を増やし過ぎると回帰式が不安定になるという事情もあります。そのため、多変量解析などの手法では、回帰式組み込まれていない変数などの影響は、考慮することができません。

 


これでは、上で述べたような「あらゆる情報」を考慮した解析はできません。ではどうするか。ここで、「観測されている変数に影響するが、目には見えない仮想的な変数」を導入します。こうした変数を「潜在変数」と呼びます (3)。潜在変数を導入することによって、直接測定されたデータだけでなく、研究者が想定した構成概念も含めた因果関係モデルを作成・分析することができます。こうした分析方法を「共分散構造分析」または「構造方程式モデリング (SEM)」と呼びます。

 


FIMLは、この共分散構造分析法を使用している点に大きな特徴があります。

 

 

 

 

 

MIは多変量回帰式で、FIMLは因子モデルで欠損値を補完する

欠損値以外のデータから欠損値を予測して補完する、という点では上記のFIMLは前回紹介したMIと似た手法です。

 


両者の違いはどこにあるかといえば、分析方法です。まず、MIについて再び述べれば、この手法で用いられているのは欠損値以外のデータを説明変数とした多変量回帰です。もう少しいえば、平均値と標準偏差に分けた回帰を行うことで、測定ごとのバラつきまで再現した回帰といってもよいでしょう。ともあれ、根本的な考え方は、通常の回帰と特に変わるところがありません。

 


一方でFIMLは、先ほど述べた潜在変数を導入することで、総合的かつ仮説的な因子との関連性から、尤度を最大化するように欠損値を推定する方法です。具体的には、期待値最大化アルゴリズム (Expectation-maximization algorithm) などを使用するようです (2)。

 

 

 

 

 

 

MIとFIMLの精度は等価である

このように、似た2つの手法があると、それぞれの優劣を知りたくなるのが常ですが、MIとFIMLはこの点に関してどうなのでしょうか。

 


結論をいえば、両者の精度は等価であると知られています (1, 2)。要するに、どっちでもよいということです。実際にこれらの手法を用いて何らかの研究を行う場合は、統計ソフトその他の台所事情で使う方法を決定すればよいと思います。

 


一方で、既存の研究を読み解く際には、現在欠損値データ解析の手法としてMIとFIMLが主流であることから、これらのうちいずれかの方法が用いられていれば、妥当なアプローチをしていると評価して差し支えないでしょう。

 

 

 

では、また次回に。

 

 

 

 

Reference

  1. http://koumurayama.com/koujapanese/
  2. 瀧口徹 歯科疫学統計 −第9報 欠損値・異常値処理法− −不完全データをどう扱うか− ヘルスサイエンス・ヘルスケア 2012 12(2);104-117.
  3. 志堂寺 和則 共分散構造分析 日本食品科学工学会誌 2008 55(12);645-646.

アイオーデータの液晶ディスプレイは「5年間保証」: PR

$
0
0
「5つの安心」に支えられた長期保証でお客様のディスプレイをしっかりとサポート
Viewing all 345 articles
Browse latest View live