こんにちは、黒田です。
以前に、分散分析 (ANOVA) について説明しましたので、今回はその発展形に相当する「共分散分析 (ANCOVA)」について書こうと思います。ANCOVAとは「Anlysis of covariance」の頭文字をとったものです。
分散分析との違いを簡潔に表現するなら、「ANCOVAは交絡を考慮した分散分析である」となります。以下で、もう少し詳細を述べていきます。なお、ANCOVAについてもANOVAのときと同じように、実際の計算過程を示して説明したいところなのですが、この演算はかなり煩雑になり、手計算は無理があるので、今回は観念的な説明にとどまることをあらかじめ断っておきます。
分散分析では交絡の影響が不明
以前の記事で、分散分析の説明をしたときに、疾患の有無と特定の血液検査所見との関係を、例として挙げました。
そのときは、分散分析を行った結果として、疾患の有無と血液検査所見に関連性がありそうであると結論が得られたわけです。
しかし、被検者の有する属性は、他にもたくさんあります。具体的には体重・年齢・性別などです。では、もしこのとき取り上げた血液検査所見が、年齢の影響を受けることが知られているものだとしたらどうでしょうか。今一度、そのときに出した例を示すと以下の通りです。
ここには年齢のファクターは、入っていませんが、例えば疾患Bを有している被験者の平均年齢が70歳で、健常者のそれが40歳だとすれば、これはちょっと無視できないことになるでしょう。
上記は、「交絡」に関する一般的な、さらにいえばありふれた説明です。しかしここで重要なのは、一元配置分散分析では、検討されている要因は一つだけ (この場合は疾患の有無) であり、交絡の影響については分からないということです。
共分散分析と交絡
そこで、何らかの方法でこの交絡を除去して検定を行いたいと考えるのは自然な発想です。冒頭でも述べたように、このときに用いられるのが共分散分析というわけです。
その共分散分析の理論については、アウトラインは普通の分散分析と同様です。ここで思い出していただきたいのですが、これまた以前の記事で、「分散分析と直線回帰は、本質的に同じものである」ということを説明しました。
つまりが、分散分析を行った場合には、回帰直線が得られている、と言い換えてもよいことになります。共分散分析について説明するうえでは、回帰直線をイメージして行うのが早道と思われます。
直線回帰式は、要するに一次関数と同じ形状の回帰ですから、その特性は以下の2つのファクターによって決定づけられます。
●傾き
●切片
私が以前の記事で使った、「疾患の有無-血液検査値」という関係性では片方が名義尺度であり、回帰直線を考えるうえで相性がよろしくないので (本来は、分散分析の記事を各段階でこのことに気づいていればよかったのですが。申し訳ありません)、Referenceから具体例を拝借して、以下の解説につなげたいと思います。
この図は、分散分析と直線回帰の関係性を説明した記事でも引用したものです。ちなみに、これはウサギが食べるエサの量を目的変数、ウサギの体重を説明変数とした回帰直線です。
回帰直線が記載された散布図には、全データがプロットされていますが、これをウサギの雌雄で分けると、次のようになります。
これを見た感じでは、雄の方が食べるエサの量に与える体重の影響が大きそうに感じます。つまり、このケースではウサギの雌雄が交絡となっている可能性が浮上するわけです。
共分散分析を行った結果
そこで、共分散分析の出番となるのですが、細かい計算過程などを全部すっ飛ばしていえば、これを行った結果は以下のようになるそうです。
図中でまるで囲まれている部分に「交互作用」とあります。交互作用とは、2つの変量を選び出したときに、その間で生じる影響のことです。交互作用に関するこの説明は、自分で書いていて上手ではないなと思うのですが、ここではウサギの雌雄が違うと、体重増加と食べるエサの量の関係性が異なるか?を見ていると思っていただければよいでしょう。
さて、この例では交互作用のp値が0.04となっています。有意水準αは0.05に設定されているようなので、これは有意な交互作用ということになります。
このことが何を意味するかといえば、「ウサギの雌雄で回帰直線の傾きに有意差がある」ということです。今一度確認すれば、もとの分散分析では、ウサギが食べるエサの量を目的変数、ウサギの体重を説明変数とした回帰直線が得られていました。
ともあれ、これは直線回帰の側から見たものですので、分散分析風にいえば、「体重によってエサを食べる量に差があるか?」を検定していたということです。
しかし、実際にはもとの分散分析では考慮していなかった、「雌雄」という交絡因子が有意な影響を与えていることが、共変数によって明らかになった、というわけです。これが、共分散分析によって交絡が調整できる簡単な仕組みの解説です。
逆にいえば、共分散分析で交互作用が有意にならない、言い換えれば、回帰直線の傾きに有意差がない (=統計学的に傾きが同じと見なせる) 場合には、注目している因子が交絡として意味のある影響を与えているとはいえないと見なせます。この場合では、観察された差は、元の分散分析で注目している要因の影響である可能性が高まるわけです。
では、また次回に。
Reference
光永貴之 使える統計学基礎講座 (第3回) -直線回帰と分散分析- 農業作業研究 2010 45(2);119-127.