こんにちは、黒田です。
先日、多重ロジスティック回帰分析に関する記事を書きましたが、「イマイチよくわからなかった」というご指摘をいただきました。
全体的に観念的な内容が目立ち、具体性に乏しい記事でしたので、これも当然かと思います。というわけで、今回は実例を示しながら、改めて解説してみたいと思います。
本来であれば、自分で適当なデータを作って、それにロジスティック回帰分析をかければよいのですが、残念ながら私は現状、統計ソフトを利用可能な環境にいないので、これは不可能です。
そこで、代替手段として、ロジスティック回帰分析が行われている研究論文を引用し、それをもとに記事を書こうと思います。引用するのは、こちら。
--------------------
山田晴生 他 ロジスティック回帰分析を用いた脂肪肝発症確率および多重リスク症候群の減量効果 糖尿病 2007. 50(1);9-15.
--------------------
論文の内容としては、タイトル通り、脂肪肝発症におけるリスクファクターを探索するために、ロジスティック回帰分析を実行した、というものです。この場合、目的変数が「脂肪肝を発症する・しない」という名義尺度なので、ロジスティック回帰分析の適用となります。他方、説明変数はどんな尺度でもOKですが、ここではBMIなどの間隔尺度になっています。
それはともかく、結果として、次のような表が得られています。
上は男性、下は女性のデータです。ここで、表にある「β0」および「βi」に注目してください。
β0は、定数項です。この分析では、BMIやHbA1cが説明変数にされていますが、これらの変数で説明できない部分と思えばよいでしょう。
他方のβiは、偏回帰係数です。要は、個々の説明変数が与える影響を数値化したものです。直線回帰における傾きに相当するものと思ってOKです。
しかし、偏回帰係数を見ても、イマイチピンと来ないでしょう。もっと直感的に分かりやすいのは、その右隣にある「adjusted odds ratio」です。これは、字のごとく「オッズ比」です。以前の記事でも述べた通り、オッズ比が得られるのがロジスティック回帰分析の特長の1つでもあります。
オッズ比の解釈の仕方
例として、男性のBMIのオッズ比を見ると「1.639」とあります。このデータをどのように解釈すればよいのでしょうか。
ここで出てくる、BMIやHbA1cなどの間隔尺度の場合、「その値が1増加したときに、目的変数の確率が何倍になるか?」ということを意味しています。
したがって、BMIのオッズ比が1.639とは、「BMIが1増加すると、脂肪肝の発症率が1.639倍になる」という意味になります。
ちなみに、このオッズ比の95%信頼区間 (95%CI) は「1.443-1.861」と「1」をまたいでいないので、このオッズ比は有意水準α=0.05で有意な数値と見なすことができます。
オッズ比が算出されている説明変数が名義尺度 (男性・女性、ある薬の服用のある・なし、など) の場合は、もっと単純で、「その説明変数があることで、目的変数の確率がオッズ比倍になる」ということです。
オッズ比が1未満の場合の解釈
オッズ比は1を下回る値になることもあります。引用した論文中ですと、男性におけるHDLがそれにあたります。
では、このときのオッズ比「0.978」はどう解釈すればよいでしょうか。先ほどの例に倣えば、「HDLが1増加すると、脂肪肝発症率が0.978倍になる」とみても、もちろんOKです。
あるいは、逆の見方もできます。具体的には、1÷0.978=1.022なので、「HDLが1増加すると、脂肪肝に1.022倍なりにくくなる」とも表現可能です。日本語としては、こちらの方がこなれている感はあります。
偏回帰係数とオッズ比の関係
ところで、偏回帰係数とオッズ比とはどのような関係にあるのでしょうか?上に挙げた表では、隣同士に位置していることから、何かしらの関係性がありそうなことには感づいているかもしれません。
結論をいえば、「オッズ比の自然対数をとれば、偏回帰係数になる」です。普通は、表は左→右の順にみると思うので、逆に表現すれば「自然対数の底であるeを偏回帰係数乗すればオッズ比になる」ともいえます。
これには、ちょっと説明が必要でしょう。そのために、一番簡単な例として、説明変数が1つだけのときを考えます。引用した論文でいえば、説明変数がBMIだけのケースと思ってください。このとき、ロジスティック回帰モデルは次の式で記述できます。
ここでの「log」は自然対数です。また、各文字はそれぞれ次の意味です。
●β0:定数項
●p:確率
●β1:偏回帰係数
●x1:共変数
話を簡単にするために、共変数x1はここでは名義尺度とします (ある検査所見の陽性・陰性など)。このとき、共変数ありの場合 (x=1) となしの場合 (x=0) で、それぞれ上式に当てはめ、その差をとると、次のようになります。
右辺は、定数項であるβ0が消えて、偏回帰係数であるβ1のみになりました。
他方の左辺ですが、分母子になっている文字式は、よく見ると「オッズ」の対数をとったもの、すなわち「対数オッズ」です (これがオッズに相当することは、2×2分割表などを使って考えていただければわかると思います)。
演算では差をとったのに、割り算になっているのは、対数だからです。式が見にくくなるので、これ以上整理していませんが、上記式をもう1回変形すると、左辺はlogの中身が共変数あり/なしの場合のオッズの比、すなわちオッズ比になります。
このオッズ比の自然対数をとっているので、結局左辺は「対数オッズ比」を意味しています。ここから、先ほど述べた「オッズ比の自然対数をとれば、偏回帰係数になる」ことが分かります。
このような原理で、定数項部分を相殺し、注目する説明変数の影響を算出するのが基本的な理論になります。
では、また次回に。
Reference
山田晴生 他 ロジスティック回帰分析を用いた脂肪肝発症確率および多重リスク症候群の減量効果 糖尿病 2007. 50(1);9-15.
朝倉こう子・濱崎俊光 医学データの統計解析の基本 回帰分析:ロジスティック回帰分析を中心として Drug Delivery System 2016. 31(1);72-81.