Dr.しーぼると(MD, PhD)
外科医|疫学研究者|産業医・労働衛生コンサルタント
地方旧帝大を卒業後、いわゆる「東京の御三家」で初期研修を行い、その後は市中病院で外科医として診療に従事。基礎系博士号を取得し、現在は公衆衛生系大学院にて疫学研究を行う一方、産業医・労働衛生コンサルタントとしても勤務。
「基礎医学」「臨床医学」「社会医学」を横断してきた経験を活かし、疫学に関するテーマを初学者にもわかりやすく解説します。
医学研究や臨床データの解析では、「2群間の比較」は頻出する基本かつ重要な課題です。
基礎系、臨床系関わらず、初めて研究を行う方がまず出会う統計解析は2群間の比較ではないでしょうか?
本記事では、「変数の種類」「データの分布」「対応の有無」などの条件に応じて、適切な統計手法をどのように選ぶべきかを体系的に解説します。
本ブログでは、疫学の非専門家に対し、あくまでも、ツールとして疫学に関連するノウハウを使えるようになっていたくことを目的としております。従って、各解析手法の詳細な解析は行いません。
【基本の3ステップ】統計手法選択前に確認すべきこと
- 対応(対応あり or なし)
- 変数の種類(量的変数、質的変数など)
- データの分布(正規分布 or 非正規分布)
それぞれ解説します。
1. 対応(paired)か、非対応(unpaired)か?
比較する2群が同じ対象からの繰り返し測定(例:介入前後、左右比較、時間差のある検査値)であれば「対応あり」となります。一方で、異なる群(例:介入群 vs 対照群、男性 vs 女性など)であれば「対応なし」です。
対応の有無によって使用できる検定は大きく異なり、「対応あり」では差分をとって1群の解析とみなす手法(対応のあるt検定など)を用います。
2. 変数の種類(variable type)は?
比較対象の変数が量的変数(quantitative variable)なのか、質的変数(qualitative variable)なのか、さらに質的変数は、二値変数(binary)なのか、あるいは複数のカテゴリー変数(categorical)なのかを確認します。
量的変数(quantitative variable)とは、数値で測定されるもの(例:体重、血圧、スコアなど)であり、二値変数はYes/No、陰性/陽性など。カテゴリー変数は3群以上に分類されるもの(例:血液型、職種など)を指します。
注意: 測定尺度(尺度水準)によって適切な検定が異なるため、名義尺度(nominal)か 順序尺度(ordinal)かの違いにも注目しましょう。
3. データの分布は正規分布(normality)か?
量的変数を扱う場合、まずそのデータが正規分布に従っているかどうかを確認する必要があります。多くのパラメトリック検定(t検定など)は正規性(=正規分布をとっていること)を前提としています。
【分布の確認方法】
・標準偏差と平均値のバランスをざっくり見る
・Q-Qプロットやヒストグラムでの視覚的確認
・Shapiro-Wilk検定(小標本向き)
※ 私はまずヒストグラムや確立分布図を描出して視覚的に確認しています。多くの場合、この際に用いた図や検定結果は論文中で示す必要はありませんが、各変数の分布となぜその解析手法を選択したのか、ということは説明できるようにしておきましょう。
もし正規分布に従っていなければ、ノンパラメトリック検定を用いる必要があります(例:マン・ホイットニーU検定、ウィルコクソン検定など)。
このように、「対応の有無」「変数の種類(質的/量的)」「分布の正規性」の3点を確認することで、統計手法の選択を適切に行うことが可能になります。
【手法早見表】条件ごとの統計手法一覧
以下の表は、2群の比較を行う際に必要な判断プロセスと、適切な統計手法をまとめたものです。
「対応の有無」「変数の種類(質的/量的)」「分布の正規性」の確認を行った後は、比較する群の数とサンプル数に応じて手法を選択します。
※ 表には多群間(3群以上)比較の手法も掲載しています。
対応性 | 変数の種類 | 分布 | 比較群数 | 症例数 | 適切な統計手法 |
---|---|---|---|---|---|
なし | 量的変数 | 正規 | 2 | 総数30以上 | スチューデントのt検定 |
>2 | 1群15以上 | 分散分析(ANOVA) | |||
量的変数 | 非正規 | 2 | – | マン・ホイットニーのU検定、ウィルコクソンの順位和検定 | |
>2 | クルスカル・フォリス検定 | ||||
二値変数 | – | 2 | 総数20未満 | フィッシャー正確確率検定、ピアソンのカイ二乗検定 | |
≧2 | 総数20以上 | ピアソンのカイ二乗検定 | |||
打切りのある二値変数 | – | ≧2 | 総数10以上 | ログランク検定(生存解析において) | |
あり | 量的変数 | 正規 | 2 | 15組以上 | 対応のあるt検定 |
>2 | 15組以上 | 反復検定による分散分析 | |||
連続変数 | 非正規 | 2 | – | ウィルコクソンの符号順位検定 | |
>2 | – | フリードマン検定 | |||
二値変数 | – | 2 | – | マクネマー検定 | |
相関 | 量的変数 | 正規 | – | 総数20以上 | ピアソンの相関係数 |
量的変数 | 非正規 | – | – | スピアマンの順位相関係数、ケンドールの順位相関係数 | |
二値変数 | – | – | – | ケンドールの順位相関係数、カッパ係数(一致性) |
【実践Tips】現場で迷わないためのポイント整理
- 「分布の確認」はShapiro-Wilk検定やヒストグラム、Q-Qプロットで行う
t検定などのパラメトリック手法は「正規分布に従う」という仮定に基づいています。そのため、分布の確認は極めて重要です。
Shapiro-Wilk検定は小標本でも有効で、正規性の有無を客観的に判断できます。
ヒストグラムやQ-Qプロットも活用して、直感的な確認を加えましょう。 - 小標本(n < 30)では、ノンパラメトリック手法がより安全
標本サイズが小さいと、分布が正規かどうかの判断も曖昧になりがちです。こうした場合は、マン・ホイットニーU検定やウィルコクソン検定など、分布に依存しないノンパラメトリック手法の使用が推奨されます。
t検定を使いたい場合でも、「Welchのt検定」など、等分散を仮定しない手法の検討も有用です。 - 介入前後の比較や左右差評価は「対応あり」と見なす
一見すると別の群のように見えるデータでも、同一個体からのデータであれば「対応あり」です。
例えば、術前後の可動域比較、右膝と左膝の筋力比較などは対応ありの解析が求められます。
この見極めを誤ると、不適切な統計手法で解析を行うことになり、結果の妥当性が損なわれる恐れがあります。
【まとめ】適切な手法選択が研究の信頼性を左右する
2群の比較は、基礎研究、臨床研究にかかわらず、あらゆる医学研究において頻出する基本的な解析です。一見シンプルに見える比較でも、変数の種類・対応の有無・データの分布といった条件によって、使用すべき統計手法は大きく異なります。
不適切な手法を用いた場合、統計的な有意差が得られても科学的信頼性に欠ける結論になってしまう可能性があります。逆に、適切な手法を選んで解析を行えば、データの特性に即した説得力ある主張が可能となります。
本記事の早見表を活用することで、「どの検定を使うべきか」で迷う時間を減らし、より本質的な研究設計や結果解釈に注力できるようになっていただけると幸いです。
Dr.しーぼると(MD, PhD)
外科医|疫学研究者|産業医・労働衛生コンサルタント