t検定 計算ツール

対応あり・なし・1標本 対応。p値・有意差・効果量を自動判定

入力データはブラウザ内のみで計算され、サーバーには一切送信されません。
Welch t検定(独立2標本) — 異なるグループの平均値を比較します。分散が異なっていても適用できます。
ExcelでA列を選択→Ctrl+C→そのまま貼り付けOK。ヘッダー行(文字)は自動で無視されます。 0 件
ExcelでA列を選択→Ctrl+C→そのまま貼り付けOK。ヘッダー行(文字)は自動で無視されます。 0 件
対応ありt検定(paired) — 同一被験者の介入前後など、ペアになったデータを比較します。
ExcelでA列を選択→Ctrl+C→そのまま貼り付けOK。ヘッダー行(文字)は自動で無視されます。 0 件
ExcelでA列を選択→Ctrl+C→そのまま貼り付けOK。ヘッダー行(文字)は自動で無視されます。 0 件
1標本t検定 — 1群のデータが特定の母平均μ₀と異なるかを検定します。H₀: μ = μ₀
ExcelでA列を選択→Ctrl+C→そのまま貼り付けOK。ヘッダー行(文字)は自動で無視されます。 0 件
例: 血中濃度の基準値5.0mg/Lと比べたい場合は5.0を入力

データを入力して「計算する」を押してください

t統計量・p値・有意差・効果量を自動で算出します

使い方・解説

基本的な使い方
  1. 検定タイプを選択:「対応なし」「対応あり」「1標本」の中から目的に合ったタブを選びます。
  2. データを入力:Excelなどから数値列をコピーして貼り付けるか、1行に1つずつ数値を入力します。
  3. 「計算する」をクリック:t統計量・自由度・p値・有意差判定・効果量・95%信頼区間が表示されます。
  4. 結果を確認:p値が0.05未満なら有意差ありと判定されます。効果量(Cohen's d)も合わせて解釈してください。

サンプルデータボタンをクリックすると、デモ用のデータが自動で入力されます。

t検定とは(仮説検定の考え方)

t検定は「2つのグループの母平均に差がない(帰無仮説 H₀)」という仮定のもとで、観測されたデータがどれくらい稀か(p値)を計算する統計的手法です。

t統計量は標本平均の差を標準誤差で割った値で、この値が大きいほど「差がない」という仮説が成り立ちにくいことを示します。

p値はそのt統計量以上の値が「偶然」起こる確率を表しており、一般的にp < 0.05(5%)を有意水準として用います。ただしこれは慣習的な閾値であり、分野や研究目的によって異なります。

対応あり・なしの選び方
検定タイプ使うシチュエーション
対応なし
(独立2標本)
2つの異なるグループを比較する 男性群と女性群の血圧比較、処置群と対照群の比較
対応あり
(paired)
同一被験者・同一個体の2回測定 薬投与前後の血圧、左手と右手の握力、同じ患者の治療前後
1標本 1つのグループを既知の値と比較 工場ラインの製品重量が規格値と等しいか検証

対応ありt検定は個体差を除外できるため、対応なしより検出力が高い傾向があります。ただしペアの順番が対応していることが前提です。

p値と有意水準の誤解・注意点
  • p値は「差がある確率」ではありません。p値は「帰無仮説が正しいと仮定した場合に、観測されたデータと同等かそれ以上に極端なデータが得られる確率」です。
  • p < 0.05は「統計的有意」を意味するだけです。実際の差が大きいかどうか(実質的有意性)はp値だけでは分かりません。効果量(Cohen's d)を確認してください。
  • サンプルサイズの影響。サンプルが大きいほどわずかな差でもp < 0.05になります。逆にサンプルが小さいと大きな差でも有意にならないことがあります。
  • 多重比較の問題。同じデータに対して複数の検定を繰り返すと偽陽性率が上昇します(複数の検定を行う場合はボンフェローニ補正等を検討してください)。
効果量(Cohen's d)の読み方

効果量はグループ間の差の大きさを、標準偏差の倍数で表した値です。サンプルサイズに依存せず、差の実質的な大きさを示します。

Cohen's d効果量の大きさ解釈の目安
0.2 未満非常に小さい実践的にはほとんど差がないレベル
0.2 〜 0.5小さい注意深く見ると差が確認できる程度
0.5 〜 0.8中程度目視でも分かる程度の差
0.8 以上大きい明確に大きな差がある

Cohen's d = 0.2のような小効果量では、p < 0.05でも実用上意味のある差とは言えないことが多いです。論文ではp値と効果量の両方を報告することが推奨されています。

よくある質問(FAQ)

p = 0.06は有意ではないのですか?

α = 0.05の基準では「有意でない」と判定されますが、それは「差がない証明」ではありません。「このデータでは5%水準での棄却には至らなかった」という意味です。サンプルサイズを増やすか、効果量を確認し総合的に判断してください。

サンプルサイズはいくつ必要ですか?

Cohen's d = 0.5(中程度効果量)、α = 0.05、検出力80%の場合、各群約64サンプルが目安です。小さい効果量(d = 0.2)の場合は各群約200以上必要になります。事前にサンプルサイズ計算(検出力分析)を行うことを強く推奨します。

Welch t検定と通常のStudentのt検定はどちらを使うべきですか?

現代の統計学ではWelch t検定がデフォルト推奨です。分散が等しい場合でもWelchの精度劣化は最小限で、分散が異なる場合はStudent法より正確です。このツールでは対応なし検定にWelch法を採用しています。

データが正規分布に従っていない場合は?

t検定は正規分布を仮定していますが、各群n ≥ 30程度あれば中心極限定理により近似的に適用できます。サンプルが少なく正規性が疑われる場合は、Mann-Whitney U検定(対応なし)やWilcoxon符号順位検定(対応あり)などのノンパラメトリック手法を検討してください。

95%信頼区間はどう解釈しますか?

「真の平均差が95%の確率でこの区間に入る」というものではありません。正しくは「同様の手続きを繰り返した場合、得られた信頼区間の95%が真の値を含む」という意味です。信頼区間が0を含まない場合は、α = 0.05での有意差ありに対応します。

計算結果は論文に使えますか?

このツールはJavaScriptで標準的なWelch t検定・paired t検定の計算式を実装しており、一般的な統計ソフト(R, SPSS, Excel)と同等の結果が得られます。ただし重要な研究用途では、検証済みの統計ソフトウェアでの確認を推奨します。本ツールの利用によって生じた損害について責任を負いかねます。

対応あり検定でペアの数が合わない場合はどうなりますか?

対応ありt検定では介入前と介入後のデータ数が一致している必要があります。数が合わない場合はエラーが表示されます。欠損値がある場合はそのペアを除外して再入力してください。

免責事項・参照

本ツールはブラウザ上のJavaScriptのみで計算を行い、入力データはサーバーに送信されません。計算結果は参考目的でのみ使用し、重要な意思決定(医療・法律・金融等)には専門家にご相談ください。

参照文献:

  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Erlbaum.
  • Welch, B. L. (1947). The generalization of "Student's" problem when several different population variances are involved. Biometrika, 34(1-2), 28-35.
  • Abramowitz, M. & Stegun, I. A. (1964). Handbook of mathematical functions.