統計・多変量解析とソフトコンピューティング


はじめに

本Webページは拙編著 「統計・多変量解析とソフトコンピューティング」共立出版2012を紹介しています.出版本の2章と9章に間違いがあり,共立出版の許可を得て本Webページに訂正稿を掲載しています.

2014年10月に,拙編著 「統計・多変量解析とソフトコンピューティング 改訂版」共立出版2014が出版の運びとなりました.改訂版では初版のミスを一掃しています.

2018年8月10日 拙編著 「統計・多変量解析とソフトコンピューティング 改訂版」共立出版2014第8章のテューキー・クレーマーの第1種の過誤の確率の式に誤りがありました.読者の皆様にお詫び申し上げますと共に,訂正稿を本Webページに掲載いたします.間違いをご指摘いただいた白石高章先生に深く感謝申し上げます.

本書はMicrosoft Excel 2007 をシミュレーションツールとして活用しています.既刊のExcelを利用した入門書との違いは,全ての節において理論展開に入る前にExcelを用いたシミュレーションにより理論の内容を疑似体験できるように工夫している点です.例えば,独立な事象X, Yの和X+Yの分布,平均の分布,検定統計量Tの分布などをそれぞれまずシミュレーションによりどのような分布となるのかを体験した後に理論を学べるようにしています.多重比較とは何か?多重比較では何が起きているのか?これらの疑問にはまずシミュレーションにより起きている現象を把握することができます.そして,多重比較の問題に現れる,例えばスチューデント化された範囲を与える分布など,これまであまり示されてこなかったような分布もシミュレーションにより確認できます.全てのExcelのファイルは次のURL( https://www.kyoritsu-pub.co.jp/book/b10004891.html)からダウンロードできます.

Excelの機能は飛躍的に高まり,いまや統計・多変量解析に出てくる多くの分布をシミュレーションにより擬似体験できます.読者には,この機能を活用して,20世紀初頭に統計学を開拓した先人達と同じように,まずは(実験データの代わりに)シミュレーション結果の分布を眺めて,その後に理論を考えることをお勧めします.背景にある理論の意義を感じることができれば,長い理論展開を学んでいく旅程は楽しいものになると編者は信じます.

本書のもう一つの工夫は,理論展開に入る前に,目標とそこに至る方針を示し,以降の各節の位置づけを明確にしている点です.複雑な理論展開も意義を分かっていれば,その壁はずいぶんと低くなっていることと思います.なお,本書は大学初年度の微分積分,線形代数と確率の基礎を前提知識としています.また,ExcelとExcel VBAの説明は必要最小限にとどめてあります.

本書の最後ではファジィクラスタリングについて,この分野の第一人者である宮本定明先生に解説をしていただいています.この手法は統計・多変量解析とソフトコンピューティングの接点を示す格好の題材であると編者は考えます.シミュレーションと理論でたっぷりと統計の基本的考え方になじんだ読者に,アルゴリズムで定義されるデータ解析手法の世界に触れたいただきたくて,他の章とは趣の異なる内容を本書の締めくくりとしています.

本書により統計・多変量解析に親しみ,そしてソフトコンピューティングに興味を持つ人がたくさん出てくれれば,編者のこの上ない喜びです.

2012年9月

本書を読んでいただいてご質問,ご意見などありましたら 下記宛てメールをお送りください.

  古橋 武
  名古屋大学名誉教授(令和2年4月より)
  Email: furuhashi.takeshi@*
      *にgmail.comを入れてください.


目次

第1章 本書の学び方

  1.1 計算科学と統計・多変量解析そしてファジィデータ解析
  1.2 本書の構成と学び方

第2章 確率試行のシミュレーション

  本章では確率試行のシミュレーション例を紹介している.本書で多用するRAND()関数による乱数の性質の確認,RAND()関数を用いたコイン投げ,さいころ投げによる大数の法則と中心極限定理の体験,不偏分散の性質の体験などである.シミュレーションを行う上で必要となるExcel関数の使い方を詳細に解説している.

  2.1 乱数について
  2.2 多数回試行のシミュレーション(大数の法則)
  2.3 平均のシミュレーション(中心極限定理)
  2.4 不偏分散のシミュレーション

第3章 母分散が既知の場合の母平均の検定

 本章では母分散が既知の場合の母平均の検定を解説している.母分散が既知であることは実際的ではないが,正規分布に従う乱数(正規乱数)の和の分布や平均値の分布など後の章で必要となる基礎的な分布をシミュレーション例と理論により解説している.

  3.1 検定の実行
  3.2 Excel による検定の実行
  3.3 本章の方針
  3.4 正規分布の性質
  3.5 X + Y の分布
  3.6 X 1 + X 2 + ・ ・ ・ + X n の分布
  3.7 aX + b の分布
  3.8 平均値の分布
  3.9 検定統計量U の分布の理論
  3.10 まとめ

第4章 母分散が未知の場合の母平均の検定

 本章は母分散が未知の場合の母平均の検定を解説している.例えば,生産ラインを新しくした際に得られた標本の平均値が改変前と差があるかどうかの検定が当てはまる.ここでは,改変前の母平均は分かっているとしている.検定統計量には改変後の標本の平均値と不偏分散が用いられる.この不偏分散の統計的性質を明らかにするために本章は長くなっている.正規乱数の2乗値の分布(χ^2(カイ2乗分布と読む)),χ^2分布に従う乱数の和の分布など重要な分布の性質をシミュレーション例と理論により段階的に解説している.読者にとって,最初の大きな山となるであろう.ガンマ分布やベータ関数などχ^2分布の性質を記述するための道具を必要とし,さらには平均値と不偏分散が独立であることを示すために線形代数の知識を必要とする.理論の難しさに対して,起きている現象をシミュレーション結果から把握することは容易である.読者には,本章の各節に配したシミュレーション例を里程としながら学ぶことを勧める.

  4.1 検定の実行
  4.2 Excel による検定の実行
  4.3 t 分布の描画
  4.4 本章の方針
  4.5 X^2 の分布
  4.6 X^2 + Y^2 の分布
  4.7 X1^2+X2^2+・・・+Xn^2の分布
  4.8 独立性の検証
  4.9 検定統計量T の分布
  4.10 まとめ

第5章 母分散の検定

 本章は母分散の検定を解説している.第6章で2つのデータ群同士の平均値の差の検定を解説するが,両群の母分散が等しい場合と等しくない場合で検定統計量は異なる.そこで,両群の母分散を等しいと見なしてよいかどうかの検定が必要となる.標本から得られる両群の不偏分散の比の分布の性質をシミュレーション例と理論により解説している.

  5.1 比較対象の母分散が既知の場合の母分散の検定
  5.2 母分散の比の検定

第6章 母平均の差の検定

 本章は母平均の差の検定を解説している.最も多用される検定と言ってよいであろう.例えば,生産ラインを改変した際に改変の前後で得られた2群の標本のみから,改変前後の母平均の差を検定する場合が当てはまる.両群の母分散に差がないと見なせる場合と見なせない場合でステューデントのt検定とウェルチのt検定の使い分けがなされる.ステューデントのt検定の理論は第4章でほとんど示されているので,第4章を読破した読者にはここの理論展開は容易であろう.

  6.1 母分散が既知の場合の母平均の差の検定
  6.2 母分散が未知で等分散とみなせる場合の母平均の差の検定
      ステューデントのt検定
  6.3 母分散が未知で等分散とみなせない場合の母平均の差の検定
      ウェルチのt検定
  6.4 等分散性の検定の有意水準の考え方
  6.5 対応のある場合の母平均の差の検定
  6.6 まとめ

第7章 多重比較法―名義水準の調整―

 本章からは多重比較法について詳述している.本章ではまず多重性の問題とは何かを明らかにし,多重比較法を定義している.すなわち,多重性の問題とは検定を繰り返すことで,第1種の過誤の確率が所望の有意水準を超えてしまうことであり,多重比較法とはこの第1種の過誤の確率を有意水準以下とする方法である.多重比較法には大きく分けて次の3つのアプローチがある.(1) p値の閾値を調整する方法,(2) 検定統計量の閾値を調整する方法,(3) 多重比較を前提とした検定統計量を導出する方法,である.本章では1番目のアプローチである,ボンフェローニの方法とシダックの方法を解説している.これらの方法では検定統計量は多重比較を考慮したものではない.各群の母平均の検定を繰り返す場合に,全群の第1種の過誤の確率を有意水準以下とするように各群のp値の閾値を調整している.これらの方法では各群の平均値は互いに独立としているために,各群の閾値を求めることは容易である.

  7.1 母平均の検定の例―シダックの方法―
  7.2 多重性の問題
  7.3 ボンフェローニの方法, シダックの方法
  7.4 まとめ

第8章 多重比較法―閾値の調整―

   テューキー・クレーマーによるシミュレーシン_n_10_20_30.xlsm

 本章では,多重比較法の2番目のアプローチを解説している.このアプローチにおいても検定統計量は多重比較を考慮したものではない.母平均の差の検定を繰り返す場合には,各群の平均値の差が互いに独立ではないため,1番目のアプローチは閾値を厳しくし過ぎてしまう.そこで,2番目のアプローチでは,全群の第1種の過誤の確率が所望の有意水準を超えないように,各群の検定統計量の閾値を調整する.まず,ポピュラーなテューキーの方法をシミュレーションと理論により解説している.テューキーの方法の考え方はシミュレーションにより容易に理解できる.しかし,理論は難解である.読者にとっては本書の2つ目の大きな山となるであろう.本書ではまず母分散既知の比較的簡単な場合について理論の基本的な考え方を示している.その後に,母分散未知の場合について理論の拡張を行い,ステューデント化された範囲の理論式を導出している.得られた理論式は解析的には解けないので,数値計算によりステューデント化された範囲を求める方法を紹介している.さらにその後には,各群のデータ数が異なる場合へと拡張したテューキー・クレーマーの方法,各群の母分散が等しいとは見なせない場合へと拡張したゲイムズ・ハウウェルの方法を解説してる,本章の最後では1対多群の比較法であるダネットの方法を解説している.1つの改良案を複数の従来法と比較して,改良案の統計的有意性を確認するにはダネットの方法が適している.

  8.1 母平均の差の検定(データ数が等しい場合)
      テューキーの方法
  8.2 母平均の差の検定(データ数が異なる場合)
      テューキー・クレーマーの方法
  8.3 母平均の差の検定(母分散が異なる場合)
      ゲイムズ・ハウウェルの方法
  8.4 母平均の差の検定(対照群と処理群の間の検定)
      ダネットの方法
  8.5 まとめ

第9章 多重比較法―閾値の見直し―

 本章では,多重比較法の3番目のアプローチである分散分析を解説している.分散分析では多重比較を考慮した検定統計量を導出している.本章では分散分析をシミュレーション例と理論により解説している.分散分析ではいずれかの群の母平均間に差があることを見いだせるが,どの母平均間に差があるかはわからない.そこで,分散分析で有意差ありと判定された場合には,個々の母平均の差に対して検定を適用する必要がある.この個々の検定は下位検定と呼ばれる.下位検定においても多重性の問題を考慮した検定法を適用しなければならない.データ群が3群の場合にのみ適用できる下位検定法にフィッシャーのPLSD法がある.4群以上にはこの下位検定法は適用できない.a群(a >= 3)の場合の下位検定法にはヘイター・フィッシャーの改良法がある.この改良法は,データ群数をa-1としてテューキー・クレーマーの方法を適用する,以上がデータ群の対比較のための検定法であるのに対して,データ群の任意の組み合わせ間の母平均の差を検定する方法にシェフェの方法がある.本章では以上の各手法をシミュレーション例と理論により解説している.本章の最後では,シェフェの方法を対比較に限定して適用した場合には,ヘイター・フィッシャーの改良法がより有効な検定法であることを明らかにしている.

  9.1 母平均の差の検定(差の有無の検定)
      分散分析
  9.2 母平均の差の検定(3 群の場合の下位検定法)
      フィッシャーのPLSD法
  9.3 母平均の差の検定(4 群以上の場合の下位検定法)
      ヘイター・フィッシャーの改良法
  9.4 母平均の差の検定(比較対象の組合せを自在にする検定法).
      シェフェの方法
  9.5 シェフェの方法とヘイター・フィッシャーの方法の比較
  9.6 まとめ

第10章 多群の場合の等分散性の検定

 本章では多群の場合の当分散性の検定を解説している.8, 9章の多重比較法は,ゲイムズ・ハウウェルの方法を除けば全て母分散が等しいことを前提としている.そこで,多重比較法を適用する前に当分散性の検定をしておかなければならない.本章では各群のデータ数が等しい場合のハートレーの方法,および,各群のデータ数が異なる場合のバートレットの方法をシミュレーション例と理論により解説している.ハートレーの方法の理論展開は第8章のテューキーの方法の理論展開の応用である.バートレットの方法は尤度比検定の理論を基にする.尤度比検定の理論の解説は本書の範囲を超えるので,参考文献を挙げるにとどめている.本章では検定統計量の導出を示している.また,バートレットの補正の理論を解説している.

  10.1 等分散性の検定(データ数が等しい場合)
      ハートレーの方法
  10.2 等分散性の検定(データ数が異なる場合)
      バートレットの方法
  10.3 まとめ

第11章 単純回帰分析

 11, 12章では回帰分析を統計解析の応用の観点から解説している.回帰分析は変数間に一次式のモデルを仮定し,推定値と測定値の誤差を最小化する係数を同定する手法である.本章では1入力1出力の一次式の同定を行う単純回帰分析について解説している.回帰式の同定法の理論を示し,回帰式,回帰係数,定数項の検定をシミュレーション例と理論により示している.ここでの検定の理論展開は第4章の理論展開の応用である.本章ではここまでの章と同様の記法による理論展開と並列に,新たに行列表現による記法を導入している.読者にとって行列表現のありがたみはすぐには感じられないかもしれない.しかし,行列表現は多次元の事象からなるモデルの記述に便利である.第12章のp入力(p >= 2, pは整数)の多重回帰分析で威力を発揮する.

  11.1 単純回帰分析の実行
  11.2 単純回帰分析のシミュレーション
  11.3 単純回帰分析の理論

第12章 多重回帰分析

 本章は多重回帰分析について解説している.2入力1出力の一次式の同定を具体例に取りあげ,第11章の単純回帰分析の理論の拡張を行っている.本章では回帰式の有意性の検定統計量を直接表す行列表現を新たに導入している.第11, 12章のまとめとしてp (p >= 1, pは整数)入力の場合の回帰分析を示している.

  12.1 多重回帰分析(2入力)の実行
  12.2 多重回帰分析(2入力)のシミュレーション
  12.3 多重回帰分析の理論(2入力)
  12.4 多重回帰分析(4入力)の実行
  12.5 まとめ:多重回帰分析(p入力)

第13章 クラスタリング

 本章はクラスタリングについて解説している.ファジィクラスタリング研究は1980年代のファジィ技術の草創の時期から今日まで連綿と続く展開があり,データから法則/モデルを見いだすための有力な技術の1つである.クラスタリングはアルゴリズムで定義されている手法であり,本章の多くはアルゴリズムの解説である.c-平均法を解説した後に,クラスター(データのグループ)への所属度を{0, 1}の2値から,区間[0, 1]へと拡張したファジィc-平均法を解説し,多重回帰分析とクラスタリングを組み合わせて,同時に複数の回帰直線を同定できるようにしたファジィc-回帰モデルを解説し,さらに一般化されたファジィc-平均法が確率論に基づくガウス混合分布モデルと密接な関係があることを解説している.最後にファジィクラスタリングの最新の話題である,カーネル関数を用いたファジィc-平均法について解説している.

  13.1 クラスターの概念と非類似度
  13.2 階層的技法と非階層的技法
  13.3 c-平均法
  13.4 ファジィc-平均法
  13.5 ファジィクラスタリングと混合分布モデル
  13.6 カーネル関数を利用したアルゴリズム
  13.7 クラスターの妥当性評価
  13.8 本章のまとめ

数表

戻る