インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(contact@insilicodata.com)にいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/02/14

データ解析を行う時、あなたはどちらのアプローチを取りますか?(1/2):When you perform data analysis, which approach do you take? (1/2)

二クラス分類を行う時のサンプル空間について考えます。
1.サンプル空間に合わせて分類する。
2.サンプル空間を作り直して分類する 

 「サンプル空間に合わせる」ことと、「サンプル空間を作り直す」ということは、具体的にはどのようなことを意味しているのでしょうか。ターゲットとする解析目的は二クラス分類を行い、少しでも高い分類率を達成し、出来れば二つのクラスに分ける要因の解析も行いたいということです。 

◇サンプル空間は、用いたパラメータの種類と数で決定されます
 サンプル空間は用いたパラメータにより構築されます。従って、「サンプル空間にあわせて」分類するということは、「サンプル空間の形を変えない」という意味です。従ってこの要求事項は、サンプル空間の構築に必要となるパラメータの種類と数を固定することで実現されます。この条件下で分類手法を適用することで「サンプル空間に合わせた分類」が実現されます。
 では、「サンプル空間を作り直す」とは具体的にどのようなことでしょうか。これは、先と逆の操作、すなわちパラメータの組み合わせや数を変えるということを意味します。このサンプル空間再構築のために行う手続きを「パラメータ選択(あるいは特徴抽出(Feature selection))」と言います。


◇サンプル空間と分類手法(線形及び非線形)との関係
 利用するパラメータが固定されている場合。即ち、「サンプル空間が固定されている状態」の時、少しでも高い分類率を達成するために非線形分類手法が良く利用されます。これは、同じパラメータ群と同じサンプル群を用いて二クラス分類を行うならば、線形分類手法よりも非線形分類手法による分類結果の方が常に高い値を示すためです。これは原理的に明白です。

 一般的に、与えられた、あるいは定まったパラメータ群を用いて作成されるサンプル空間は図1に示されるように、AとNのサンプル群がバラバラになってサンプル空間上に存在しています。このようなサンプル空間である場合、図1に示されるような線形の判別関数を用いた場合はパラメータの係数(パラメータの大小と方向性)をどのように変えても、サンプル空間上に複雑に分布しているサンプル群を完全に分類することは極めて困難です。
        
 
          図1.サンプル空間の線形分類イメージ図

 図2は図1と全く同じサンプル空間を代表的な非線形分類手法である(ニューラルネットワーク(Neural network)と決定木(Recursive partitioning)とで分類した時の様子を示しています。図2のように線形分類手法では分類不可能なサンプル空間も非線形分類手法を適用することで完全分類が実現できるようになったことが分かります。
 この場合、サンプル空間の形を変えることなく分類手法を線形から非線形手法に変えることで100%分類を実現しています。すなわち、1番の「サンプル空間に合わせて分類する」が実現されたことになります。これは、非線形分類手法が有する極めて強力な分類能力のおかげと言えます。
図2. 図1と同じサンプル空間を非線形分類手法を適用したイメージ図

 一方、図3は線形分類手法であっても完全分類される場合が示されています。すぐわかるように、この場合のサンプル空間は図1と図2とは全く異なっていることが分かりますね。
すなわち、2番目の「サンプル空間を作り直して分類する」とはこのような場合や手順を意味しています。
図3. 作り直されたサンプル空間に対して線形分類手法を適用したイメージ図
  
  これで「サンプル空間」と線形分類及び非線形分類との関係が大まかにイメージされたかと思います。では次に、実際に二クラス分類を実行するに当たり、このようなサンプル空間の扱い方の問題がデータ解析にどのような結果や効果を与えるかについて考えてみましょう。


文責: 株式会社 インシリコデータ 湯田 浩太郎

0 件のコメント:

コメントを投稿