インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(contact@insilicodata.com)にいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/08/04

チャンスコリレーション(偶然相関)とは:Chance corelation

 「チャンスコリレーション(偶然相関)」とは何でしょうか:

What is the "chance correlation" ?




 「チャンスコリレーション(偶然相関)」の言葉をご存知ですか?:

Do you know the term "chance corelation" ?



◇    全く不思議ですが、「チャンスコリレーション」あるいは「偶然相関」という言葉をインターネット上で検索しても殆どヒットしません。統計や多変量解析/パターン認識関連で、個々の手法等に関する情報や解説は山ほど出てくるのですが、データ解析を実際に行う時に最も重視すべき「チャンスコリレーション(偶然相関)」に関する議論や討論が殆ど無いことに本当にビックリします。 この原因としては、統計や多変量解析/パターン認識の専門家が主体でWEBを書いており、実際にデータ解析を行って、そのデータ解析の結果やその正しい解析を重視するという立場で考えていないため、あるいはこのような運用技術を重視していないせいかと思います。

◇    データ解析手法自体も大事ですが、実際のデータ解析に利用されてこそデータ解析手法としての価値が出るはずです。 例えば、自動車を作る技術は大切で、機能もディスプレイしても素晴らしいものを作るのは大変な技術です。 しかし、自動車は実際に人を乗せ、荷物を積んで走ってこそ価値の出るものです。 事故を起こさないための交通ルールの整備や、快適に運転できる運転技術の普及、天候や地形に左右されずに確実に移動できる技術、車種が異なっても安全に運転できる技術等、自動車の運用には様々な技術やルールが必要です。

◇    統計や多変量解析/パターン認識も、手法自体の問題も重要ですが、自動車のように一般に普及させ、道具のように広く利用されるためには、これらのデータ解析手法を確実に個々の分野に正しく適応する技術の確立と、その普及も大事と考えます。

◇    確かにこれを書いている私自身、統計や多変量解析/パターン認識の専門家ではありません。これらのデータ解析技術を自分の研究分野(創薬、ケモメトリックス、化学解析、等々)に適用し、素晴らしい、あるいは新しい事実を導き出すという事を実施目的として日々データ解析を行っております。従って、データ解析手法自体に興味があるわけではありません。この立場から、いかに正しいデータ解析を行うか、いかにすれば貴重な情報を取り出せるかの方に注力しています。
    もっとも、私自身はKY法という新しいデータ解析手法を開発しておりますが・・。これは、従来からの手法をそのまま適用しているだけでは、自分が行っている研究分野(安全性(毒性)解析)の解析が出来ないと感じたため、必要に迫られて開発したもので、私のオリジナル手法です。

◇    統計や多変量解析/パターン認識手法を用いてデータ解析を行い、何らかの情報を取り出すという時に最も気をつけなければいけないことは、データ解析手法そのものの新規性や理論ではありません。そのデータ解析が正しく行われているか、その解析が手法の限界を超えてはいないのか、正しい適用をしているのか、データ解析手法以外の適用分野特有の問題をきちんと満たしているのか、等々の様々な問題をクリアしてデータ解析を行う事です。

◇    データ解析を行っていると、学会発表等では新しいデータ解析手法を一歩でも早く適用して、発表したり、複数の手法を組み合わせて新規性を出したり等されており、データ解析の手法に重点が置かれた発表が多いようです。しかし、殆どの研究者の方はデータ解析を道具として使う立場の方々ですし、そういう方々が統計や多変量解析/パターン認識を行ってこそ真の普及ですし、データ解析が社会に役立つ手法となります。そのような方々は、データ解析の本質を考えて、失敗のないデータ解析を行う事に注力するべきです。そうでないと、データ解析からとんでもないしっぺ返しを受けることになります。


◆    「チャンスコリレーション(偶然相関)」は正しいデータ解析を行う上でクリアすべき、最も重要な問題です。また、最小サンプル数の問題や、線形/非線形問題にも関係してきます。



◇データ解析の外見と中身の違いを生じさせる悪魔の要因:「チャンスコリレーション」

The devil factor which induce serious big difference between appearance and contents of data-analysis


◇    チャンスコリレーション(偶然相関)の言葉の通り、全く偶然に解析が成功する事を意味します。つまり、解析目的とは全く関係のない要因によりクラス分類では100%分類が達成され、フィッティング(重回帰)であっても100%の相関が簡単に実現してしまいます。ちょっと喩が良くないですが、外から見るときれいな容器でありながら、中には腐った食べ物が入っているような状況です。外見が素晴らしいので、中に入っている物も当然素晴らしいと考えががちですが・・・・。

◇    データ解析の常識でいえば、100%分類や100%相関は出来うる最高のデータ解析が出来た(外見が素晴らしい容器となった)ことを意味しますが、これが全くの偶然により達成される場合があり、これがチャンスコリレーション(偶然相関)が起こった(容器の中に入っている物が腐っている)結果であることになります。このために、多変量解析/パターン認識のデータ解析では常にこのチャンスコリレーション(偶然相関)に注意することが必要です。



◇失敗のないデータ解析を行うため、常に留意すべき「チャンスコリレーション」の問題:

"Chance corelation" which should always mind in order to make successful data-analysis


◇    データ解析結果の信頼性を高く保ち、後から失敗解析とすることのないようにするには、データ解析の実施にあたり常に守らなければならない留意点がいくつかあります。その中でも、よく議論されるチャンスコリレーション(偶然相関)の問題は、知っていてもデータ解析に夢中になると忘れてしまう事が多いことなので、特に注意が必要です。

◇    チャンスコリレーション(偶然相関)の問題が、実際のデータ解析上でどのような形や問題として出てくるかについてしっかりと理解しておくことが大事です。この問題がクリアされていなくとも、データ解析自体は正常に実行されるので、データ解析を行っている研究者自体が常に注意しなければなりません。結局、チャンスコリレーション(偶然相関)が起こったデータ解析では、そのデータ解析結果の信頼性が極めて低いために、分類結果や、その結果を用いて行う要因解析、さらには予測等の作業の一切が無駄になります。自分の仕事に失敗結果のしわ寄せがきてしまいます。



◇チャンスコリレーションが起こっていることはどのようにしてチェックしますか:

How to check that chance corelation has happened ?


◇    一般的にチャンスコリレーション(偶然相関)を起こしているデータ解析結果は、データ解析過程で利用するデータ解析の指標(分類率や相関係数等)が良好な値となっている事が多く、このためにチャンスコリレーション(偶然相関)を起こしていることに気がつかずに、その解析結果を信用して次の解析に進むことが多くなります。このために、最終的なデータ解析結果が示す様々な要因を検証した段階で、データ解析結果と新たな実験結果が全く合わないという結果となります。この段階でやっとチャンスコリレーション(偶然相関)の問題に気がつくか、気がつかなければデータ解析自体への不信感が芽生えることになります。

◇    データ解析過程で意図的にチャンスコリレーション(偶然相関)を起こして良好な結果を得る。この極端な事例が、先に述べた重回帰解析における100%相関の出し方の秘訣です。

◇    この事例でも述べましたが、解析結果は100%相関なので最高の解析結果が出ています。丁度、容器が九谷焼の最高級品になった感じです。ですが、なんかおかしいですね。先の事例では、解析目的と全く関係のないパラメータを使っていたので、すぐにおかしいことに気が付きます。しかし、日常行う解析では100%相関を達成することは殆どなく(あると殆どの人は、データ解析自体を疑いますが・・)、代わりに高い相関係数が達成されるため、解析が良好と考えます。さらに殆どの場合は、解析目的と何らかの関係があると考えられるパラメータを用いて解析を行いますので、解析結果が変だなー(つまり、チャンスコリレーション(偶然相関)を起こしている:中身が腐っている)と感じることは少ないようです。

容器の中身を見ることのできるレントゲンを使う:

The X-rays which can see the contents of the vessel are used

◇    データ解析の質を評価する指標(分類/予測率や相関/決定係数)がどんなに素晴らしくとも、これは容器の外見を評価するもので、その容器の中に入っているものの評価を意味するものではありません。この、データ解析で最も重要な中身の評価はどのようにするのでしょうか。

◇    一般的に、中の見えない容器の中身を評価する手法として工学的には非破壊検査がありますが、このとき主として利用されるレントゲン技術のようなものが、チャンスコリレーションにも存在します。これは、単なるインデックスですが、このインデックスの存在を知ってデータ解析を行っている人は少ないようです。特に、少ないサンプルを扱い、多数のパラメータを使うチャンスの多い研究分野でデータ解析を行う場合は注意が必要で、このインデックスを常に意識する事が必要です。

チャンスコリレーション(偶然相関)を避けるための指標:「信頼性指標」

What is the index for avoiding chance corelation?

It is the "Index of Reliability"


◇    このチャンスコリレーション(偶然相関)が起きているか否かをチェックする事は簡単です。データ解析に用いたサンプルの数(S)と、パラメータの数(P)に留意するだけで良いのです。実際にはサンプルの数(S)を、解析に用いたパラメータの数(P)で割った値(信頼性指標(R): Index of Reliability)をチャンスコリレーション(偶然相関)が起こっているか否かの指標とします。この指標は二クラス分類の場合とフィッティング(重回帰)の場合とで若干異なります。

二クラス分類の場合 ⇒ 

信頼性指標値(R = S/P)は ≧ 4

フィッティング(重回帰)の場合 ⇒ 

信頼性指標値(R = S/P)は ≧ 5から6


◇    上記の信頼性指標を常に念頭に置きながらデータ解析を行う事が必要です。これが守られれば、チャンスコリレーション(偶然相関)の問題に悩まされることなく、良質のデータ解析を行う事が出来ます。フィッティング(重回帰)の場合の信頼性指標値は国際的には5ですが、日本国内ではより厳しい基準となる6が使われます。特に、構造-活性相関等の研究分野では厳しくなりますのでご注意ください。一方で、構造-活性相関分野ではチャンスコリレーション(偶然相関)の問題が一部にあったとしても、要因解析の内容や、他の解析結果との総合的な議論や討論のレベルで、この問題の扱いがケースバイケースで判断されます。

◇ 上記の信頼性指標の値は、いわばデータ解析を行う時の最低条件です。実際にこの値よりも大きな値となるようにする事が必要です。この信頼性指標の値が大きいという事は、実際に起こる確率が極めて低い事象であることを意味します。言い換えれば、「事実上起こり得ない事が起こった」という事です。この起こり得ない条件下でありながら極めて高い相関係数や分類率が達成されているならば、いわば「奇跡が起こった」事になります。これは、解析目的と用いたパラメータ間に何らかの強い必然性/相関があったために起こった現象と言えます。これは、安心して要因解析が行えることを意味します。

◆ 安心して、新しい事実を発見し、自身を持って発表しましょう。R(信頼性指標)値が大きければ、あなたの行ったデータ解析の解析信頼性は極めて高いと保証されています。データ解析の品質に関して誰も疑問を挟む余地はありません。


文責:株式会社 インシリコデータ 湯田 浩太郎



0 件のコメント:

コメントを投稿