探索的データ解析

今日のビジネス、技術、科学分野の専門家たちは、複雑な―多くの場合、想像を絶するほど複雑な―環境で仕事を行っています。 これを効果的にこなすとなると、様々なソースからの膨大な量のデータから情報を読み取ることが必要となります。 伝統的なデータ・マイニング・ツールとしての確証的データ解析においては、実データを伴わない仮説を使って複雑な予測モデルを生成していました。 そのモデルは予測には有用であっても、データから効果的な洞察を得るには不十分でした。 Data Desk の真髄でもある―探索的データ分析(EDA)はデータセット内のパターンとの関連性を見るに留まらず、関連性の背後にある原因と影響までも知ることができる統計学的アプローチです。 EDAは、実際にデータ本体に何が起こっているのかを実に簡単に解読することに役立ちます。

ほとんどのデータは、他の活動の副産物として生じます。 ビジネスマンは販売戦略のために、人材管理のデータベース内のデータ、または政府や貿易機関によって公開されているデータを基にしたスプレッドシートのデータを携えているでしょう。 研究者は様々な選択肢から取捨選択するためにデータを収集していて、元々別の目的のために収集されたデータで新しい方法で見てみたい、あるいはエラーや予期しないパターンを実験データで確認したいと思うことがあるかもしれません。 これがデータ分析の過程において応用範囲が広く開かれていることが必要な理由です。

約百年前の初期の頃、統計学はパターン、傾向、関連性を記述する効果的な方法が考案され、研究家はデータの分析に勤しみました。 20世紀半ばには、その関心が確率論ないしは数学的な解析手法へと移り、最良の方法を見つけるべく様々な推測法が生み出されました。 1962年ジョン·テューキー博士は、こうした数理統計学においてリアル・ワールド・データ解析を無視されていることへの警告と、データの統計的記述が最優先されていた当時の科学的な統計への復帰を呼び掛けました。 その後の研究で、テューキー博士は、探索的データ解析、すなわち統計の元の目標へ立ち戻るとともに現代の方法を併用する哲学を提唱しました。

伝統的な推測統計学は、仮説から開始し、実験を行い、仮説を実証します。一方EDA は、データから始まり、それらが保持している可能性のあるパターン、関連性、傾向を探ります。 近年、EDAは、より広く受け入れられるようになりました。この成長の大部分はデスクトップ・コンピュータの可用性と、伝統的な統計の手法がそぐわないデータの急増によるものです。 デスクトップ・コンピュータは、驚くほど効果的にEDA 哲学をサポートする新しい視覚的手法の開発を可能としました。

EDA はデータの視覚化が最重要ポイントで、データの構造に関する仮定やパターンの識別や記述にも重点を置いています。 容易に重要パターンを認識できる専門家だけでなく、複雑な統計手法を希望しない方にも役立つでしょう。

Data Description 社のグラフィカルな分析ツールは、EDA の哲学からスタートします。そのツールはデータを持ち、内部に隠れたパターンを発見したいという人々に力を与えます。