キーワード †
データマイニング †
- 統計的な分析手法を活用することで、データの中から意味のある情報(知識やルールなど)を取り出す技術のこと
- データマイニングを使うことで、「データの取得」=>「関連性の発見」=>「法則性の発見」=>「未来予測」とつながることができる
アプローチ †
発見型 †
- 「何もわからないけど、とりあえずデータを調べてみよう」というアプローチ
- 膨大なデータを分析し、今までに知られていなかったデータの特性を見つけ出す
- 何を探すべきかハッキリとわかっていないので、実用レベルの分析をするために必要なデータ量が多くなる傾向がある
- 基本はデータの中に潜む「共通点」や「差異」を見つけること
- アソシエーション分析、クラスター分析などが使われる
- 機械学習における「教師なし学習」も有効
検証型 †
- 「こんな傾向があるはずだから関連しそうなデータを調べてみよう」というアプローチ
- 基本的には、人間が「データにはこういう傾向があるはずだ」「このような関係性がこのデータの中から見つかるだろう」といった仮説を立て、それに沿って検証する形で分析
- 仮説が正しいかどうかを調べるだけであればデータが少なくても検証が可能で、有意な成果が上がりやすい
分析法 †
パターン抽出 †
- データ集合の中から,高頻度で発生する特徴的なパターンを見つける
アソシエーション分析 †
クラスター分析(クラスタリング) †
- データの類似性を分析し、何らかの大雑把なカテゴリ分けなどを行う場合に使われる
- データの中に潜むパターンを見つけて、集合体を作っていく分析法
ニューラルネットワーク †
クラス分類 †
- 「このクラスに分けられる」という仮説を元にデータを分けていく
決定木分析 †
サポートベクターマシン †
- データを分類するための境界線を見つけ、その境界線に沿ってデータの分類を行う
- 直線では表せない境界線でも、カーネル法と呼ばれる手法を使うことで次元を増やし、境界を作りやすくすることができる
回帰分析 †
単回帰分析 †
- 「1本の直線上に大体のデータが乗っかる」ようなデータで使える分析法
- 1つのデータが変化すると、もう片方のデータも変化するという、単純な相関関係にあるデータを分析するためのもの
- y=ax+b
重回帰分析 †
- 2つ以上の要素で相関関係が作られているような場合に使われる分析法
データマイニングが影響を与えた領域 †
ビジネス †
マーケティング †
製造・物流 †
金融・保険 †
スポーツ †
領域 †
教育 †
AI †
生命科学 †
材料科学 †
ツール †
JDM (Java Data Mining †