データの歩き方
この記事は、オライリー・ジャパン社の
入門 機会学習
の内容を元にしております。
「入門 機会学習」という本を研究室で買ってもらいました。
実践的な内容で興味深い本です。
全編に渡って、例題を出題し、その問題を機会学習で解くことで、
学習が進んでいくという具合です。
問題を解く際、Rを用います。
以下、2章の個人的なまとめです。
(個人メモなので、読んでもわからないと思います。是非お求めを。)
データ分析
- 見つけたと考えている形式モデルを、パターン発見に用いたのとは
別の新しいデータセットでテストする。 - 確率論を用いて元々のデータセットの中で発見したパターンが
偶然に生成されたもんかどうかをテストする。
データの探索
データの数値による要約と標準的な可視化の手法は重要である。
基礎的な可視化の手法を使うだけでも、データからたくさんのことを
知り得ることができる。
データを探索するには、大きく分けて2つのアプローチがある。
- 要約統計量
- 次元削減
数値による要約
- 最小値
- 第1四分位(データ全体の下から25%の値。)
- 中央値(データ全体の真ん中の値。第2四分位とも。)
- 平均値
- 第3四分位(データ全体の上から25%の値。)
- 最大値
- 標準偏差
データの広がり
- 広がりはデータのすべてではなく、ほぼ全てを含むべきである。
- 広がりはデータ中の最大値と最小値の2つの値によって
完全に決められるものではない。
それらの値は外れ値である場合が多く、
データセット全体を表すには適切な値ではない。
Rメモ
#最小値 min(data) #最大値 max(data) #中央値 mean(data) #分散 var(data) #標準偏差 #sd(data) #データ範囲 range(data) #4分位 quantile(data) #N分位 #seq巻数を使い、0から1の間で0.20ずつ増やしている。 quantile(data, probs = seq(0, 1, 0.20)) #データの95%を含む範囲を調査 c(quantile(data, probs = 0.025),)quantile(data,probs=0.975)) #グラフ library('ggplot2') ggplot(data) #引数略 #ggplot2についてはこちらが詳しい。 #http://d.hatena.ne.jp/triadsou/20100528/1275042816