sonoshouのまじめなブログ

情報系大学生からのウェブ見習い人生の記録

データの歩き方

この記事は、オライリー・ジャパン社の
入門　機会学習
の内容を元にしております。

「入門　機会学習」という本を研究室で買ってもらいました。
実践的な内容で興味深い本です。
全編に渡って、例題を出題し、その問題を機会学習で解くことで、
学習が進んでいくという具合です。
問題を解く際、Rを用います。

以下、2章の個人的なまとめです。
（個人メモなので、読んでもわからないと思います。是非お求めを。）

データ分析

見つけたと考えている形式モデルを、パターン発見に用いたのとは
別の新しいデータセットでテストする。
確率論を用いて元々のデータセットの中で発見したパターンが
偶然に生成されたもんかどうかをテストする。

データの探索

データの数値による要約と標準的な可視化の手法は重要である。
基礎的な可視化の手法を使うだけでも、データからたくさんのことを
知り得ることができる。

データを探索するには、大きく分けて２つのアプローチがある。

要約統計量
次元削減

数値による要約

最小値
第1四分位（データ全体の下から25%の値。）
中央値（データ全体の真ん中の値。第2四分位とも。）
平均値
第3四分位（データ全体の上から25%の値。）
最大値
標準偏差

データの広がり

広がりはデータのすべてではなく、ほぼ全てを含むべきである。
広がりはデータ中の最大値と最小値の2つの値によって
完全に決められるものではない。
それらの値は外れ値である場合が多く、
データセット全体を表すには適切な値ではない。

Rメモ

#最小値
min(data)

#最大値
max(data)

#中央値
mean(data)

#分散
var(data)

#標準偏差
#sd(data)

#データ範囲
range(data)

#4分位
quantile(data)

#N分位
#seq巻数を使い、0から1の間で0.20ずつ増やしている。
quantile(data, probs = seq(0, 1, 0.20))

#データの95%を含む範囲を調査
c(quantile(data, probs = 0.025),)quantile(data,probs=0.975))

#グラフ
library('ggplot2')
ggplot(data) #引数略
#ggplot2についてはこちらが詳しい。
#http://d.hatena.ne.jp/triadsou/20100528/1275042816