sonoshouのまじめなブログ

情報系大学生からのウェブ見習い人生の記録

データの歩き方

この記事は、オライリー・ジャパン社の
入門 機会学習
の内容を元にしております。

「入門 機会学習」という本を研究室で買ってもらいました。
実践的な内容で興味深い本です。
全編に渡って、例題を出題し、その問題を機会学習で解くことで、
学習が進んでいくという具合です。
問題を解く際、Rを用います。

以下、2章の個人的なまとめです。
(個人メモなので、読んでもわからないと思います。是非お求めを。)

データ分析

  • 見つけたと考えている形式モデルを、パターン発見に用いたのとは
    別の新しいデータセットでテストする。
  • 確率論を用いて元々のデータセットの中で発見したパターンが
    偶然に生成されたもんかどうかをテストする。

データの探索

データの数値による要約標準的な可視化の手法は重要である。
基礎的な可視化の手法を使うだけでも、データからたくさんのことを
知り得ることができる。

データを探索するには、大きく分けて2つのアプローチがある。

  1. 要約統計量
  2. 次元削減

数値による要約

  1. 最小値
  2. 第1四分位(データ全体の下から25%の値。)
  3. 中央値(データ全体の真ん中の値。第2四分位とも。)
  4. 平均値
  5. 第3四分位(データ全体の上から25%の値。)
  6. 最大値
  7. 標準偏差

データの広がり

  • 広がりはデータのすべてではなく、ほぼ全てを含むべきである。
  • 広がりはデータ中の最大値と最小値の2つの値によって
    完全に決められるものではない。
    それらの値は外れ値である場合が多く、
    データセット全体を表すには適切な値ではない。

Rメモ

#最小値
min(data)

#最大値
max(data)

#中央値
mean(data)

#分散
var(data)

#標準偏差
#sd(data)

#データ範囲
range(data)

#4分位
quantile(data)

#N分位
#seq巻数を使い、0から1の間で0.20ずつ増やしている。
quantile(data, probs = seq(0, 1, 0.20))

#データの95%を含む範囲を調査
c(quantile(data, probs = 0.025),)quantile(data,probs=0.975))

#グラフ
library('ggplot2')
ggplot(data) #引数略
#ggplot2についてはこちらが詳しい。
#http://d.hatena.ne.jp/triadsou/20100528/1275042816