DATE : 2006/06/21 (Wed)
(前回の記事)
作業ディレクトリの準備
まず、ニューメキシコ大学の入学者予測のデータ(CSV 形式) をダウンロードします。
これからは、上記のデータファイルを置いたディレクトリを作業ディレクトリとして話を進めていきます。
なお、作業ディレクトリを変更するには、setwd関数を使用します。例えば、「C:\r_test」に作業ディレクトリを変更するには、次のように命令を実行します。ここで、「>」はプロンプトです。
> setwd("c:/r_test")
Windows の場合は、パスの区切り文字として「\」ではなく「/」を指定します。「\」では実行できません。(「\\」とすれば実行できますが、冗長なので「/」表記がおすすめです)
ちなみに、GUI 版の場合は、「ファイル」メニューの「ディレクトリの変更...」からも作業ディレクトリの設定が出来ます。
現在の作業ディレクトリは、getwd 関数で見ることができます。
> getwd() [1] "C:/r_test"
データの読み込み
CSV 形式のファイルの読み込みには、read.csv 関数を使用します。データの区切り文字の指定方法などは、次の命令を実行すると見ることができます。
> help(read.csv)
先程ダウンロードしたファイル(enrollme.csv)を「data」オブジェクトとして読み込んでみます。
> data <- read.csv("enrollme.csv")
なお、「data <- 」という部分を省略してしまうと、 enrollme.csv の内容がコンソールに表示されます。
データの確認
objects 関数を実行すると、これまでに作った(作られた)オブジェクトの一覧が表示されます。
> objects() [1] "data"
ここで、data オブジェクトを実行すると、data オブジェクトの中身、つまり、読み込んだデータが表示されます。
> data YEAR ROLL UNEM HGRAD INC 1 1 5501 8.1 9552 1923 2 2 5945 7.0 9680 1961 3 3 6629 7.3 9731 1979 4 4 7556 7.5 11666 2030 (以下省略)
R の終了
データが読み込めたので、とりあえず準備は終わりました。
R を終了するには、 quit 関数を使用します。
> quit()
quit 関数を実行すると、作業スペースを保存するかどうかを聞かれます。作業スペースには、先程作成したオブジェクトなどの情報が記録されています。そのため、ここでは作業スペースを保存して R を終了します。
ちなみに、「quit()」とタイプするのが面倒な場合は、「q()」でも終了できます。また、GUI 版では、×印で R を終了しても、quit 関数を使用したことになります。
(つづきます)
DATE : 2006/06/20 (Tue)
はじめに
R で重回帰分析を行う方法をメモしていきます。
重回帰分析を行う対象として、ここでは ニューメキシコ大学の入学者予測(Internet Explorer のみ)のデータセットを使用します。
このデータセットは、以下の項目から構成されています。
- 年度
- 大学生の秋期入学者数
- ニューメキシコの1月の失業率 (%)
- ニューメキシコの春の高校卒業者数
- 1家族当たりの収入 (1961年の貨幣価値に基準化)
とりあえず、大学生の秋期入学者数を他の変数から予測してみたいと思います。具体的には、他の変数を適当に使って重回帰分析を行った後に分散分析を行い、必要な変数を選ぶという作業を行いたいと思います。
(つづきます)
DATE : 2006/05/08 (Mon)
統計処理を行う際には、まず処理の対象となるデータが必要です。
そこで、R に CSV ファイルを読み込ませる方法をメモしておきます。
CSV ファイルを読み込むには、 read.csv 関数を使用します。
引数の形式は次の通りです。
read.csv(file, header = TRUE, sep = ",", quote = "\"", dec = ".", fill = TRUE, ...)
- file
- ファイルパス
- header
- 1行目を列名として扱うかどうか。省略時は TRUE。
- sep
- フィールドの区切り文字。省略時は「,」。
- quote
- 文字列の囲み文字。省略時は「"」。
- dec
- 小数点を表す文字。省略時は「.」。
- fill
- TRUE の場合、行にフィールドが十分ない場合には欠損値(NA)で埋め合わせを行う。FALSE の場合はエラーを出す。省略時は TRUE。
読み込んだ結果は、データフレームとして返されます。
例えば、次のような CSV ファイル test.csv を読み込みます。ここで、1行目は列名を表します。
"col1", "col2", "col3"
1, 2, 3
4, 5, 6
read.csv を実行すると、次のようになります。
> read.csv("test.csv") col1 col2 col3 1 1 2 3 2 4 5 6
DATE : 2006/05/04 (Thu)
R とは、統計処理のための環境です。オープンソースで UNIX 系 OS や MacOS 、Windows など様々なプラットフォームで動作します。
個人的に R を使っていて、以下の点が気に入りました。
- 様々な統計処理と多彩なグラフ表示が R ひとつで完結する
- スクリプトで計算の履歴を残すことができ、再現できる
- スクリプトでグラフ表示に細かく手を入れることができる
- 日本語にも対応している
ただ、今の私の状況では、統計処理を行う機会がほとんどありません。なので、せっかく覚えた R の使い方もどんどん忘れていってしまう状況にあります。
そこで、備忘録として R での統計処理などを簡単にメモしていきたいと思います。
参考文献
- The R Project for Statistical Computing R の本拠地
- RjpWiki R の日本語情報
- R-Tips R の入門ページ