閉じる
閉じる
閉じる
  1. 用量反応曲線の意味と薬の安全性について
  2. インタール細粒10%で起こった下痢の事例からわかる添付文書の使い方
  3. 代表値の意味と統計ソフト【R】で代表値を求める方法
  4. ゾピクロンとエチゾラムが向精神薬に指定されて困ること
  5. 表計算ソフトに置き換えてRのベクトルを理解する
  6. カロナール500mg/1回を12歳の小児に使っていいのか?という話
  7. 度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!
  8. 記述統計とは?どんな目的でデータを整理するのか?
  9. データの分析に必要な尺度水準について
  10. 統計をゼロから勉強するときの指針みたいなもの
閉じる

とある薬剤師の外部記憶

度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!

度数分布表とヒストグラムはある集団のデータ(観測値)の特徴をひと目で理解するために作ります。

生のデータは数値の羅列になっていて、ぱっと見ただけでは特徴をつかむことは難しいです。

度数分布表とヒストグラムを作ると、

  • どんなデータ(観測値)が多いのか?
  • 正規分布を前提にデータを扱えるか?
  • 平均値がいいのか?最頻値がいいのか?

などの基本的なことを把握することができます。

つまり、生データを眺めるだけではわからなかったデータの特徴をサクッと知ることができます。

この記事で学べること

今回は生データから、Rを使って度数分布表とヒストグラムを実際に作ってみます。

生データはRのデータセットから引用させていただきますので、その辺りの操作も少し触れます。

最後に、度数分布表とヒストグラムからどのくらいの情報が読み取れるか?を検証してみます。

では、順に進めていきます。

生データをどこから持ってくる?

生データが無いとどうにもならないので、まずはデータを取り込みます。

Rにはデータセットという、無償提供の観測データが収録されています。

この観測データの中から有名な「iris」というあやめの種類と大きさに関するデータを利用します。

利用するにはRのコンソールで次のように入力します。

これだけでデータを利用する準備が整います。

この状態で次のようにすると、「iris」のすべてのデータを見ることができます。

2016-08-03_10h21_54

このデータはあやめのがく片(sepal)と花びら(petal)の長さ(length)と幅(width)を、あやめの種類ごとに調査したデータです。

ここでは、どんなデータか?ということはあまり考えずに、このデータの中から花びらの長さ(Petal.Length)だけを取り出します。

2016-08-04_17h52_42_度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!

表示されるのは生データの数字の羅列です。

この情報だけでデータの特徴はわからないので、度数分布表とヒストグラムを作って見ていきます。

Rではヒストグラムと同時に度数分布表のデータを取得できる

早速、度数分布表を作ってヒストグラムを描いてみますが・・・

Rではヒストグラムを出力する関数(hist)を使うと、度数分布表を作らずにヒストグラムを描くことができます。

2016-08-04_19h04_23

ここまではRの基本で教科書レベルですが、実はhist関数にはヒストグラムの元になった、度数分布表のデータが収納されています。

このデータを取り出して、度数分布表も作ってみます。

2016-08-04_19h11_48_度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!

hist関数が持っているデータを新たに「data.hist」に保存することで、その中身を見ることができます。

このデータにはヒストグラムの元になっている度数分布に関するデータが入っているので、そのまま転用すれば度数分布表を簡単に作ることができます。

2016-08-05_09h44_46_度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!

ここまでできれば後は相対度数・累積相対度数を計算するだけです。

相対度数はデータの数で度数を割る、累積相対度数は単に累積値を求めればいいので、データフレームにその列を組み込みます。

2016-08-06_07h08_02_度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!

length関数はデータの個数(n)を求める関数、cumsum関数は累積和を求める関数です。

出来上がったベクトルを最後にデータフレームとして度数分布表にくっつけています。

これでヒストグラムと度数分布表が作れたので、一連の作業は終了です。

ヒストグラム・度数分布表から読み取れること

データ解析に戻って、最初のテーマにしていた、ヒストグラムから特徴つかむところに入っていきます。

無償配布のデータから流用していますが、こういう前提で見てみましょう。

太郎くんは花壇に咲いていた150本のあやめの花びらの長さを測って記録しました。
このデータについて、ヒストグラムと度数分布表から考えられることは何でしょうか?

そう思いながら、ヒストグラムと度数分布表を見てみます。

2016-08-04_19h04_23_度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!

2016-08-06_07h48_34

1cmの辺りと4,5cmの辺りに、山型が2つあります。

こういう形状を示しているときは、2種類のデータが混ざっていることを疑ってみます。

「1cmくらいの花びらのあやめ」と「4,5cmくらいの花びらのあやめ」は種類が違うあやめなのではないか?

と考えられるわけです。

ということは、1cmと4,5cmくらいのもので、グループ分けをしておいた方が良さそうだ!と考えることができます。

 

次に考えるのが、正規分布を仮定して統計処理を進めてよいか?です。

1cmと4,5cmの2つのグループに分けて考えるとき、それぞれのヒストグラムは山型なので、これも問題無いと思われます。

このあと、何かしらの統計的な処理をする場合は、正規分布を仮定した統計処理をしても良さそうです。

厳密には「正規性の検定」というのがあるのですが、この辺りは今は無視しておきます。

正規分布を仮定できるのであれば、平均値と標準偏差を利用すれば、代表値としては問題なさそうです。

逆に最頻値や中央値は使わないほうがいいかもしれません。

あとがき

今回はRの使い方も含めて、ヒストグラムの作り方と考え方を説明してみました。

ヒストグラムのような統計の基本的なことはこの本が参考になるので、勉強したい方にはおすすめです。

ヒストグラムは統計の基礎には必ず登場するのですが、ヒストグラムを描いても、あまり多くことはわかりません。

ただ、まったく何も知らないデータについてのヒントをくれます。

「2種類の母集団からのサンプルなのか?」とか「正規分布で問題なさそう?」とかそういうことです。

もともと記述統計の分野はデータの特徴を把握することなので、断定的なことはあまり言えないのです。

何かの仮説を検証しようとすれば、この先の「統計的仮説検定」をしなければいけません。

その辺りのお話は追々していくことにします。

 

 

関連記事

  1. 代表値の意味と統計ソフト【R】で代表値を求める方法

  2. 表計算ソフトに置き換えてRのベクトルを理解する

  3. データの分析に必要な尺度水準について

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

CAPTCHA


調剤薬局とドラッグストアで働いている三十路手前の薬剤師です。

もともとは「食いっぱぐれない」という理由だけで薬学部進学を目指しました。
今では自分の知識がそのままお客さん・患者さん・同僚の薬剤師・登録販売者の役に立って感謝されるのが嬉しく、楽しく勉強させてもらってます。

アーカイブ

スポンサードリンク

ページ上部へ戻る