データサイエンス界の赤本「統計学入門」のデータセット集

Python
元教師
元教師

こんにちは!データサイエンティストの青木和也(https://twitter.com/kaizen_oni)です!

この記事では書籍「統計学入門」(東京大学出版会)における各種データをCSV形式で掲載しています。

なお、本記事に掲載されているデータは東京大学教養学部統計学教室編者『統計学入門』(東京大学出版会/2001)を参考に、ブログ主がPythonで作成したデータになります。

RやPythonで可視化・分析したい際にはお役立てください!

  1. CSVデータの使い方
  2. 第2章 1次元のデータ
    1. 試験得点の度数分布表(P18)
    2. 所得分布の度数分布表(P24)
    3. 従業員規模別事業所数及び従業者数(P26)
    4. 住宅統計調査報告(P30)
    5. 演習問題2.2 エントロピー(P40)
  3. 第3章 2次元のデータ
    1. 11家族内での兄弟と姉妹の身長の組(P42)
    2. 年齢階級と血圧の平均(P42)
    3. 好きな花の順番(P55)
    4. 人為的データ(P57)
    5. 総選挙での自民党得票率と持ち家比率(P65)
    6. 技術、活動、行動の社会的リスクの順位評価(P66)
  4. 第6章 確率分布
    1. プロシア騎兵連隊において馬に蹴られて死んだ兵士数(P116)
    2. ガイガー計数菅の読み数(P116)
    3. ドイツ軍によるロンドン爆撃の命中数(P116)
    4. 高速道路の料金ゲートへの車の到着台数(P116)
  5. 第9章 標本分布
    1. 母集団の例(P178)
    2. 新しく鋳造した1セント硬貨100枚の重量(P188)
    3. 【演習問題9.3】不偏分散の優位(P190)
    4. 【演習問題9.7】交通事故統計(P191)
  6. 第10章 推定
    1. 東京の最高気温(P221)
    2. 東京と大阪における最高気温(P228)
    3. マニラ麻の破断強度(P229)
    4. 【演習11.5】対照群との比較(P231)
    5. 【演習11.6】母分散が等しくない場合(P231)
    6. 【演習11.7】信頼区間(P231)
    7. 【演習11.9】ポアソン母集団(P232)
  7. 第12章 仮説検定
    1. えんどう豆についてのメンデルの有名な実験データ(P233)
    2. ある大学の工学部の期末試験の成績(P248)
    3. 【演習12.2】2標本検定(P252)
    4. 【演習12.4】サイコロ(P253)
    5. 【演習12.5】諸定数と乱数(P253)
    6. 【演習12.6】分割表(P254)
    7. 【演習12.7】分割表2(P254)
    8. 【演習12.8】イェーツの補正(P254)
    9. 【演習12.9】母比率の2標本検定(P255)
  8. 第13章 回帰分析
    1. 東京および前日の福岡の日平均海面気圧(P258)
    2. アメリカにおけるカーペット製造の一企業の原価計算データ(P276)
    3. 【演習13.1】林業統計学(P277)
    4. 【演習13.2】弾性モデル(P277)
  9. まとめ

CSVデータの使い方

Pythonで可視化・分析を行う際には、以下のようにPandasでデータを取り込んでからご活用ください。

import pandas as pd

df = pd.read_csv('[各種データ名].csv')

Rで可視化・分析を行う際には、以下のようにPandasでデータを取り込んでからご活用ください。

data <- read.csv('[各種データ名].csv')

なお、RでCSVデータを読み込む際には以下から「Files」からCSVデータのあるディレクトリに移動して、More > Set As Working Directory の順にクリックをして、作業環境とCSVデータのある場所を同一にしてから作業すると、より作業効率がよくなるでしょう。

第2章 1次元のデータ

試験得点の度数分布表(P18)

所得分布の度数分布表(P24)

従業員規模別事業所数及び従業者数(P26)

住宅統計調査報告(P30)

演習問題2.2 エントロピー(P40)

第3章 2次元のデータ

11家族内での兄弟と姉妹の身長の組(P42)

年齢階級と血圧の平均(P42)

好きな花の順番(P55)

人為的データ(P57)

総選挙での自民党得票率と持ち家比率(P65)

技術、活動、行動の社会的リスクの順位評価(P66)

第6章 確率分布

プロシア騎兵連隊において馬に蹴られて死んだ兵士数(P116)

ガイガー計数菅の読み数(P116)

ドイツ軍によるロンドン爆撃の命中数(P116)

高速道路の料金ゲートへの車の到着台数(P116)

第9章 標本分布

母集団の例(P178)

新しく鋳造した1セント硬貨100枚の重量(P188)

【演習問題9.3】不偏分散の優位(P190)

【演習問題9.7】交通事故統計(P191)

第10章 推定

東京の最高気温(P221)

東京と大阪における最高気温(P228)

マニラ麻の破断強度(P229)

【演習11.5】対照群との比較(P231)

【演習11.6】母分散が等しくない場合(P231)

【演習11.7】信頼区間(P231)

【演習11.9】ポアソン母集団(P232)

第12章 仮説検定

えんどう豆についてのメンデルの有名な実験データ(P233)

ある大学の工学部の期末試験の成績(P248)

【演習12.2】2標本検定(P252)

【演習12.4】サイコロ(P253)

【演習12.5】諸定数と乱数(P253)

以下の定数をダブルクリックするとコピーすることができます。

[mathjax]\(\pi=3.1415926535897932384626433832795028841971693993751058209749445923078164062862089986280348253421170679821480865132823066470938446095505822317253594081284811174502841027019385211055596446229489549303819644288109756659334461284756482337867831652712019091456485669234603486104543266482133936072602491412737245870066063155881748815209209628292540917153643678925903600113305305488204665213841469519415116094330572703657595919530921861173819326117931051185480744623799627495673518857527248912279381830119491298336733624406566430860213949463952247371907021798609437027705392171762931767523846748184676694051320005681271452635608277857713427577896091736371787214684409012249534301465495853710507922796892589235420199561121290219608640344181598136297747713099605187072113499999983729780499510597317328160963185950244594553469083026425223082533446850352619311881710100031378387528865875332083814206171776691473035982534904287554687311595628638823537875937519577818577805321712268066130019278766111959092164201989\)[mathjax]

[mathjax]\(e=2.7182818284590452353602874713526624977572470936999595749669676277240766303535475945713821785251664274274663919320030599218174135966290435729003342952605956307381323286279434907632338298807531952510190115738341879307021540891499348841675092447614606680822648001684774118537423454424371075390777449920695517027618386062613313845830007520449338265602976067371132007093287091274437470472306969772093101416928368190255151086574637721112523897844250569536967707854499699679468644549059879316368892300987931277361782154249992295763514822082698951936680331825288693984964651058209392398294887933203625094431173012381970684161403970198376793206832823764648042953118023287825098194558153017567173613320698112509961818815930416903515988885193458072738667385894228792284998920868058257492796104841984443634632449684875602336248270419786232090021609902353043699418491463140934317381436405462531520961836908887070167683964243781405927145635490613031072085103837505101157477041718986106873969655212671546889570350354\)

pi = 3.1415926535897932384626433832795028841971693993751058209749445923078164062862089986280348253421170679821480865132823066470938446095505822317253594081284811174502841027019385211055596446229489549303819644288109756659334461284756482337867831652712019091456485669234603486104543266482133936072602491412737245870066063155881748815209209628292540917153643678925903600113305305488204665213841469519415116094330572703657595919530921861173819326117931051185480744623799627495673518857527248912279381830119491298336733624406566430860213949463952247371907021798609437027705392171762931767523846748184676694051320005681271452635608277857713427577896091736371787214684409012249534301465495853710507922796892589235420199561121290219608640344181598136297747713099605187072113499999983729780499510597317328160963185950244594553469083026425223082533446850352619311881710100031378387528865875332083814206171776691473035982534904287554687311595628638823537875937519577818577805321712268066130019278766111959092164201989
e = 2.7182818284590452353602874713526624977572470936999595749669676277240766303535475945713821785251664274274663919320030599218174135966290435729003342952605956307381323286279434907632338298807531952510190115738341879307021540891499348841675092447614606680822648001684774118537423454424371075390777449920695517027618386062613313845830007520449338265602976067371132007093287091274437470472306969772093101416928368190255151086574637721112523897844250569536967707854499699679468644549059879316368892300987931277361782154249992295763514822082698951936680331825288693984964651058209392398294887933203625094431173012381970684161403970198376793206832823764648042953118023287825098194558153017567173613320698112509961818815930416903515988885193458072738667385894228792284998920868058257492796104841984443634632449684875602336248270419786232090021609902353043699418491463140934317381436405462531520961836908887070167683964243781405927145635490613031072085103837505101157477041718986106873969655212671546889570350354

【演習12.6】分割表(P254)

【演習12.7】分割表2(P254)

【演習12.8】イェーツの補正(P254)

【演習12.9】母比率の2標本検定(P255)

第13章 回帰分析

東京および前日の福岡の日平均海面気圧(P258)

アメリカにおけるカーペット製造の一企業の原価計算データ(P276)

【演習13.1】林業統計学(P277)

【演習13.2】弾性モデル(P277)

まとめ

本記事ではデータサイエンス界の赤本「統計学入門」に出てくる、かつ書籍の中で何らかの計算が行われる、演習で使用されるデータをCSV形式で作成してみました。

書籍の中と同じ計算を再現してみるもよし、手計算を行った後の検証としてPythonやRで計算をしてみるもよし、様々な用途にご活用いただけると幸いです!

コメント

タイトルとURLをコピーしました