跳到主要内容

R数据集

提示
  1. R内置数据集:R语言内置了许多数据集,如airqualityAirPassengersmtcarsiris,通常用于演示R函数的使用。
  2. 显示和操作数据集:在R中,可以通过print()函数直接显示数据集,使用$运算符访问特定变量的值,以及利用sort()summary()函数对数据进行排序和统计分析。
  3. 数据集的基本信息:使用如dim()nrow()ncol()names()等函数可以获取数据集的维度、行数、列数和变量名称等基本信息。

数据集是以表格形式呈现的数据集合。

R 编程语言内置了大量数据集,通常可用作演示数据,以展示 R 函数的工作方式。

R 中最常用的内置数据集

在 R 中,我们可以尝试大量数据集,但最常用的内置数据集包括:

  • airquality - 纽约空气质量测量数据
  • AirPassengers - 1949-1960 年间每月航空旅客数量
  • mtcars - 《汽车趋势》杂志汽车路试
  • iris - 埃德加·安德森的鸢尾花数据

这些是一些最常用的内置数据集。如果您想了解其他内置数据集,请访问 R 数据集包

在本教程中,我们将使用 airquality 数据集来演示 R 中数据集的使用。

显示 R 数据集

要显示数据集,我们只需在 print() 函数中写上数据集的名称即可。例如,

# 显示 airquality 数据集
print(airquality)

输出

   Ozone Solar.R Wind Temp Month Day
1 41 190 7.4 67 5 1
2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3
4 18 313 11.5 62 5 4
5 NA NA 14.3 56 5 5
6 28 NA 14.9 66 5 6
7 23 299 8.6 65 5 7
8 19 99 13.8 59 5 8
9 8 19 20.1 61 5 9
10 NA 194 8.6 69 5 10
11 7 NA 6.9 74 5 11
12 16 256 9.7 69 5 12
13 11 290 9.2 66 5 13
14 14 274 10.9 68 5 14
15 18 65 13.2 58 5 15
16 14 334 11.5 64 5 16
17 34 307 12.0 66 5 17
18 6 78 18.4 57 5 18
19 30 322 11.5 68 5 19
20 11 44 9.7 62 5 20
21 1 8 9.7 59 5 21

这里,我们显示了从 121airquality 数据集,但总共有 153 个数据集。

该数据集包含了纽约空气质量的测量结果。

获取数据集信息

[未完,未提供数据集信息部分的文本] 在 R 中,我们可以使用多种函数来获取数据集的信息,例如:数据集的维度、行和列的数量、变量的名称等。例如,

# 使用 dim() 获取数据集的维度
cat("维度:", dim(airquality))

# 使用 nrow() 获取行数
cat("\n行数:", nrow(airquality))

# 使用 ncol() 获取列数
cat("\n列数:", ncol(airquality))

# 使用 names() 获取数据集的变量名称
cat("\n变量名称:", names(airquality))

输出

维度: 153 6
行数: 153
列数: 6
变量名称: Ozone Solar.R Wind Temp Month Day

在上面的例子中,我们使用了多种函数来获取 airquality 数据集的信息。

  • dim() - 返回数据集的维度,即 153 6
  • nrow() - 返回行数(观察值),即 153
  • ncol() - 返回列数(变量),即 6
  • names() - 返回所有变量的名称

在 R 中显示变量的值

要在 R 中显示指定变量的所有值,我们使用 $ 运算符和变量的名称。例如,

# 显示 Temp 变量的所有值
print(airquality$Temp)

输出

 [1] 67 72 74 62 56 66 65 59 61 69 74 69 66 68 58 64 66 57 68 62 59 73 61 61 57
[26] 58 57 67 81 79 76 78 74 67 84 85 79 82 87 90 87 93 92 82 80 79 77 72 65 73
[51] 76 77 76 76 76 75 78 73 80 77 83 84 85 81 84 83 83 88 92 92 89 82 73 81 91
[76] 80 81 82 84 87 85 74 81 82 86 85 82 86 88 86 83 81 81 81 82 86 85 87 89 90
[101] 90 92 86 86 82 80 79 77 79 76 78 78 77 72 75 79 81 86 88 97 94 96 94 91 92
[126] 93 93 87 84 80 78 75 73 81 76 77 71 71 78 67 76 68 82 64 71 81 69 63 70 77
[151] 75 76 68

在上面的例子中,我们使用了 $ 运算符和变量的名称来显示一个变量的所有值。

airquality$Temp

这里,我们显示了 airquality 数据集中 Temp 变量的所有值。

在 R 中对变量值进行排序

在 R 中,我们使用 sort() 函数按升序对变量的值进行排序。例如,

# 对 Temp 变量的值进行排序
sort(airquality$Temp)

输出

 [1] 56 57 57 57 58 58 59 59 61 61 61 62 62 63 64 64 65 65 66 66 66 67 67 67 67
[26] 68 68 68 68 69 69 69 70 71 71 71 72 72 72 73 73 73 73 73 74 74 74 74 75 75
[51] 75 75 76 76 76 76 76 76 76 76 76 77 77 77 77 77 77 77 78 78 78 78 78 78 79
[76] 79 79 79 79 79 80 80 80 80 80 81 81 81 81 81 81 81 81 81 81 81 82 82 82 82
[101] 82 82 82 82 82 83 83 83 83 84 84 84 84 84 85 85 85 85 85 86 86 86 86 86 86
[126] 86 87 87 87 87 87 88 88 88 89 89 90 90 90 91 91 92 92 92 92 92 93 93 93 94
[151] 94 96 97

在 R 中获取数据的统计概要

我们使用 summary() 函数获取数据集的统计信息。

summary() 函数返回六个统计概要:

  • 最小值(min)
  • 第一四分位数(First Quartile)
  • 中位数(Median)
  • 平均数(Mean)
  • 第三四分位数(Third Quartile)
  • 最大值(Max)

让我们看一个例子,

# 获取 Temp 变量的统计概要
summary(airquality$Temp)

输出

  最小值   第一四分位数 中位数  平均数  第三四分位数 最大值
56.00 72.00 79.00 77.88 85.00 97.00

在上面的例子中,我们使用了 summary() 函数来获取 airquality 数据集中 Temp 变量的统计概要。

这里,

  • 最小值(Min)- 是最小值,即 56.00
  • 第一四分位数(1st Qu.)- 是第一四分位数,即 72.00
  • 中位数(Median)- 是中位数,即 79.00
  • 平均数(Mean)- 是平均值,即 77.88
  • 第三四分位数(3rd Qu.)- 是第三四分位数,即 85.00
  • 最大值(Max)- 是最大值,即 97.00