包(库)的安装
在打开本页面的同时,会自动开始安装dplyr
、tidyr
与data.table
,安装速度取决于你的网络情况,请耐心等待,不要刷新,否则将重新安装。对于其他包,你可以使用webr::install
进行安装,安装完成后使用library
加载包
在打开本页面的同时,会自动安装常用的数据分析库,如pandas
、matplotlib
等,对于没有预安装的库,你可以使用micropip
进行安装,安装完成后使用import
进行加载库。比如如果需要安装seaborn
,你可以使用以下代码
代码
import micropip
micropip.install('seaborn')
import seaborn as sns
数据集
企鹅数据集(penguins)是一个包含南极洲三种企鹅物种的生物测量数据的公开数据集。该数据集由美国南极洲 Palmer 站的科学家在 1971 年至 2022 年间收集。所有示例基于本数据集,请执行下方三个代码块先加载本数据集至环境。
species: 企鹅物种,取值为 Adelie、Chinstrap 或 Gentoo
island: 企鹅栖息的岛屿,取值为 Biscoe、Dream 或 Torgersen
sex: 企鹅性别,取值为 male 或 female
bill_length_mm: 企鹅喙长(毫米)
bill_depth_mm: 企鹅喙深(毫米)
flipper_length_mm: 企鹅鳍长(毫米)
body_mass_g: 企鹅体重(克)
year: 数据收集年份
age: 企鹅年龄(年)
链式法则
你可以使用%>%
或者|>
进行链式处理
使用中括号进行链式处理,形如DT[ … ][ … ][ … ],为了美观也可以纵向链式
python使用.
进行链式处理,为了美观可以使用反斜杠将一行代码拆分成多行
筛选行
data.table的一般数据清洗形式形如DT[i, j, by]
,其中i的位置可以用来筛选行和排序,j 的位置可以用来选择列及更新数据,by的位置可以用来分组
python使用loc方法进行条件选择,使用iloc进行索引筛选
选择列
- 使用
select
进行列选择
matches
可以通过正则表达式来匹配列名称,
- 提供了一些封装好的函数来快速匹配列,例如
starts_with
、ends_with
及contains
用DT[,j=.(...)]
进行列选择,返回的还是data.table
,但是如果直接使用DT[,j=cloname]
,返回的则是列值
排序
inplace = True
参数可以直接修改原数据框
新增/删除列
使用mutate
进行新增列
条件列可以使用case_when
使用apply
将函数逐个元素运用于列值
分组
使用DT[i, j, by]
中的by来进行分组
SD是一个特殊符号,代表当前分组中的所有行
使用groupby
将函数逐个元素运用于列值
行列互转
pivot_wider() 是一个用于将数据从长格式转换为宽格式的函数。它的作用是根据提供的参数重新组织数据框,使得原本分散在多行的数据变为分布在一行的形式。
参数说明:
data:要进行数据转换的数据框。 …:传递给方法的其他参数。
id_cols:用于唯一标识每个观察值的一组列。通常用于处理冗余变量,即与现有变量完全相关的变量。
id_expand:是否在进行数据转换前对id_cols列中的值进行扩展。
names_from和values_from:描述输出列的名称和单元格值来自哪些列。
names_prefix:添加到每个变量名开头的字符串。
names_sep:用于将多个变量的值连接成单个字符串以用作列名的分隔符。
names_glue:可以提供一个glue规范来创建自定义列名。
names_sort:是否对列名进行排序。
names_vary:当names_from标识出具有多个唯一值的列时,应该以何种顺序组合生成的列名。
names_expand:是否在进行数据转换前对names_from列中的值进行扩展。
names_repair:处理输出具有无效列名的情况。 values_fill:指定缺失值应填充的值。
values_fn:应用于输出中每个单元格值的函数。
unused_fn:用于总结未使用列的值的函数。
data:将要进行透视操作的数据框。
cols:指定要在透视过程中转换为长格式的列。
cols_vary:确定在透视过程中输出行相对于其原始行号的排列方式。
names_to:指定根据指定列中的列名信息创建的新列。
names_prefix, names_sep, names_pattern:控制如果创建多个新列时如何处理和拆分列名。
names_ptypes, values_ptypes:定义生成列的类型,以确保其符合预期。
names_transform, values_transform:允许根据需要转换特定列的数据类型。
names_repair:指定如何处理输出中的无效列名。
values_to:指定从单元格值中创建的列的名称。
values_drop_na:控制是否应删除仅包含缺失值的行。
shift(lag/lead)
lag
和lead
操作用来获取时间序列数据中前一个时间点(lag)或后一个时间点(lead)的值。
表关联
描述性统计
回到顶部