开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

包含计算数据集的gtsummary中的交叉表

基础概念

gtsummary 是一个用于创建统计表格的 R 包。它提供了多种表格类型，包括描述性统计表、汇总表、生存分析表等。交叉表（Cross Table）是其中一种类型，用于展示两个或多个分类变量之间的关系。

相关优势

灵活性：gtsummary 提供了丰富的选项来自定义表格的外观和内容。
易用性：包中的函数设计简洁，易于上手。
美观性：生成的表格具有良好的可读性和美观性。
扩展性：可以轻松与其他 R 包（如 broom、gt 等）结合使用，扩展功能。

类型

交叉表主要分为以下几种类型：

频数交叉表：展示各类别组合的频数。
比例交叉表：展示各类别组合的比例。
均值交叉表：展示各类别组合的均值或其他数值统计量。

应用场景

交叉表常用于以下场景：

市场调研：分析不同产品类别在不同地区的销售情况。
医学研究：比较不同治疗组在不同性别、年龄段的疗效。
社会调查：分析不同教育水平在不同收入群体中的分布。

常见问题及解决方法

问题：为什么交叉表中的某些单元格显示为 `NA`？

原因：通常是因为某些类别组合在数据集中不存在，导致无法计算相应的统计量。

解决方法：

检查数据集，确保所有类别组合都存在。
使用 fill 参数来填充缺失值，例如：

library(gtsummary)

# 示例数据
data <- data.frame(
  category1 = c("A", "B", "A", "C"),
  category2 = c("X", "Y", "X", "Z"),
  value = c(10, 20, 30, 40)
)

# 创建交叉表
tab <- tbl_cross(tab_data = data, row = category1, col = category2, fill = list(value = "mean"))

# 打印表格
print(tab)

问题：如何自定义交叉表的外观？

解决方法：

gtsummary 提供了多种选项来自定义表格的外观，例如：

使用 label 参数来设置变量的标签。
使用 fmt 参数来设置数值格式。
使用 digits 参数来设置小数位数。

# 自定义交叉表外观
tab <- tbl_cross(
  tab_data = data,
  row = category1,
  col = category2,
  label = list(category1 = "Category 1", category2 = "Category 2"),
  fmt = list(value = "%.1f")
)

# 打印表格
print(tab)

参考链接

gtsummary 官方文档

通过以上内容，您可以全面了解 gtsummary 中交叉表的基础概念、优势、类型、应用场景以及常见问题的解决方法。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Power Pivot中交叉构建的表

注意事项合并的表必须列数相同合并位置根据列的位置，不去判断列名保留重复的列，如果需要去除重复项可以用Distinct 如果数据类型不一致，系统会根据实际情况强制执行。...Union('表1','表3') ? 解释：因为是根据列的位置来进行合并，所以表1的学科和表3的成绩组合在一起了，组合后系统自动判定为文本格式。 2. Except A....返回表——左边的表去除右边表的剩余部分 C. 注意事项只根据行来判断，如果2个表有1行是重复的，则会去掉后显示 2个表必须列数一致 2个表对比列的数据类型需一致 D....作用表——去除重复的后的表 E. 案例 Except('表1','表2') ? Except('表2','表1') ? 相当于Power Query中的左反。 3. Intersect A....返回表 C. 注意事项左表和右表位置不同，结果可能会不同。如果左表有重复项，则会进行保留。不比对列名，只比对列的位置。不对数据类型做强制比较。不返回左表的关联表。 D.

1.2K1 0

MySQL中如何查询表名中包含某字段的表

information_schema.tables 指数据库中的表（information_schema.columns 指列） table_schema 指数据库的名称 table_type 指是表的类型...（base table 指基本表，不包含系统表） table_name 指具体的表名如查询work_ad数据库中是否存在包含”user”关键字的数据表 select table_name from...，如何查询表名中包含某字段的表 select * from systables where tabname like 'saa%' 此法只对Informix数据库有用查询指定数据库中指定表的所有字段名...where table_schema = ‘test’ group by table_schema; mysql中查询到包含该字段的所有表名 SELECT TABLE_NAME FROM information_schema.COLUMNS...WHERE COLUMN_NAME='字段名' 如:查询包含status 字段的数据表名 select table_name from information_schema.columns where

12.6K4 0

在MySQL表中查询出所有包含emoji符号的数据

从以下地址下载emoji的utf8编码文件 https://gist.github.com/JoshyPHP/225b3c77005a89d81511 2. ...建立字典表 create table emoji_utf8(c varchar(10)); insert into emoji_utf8 select 0x23E283A3 ;insert into...查询测试 -- 源数据 SELECT x.content FROM x WHERE CommentID in (39539523,39205786); -- 关联查询 SELECT distinct...in (39539523,39205786) and x.content like concat('%',c,'%'); 加distinct是因为存在同一表情符号对应两个utf8编码的情况

13.4K1 0

如何通过交叉验证改善你的训练数据集？

现在，评估模型最简单、最快的方法当然就是直接把你的数据集拆成训练集和测试集两个部分，使用训练集数据训练模型，在测试集上对数据进行准确率的计算。当然在进行测试集验证集的划分前，要记得打乱数据的顺序。...）交叉验证交叉验证是一种评估数据分析对独立数据集是否通用的技术。...Holdout Method 在这篇文章中，我们将讨论最流行的K折交叉验证，其他虽然也非常有效，但不太常用。我们简单了解一下为什么需要交叉验证 — 我们一直将数据集拆分为训练集和测试集（或保留集）。...因此我们需要进行交叉验证。 K折交叉验证首先我需要向你介绍一条黄金准则：训练集和测试集不要混在一块。你的第一步应该是隔离测试数据集，并将其仅用于最终评估。这样才能在训练集上执行交叉验证。 ?...然后将训练好的模型在holdout集上进行测试，上述过程重复k次，每次我们都在不断地改变hold out集，这样，每个数据点都有相等的机会被包含在测试集中。通常，k设置为3或5。

4.7K2 0

在Greenplum（PostgreSQL）表中查询出所有包含emoji符号的数据

从以下地址复制emoji的unicode https://unicode.org/emoji/charts/full-emoji-list.html 2....建立字典表 create table emoji_unicode(c varchar(10)); copy emoji_unicode from '/data/emoji_unicode.txt';...查询测试 -- 源数据 SELECT x.content FROM x WHERE CommentID in (39539523,39205786); -- 关联查询 SELECT distinct...emoji_unicode WHERE CommentID in (39539523,39205786) and x.content like '%'||e||'%'; 结果如下：字典表关联一个四千二百万行的评论表...，其中评论字段 content 数据类型为 varchar(6000)，查询出所有带 emoji 的评论，用时25分钟。

3.6K6 0

【数据集】开源 | TNCR：表网检测和分类数据集，包含9428个高质量的标记图像，实现了SOTA的基于深度学习的表检测方法

TNCR: Table Net Detection and Classification Dataset 原文作者：Abdelrahman Abdallah 内容提要我们提出了TNCR，一个从免费网站收集的不同图像质量的新表格数据集...TNCR数据集可以用于扫描文档图像的表检测，并将其分类为5个不同的类。TNCR包含9428个高质量的标记图像。在本文中，我们实现了SOTA的基于深度学习的表检测方法，以创建几个强基线。...基于ResNeXt- 101-64x4d骨干网的Cascade Mask R-CNN在TNCR数据集上获得了最高的性能，精度为79.7%，召回率为89.8%，f1得分为84.4%。...我们将TNCR开源，希望鼓励更多的深度学习方法用于表检测、分类和结构识别。主要框架及实验结果声明：文章来自于网络，仅用于学习分享，版权归原作者所有，侵权请加上文微信联系删除。

6952 0

Mysql中查询数据库中包含某个字段的所有表名

背景有一个商品的名称配置错误了，需要进行修改，但是涉及到的表太多了，因为商品的sku_name被冗余到了很多表中，一个一个的找非常的费事费力，特地记下便捷查询操作以备后用。...数据库SQL快捷查询 1.查询包含某个字段的所有表名 SELECT DISTINCT table_name FROM information_schema.columns WHERE table_schema...= 'db_lingyejun' and column_name='sku_id'; 2.查询同时含有两个字段的所有表名 SELECT DISTINCT a.table_name FROM information_schema.columns...a.column_name='sku_id' and b.table_schema = 'db_lingyejun' and b.column_name='sku_name'; 3.拼接SQL动态生成针对此字段的所有更新语句

4.5K2 0

超强的gtSummary ≈ gt + comparegroups ??

gtsummary包是专门用来画表格的，高度自定义的多种选项，快速绘制发表级表格。可用于总结汇总数据集、多种模型等。快速绘制描述性统计表格、基线资料表(例如医学期刊常见的表1！) 。...("gtsummary") remotes::install_github("ddsjoberg/gtsummary") tbl_summary 自动计算描述性统计指标，支持连续型变量、分类变量，生成的表格支持自定义细节...library(gtsummary) suppressPackageStartupMessages(library(tidyverse)) 使用自带的trial数据集进行演示，这个数据集也是临床中常见的数据类型...包含200个病人的基本信息，比如年龄、性别、治疗方式、肿瘤分级等，分为2组，一组用A药，另一组用B药。...可以非常方便的绘制交叉表，临床上我们喜欢叫列联表~ trial %>% tbl_cross( row = stage, # 指定行 col = trt, # 指定列 percent

1.7K8 0

生信爱好者周刊（第 2 期）：生信的境界与道路

作者在多个基准数据集上评估DeepSEM在各种单细胞任务中的性能都获得了不错的结果，并且由于VAE模型本身可以对潜在向量空间进行扰动来生成新的数据，因此在训练样本数据有限的情况下，仍能保证细胞类型分类的准确性...然而，由于数据集之间的批处理效应、有限的计算资源可用性以及原始数据的共享限制，从参考数据中学习变得复杂。...scArches使用迁移学习和参数优化来实现高效、分散、迭代的参考构建和新数据集的上下文化，而无需共享原始数据。...主题数据高亮 5、gtsummary[16] - 准备好的演示数据总结和分析结果表 gtsummary包提供了一种优雅而灵活的方法来使用R编程语言创建可发布的分析和汇总表。...gtsummary包总结了数据集、回归模型等等，使用了具有高度可定制功能的合理默认值。 6、mathpix[17] - 图片转公式神器好用的公式提取工具。支持拷贝到Word和LaTex。

1.4K2 0

keras中的数据集

数据在深度学习中的重要性怎么说都不为过，无论是训练模型，还是性能调优，都离不开大量的数据。有人曾经断言中美在人工智能领域的竞赛，中国将胜出，其依据就是中国拥有更多的数据。...具体说来，keras.datasets模块包含了加载和获取流行的参考数据集的方法。...这个数据集包含了19世纪70年代末波士顿郊区不同地点的房屋信息数据，每条数据包含13个属性，目标属性是某地点房屋的售价(单位为k$)。...出于方便起见，单词根据数据集中的总体词频进行索引，这样整数“3”就是数据中第3个最频繁的单词的编码。...，但是方便计算机处理。

1.8K3 0

INFORMATION_SCHEMA 数据库包含所有表的字段

sql注入后可以通过该数据库获取所有表的字段信息 1. COLLATIONS表提供有关每个字符集的排序规则的信息。...COLLATIONS表包含以下列： COLLATION_NAME 排序规则名称。 CHARACTER_SET_NAME 与排序规则关联的字符集的名称。 ID 排序规则ID。...CHARACTER_SET_NAME 与排序规则关联的字符集的名称 4. COLUMNS 提供表中字段的信息 TABLE_CATALOG 包含该列的表所属的目录的名称。...TABLE_SCHEMA 包含字段所在数据库的名称。 TABLE_NAME 包含字段所在表的名称。 COLUMN_NAME 字段的名称。...PRIVILEGES 您对该字段的权限。 COLUMN_COMMENT 字段定义中包含的任何注释。 GENERATION_EXPRESSION 对于生成的字段，显示用于计算列值的表达式。

1.2K2 0

数据集 | 学生在考试中的表现数据集

下载数据集请登录爱数科(www.idatascience.cn) 该数据集包括了学生的一些信息和考试中获得的分数。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源来源于Kaggle。

1.4K2 0

情感计算，最复杂的数据运算｜Mixlsb交叉学科

Ella 说：情感计算的难点主要在于对情绪的处理和分析，因为情绪是非常主观、隐私、且复杂的。比如，如何将隐性情感，转化为一个可分析处理的数据？如何获取到更多的情感数据样本？...在昨晚的闪聊活动中，我们还分别邀请到：工程领域、心理学领域的专业学习者，就各自领域发表了各自的看法。...大家认为，情感数据收集方式可以有以下几种：机器视觉识别面部表情，语音识别说话人情绪，传感器收集人体生物数据，比如心率、脑电等。传感器的采集方案成本较高，但数据的准确率较高。...MixLab闪聊主题以交叉学科为主。...Mixlab 社区将为您匹配交叉学科方向所涉及到的不同专业学科领域内的嘉宾，进行线上畅聊。

6702 0

hive删除表和表中的数据

hive删除表和表中的数据，以及按分区删除数据 hive删除表： drop table table_name; hive删除表中数据： truncate table table_name; hive按分区删除数据

8.4K2 0

Sklearn库中的数据集

一、Sklearn介绍 scikit-learn是Python语言开发的机器学习库，一般简称为sklearn，目前算是通用机器学习算法库中实现得比较完善的库了。...二、Sklearn数据集种类 sklearn 的数据集有好多个种自带的小数据集（packaged dataset）：sklearn.datasets.load_ 可在线下载的数据集（Downloaded...Dataset）：sklearn.datasets.fetch_ 计算机生成的数据集（Generated Dataset）：sklearn.datasets.make_ svmlight...图像数据集 load_sample_images 图像数据集 load_digits 手写体数据集 4.有关医学的数据集 load_breast_cancer 乳腺癌数据集 load_diabetes...mldata.org 在线下载的数据集

1.9K2 0

Echarts中数据集的使用

前言从 ECharts4 支持数据集开始，更推荐使用数据集来管理数据。...https://echarts.apache.org/handbook/zh/concepts/dataset 数据集最大的特点就是数据和数据展示配置的分离。...以前我们都是在系列（series）中设置数据。...}, { type: 'bar', name: '2017', data: [97.7, 83.1, 92.5, 78.1] } ] }; 使用数据集后...，序列中只需要设置x,y展示的列即可。

3272 0

使用tp框架和SQL语句查询数据表中的某字段包含某值

有时我们需要查询某个字段是否包含某值时，通常用like进行模糊查询，但对于一些要求比较准确的查询时（例如:微信公众号的关键字回复匹配查询）就需要用到MySQL的 find_in_set()函数；以下是用...find_in_set()函数写的sq查询l语句示例： $keyword = '你好'; $sql = "select * from table_name where find_in_set('"....$keyword"',msg_keyword) and msg_active = 1"; 以下是在tp框架中使用find_in_set()函数的查询示例： $keyword = '你好'; $where...数据库中存的关键字要以英文“,”分隔； 2.存储数据要对分隔符进行处理，保证以英文“,”分隔关键字。...以上这篇使用tp框架和SQL语句查询数据表中的某字段包含某值就是小编分享给大家的全部内容了，希望能给大家一个参考。

7.4K3 1

【猫狗数据集】计算数据集的平均值和方差

/xiximayou/p/12405485.html 计算数据集的均值和方差有两种方式：方法一：在utils下新建一个count_mean_std.py文件 import os import cv2...train_data.imgs的值是[(图片地址1,标签)，(图片地址2,标签)，...]的格式。在代码中for img_path,_ in dataset正好取出图片的地址。...再使用Image.open()打开一张图片，转换成numpy格式，最后计算均值和方差。别看图中速度还是很快的，其实这是我运行几次的结果，数据是从缓存中获取的，第一次运行的时候速度会很慢。...这里只对验证集进行了计算，训练集有接近2万张图片，就更慢了，就不计算了。...供参考之前我们都是利用datasets.ImageFolder读取数据集，下一节我们使用第二种方式读取猫狗数据集。

1.8K2 0

【数据集】开源 | Toronto-3D：大规模的室外点云数据集，包含8个标签。

Large-scale Mobile LiDAR Dataset for Semantic Segmentation of Urban Roadways 原文作者：Weikai Tan 内容提要大规模室外点云的语义分割对于各种城市场景中的应用理解至关重要...随着移动激光扫描(MLS)系统的快速发展，大量的点云可用于场景理解，但是公共可访问的大规模可以用于深度学习的标记数据集仍然有限。...本文介绍了加拿大多伦多MLS系统获取的用于语义分割的大型城市户外点云数据集Toronto- 3d。该数据集覆盖了大约1公里的点云，由大约7830万个点和8个标记的对象类组成。...进行了语义分割的基线实验，结果验证了该数据集具备有效的训练深度学习模型的能力。Toronto-3D的发布是为了鼓励新的研究，欢迎在社区进行反馈，用以改进和更新数据标签。主要框架及实验结果 ? ?

1.5K4 0

广义表中关于tail和head的计算

大家好，又见面了，我是你们的朋友全栈君。根据表头、表尾的定义可知：任何一个非空广义表的表头是表中第一个元素，它可以是原子，也可以是子表，而其表尾必定是子表。...也就是说，广义表的head操作，取出的元素是什么，那么结果就是什么。...但是tail操作取出的元素外必须加一个表——“ （）“ 举一个简单的列子：已知广义表LS=((a,b,c),(d,e,f)),如果需要取出这个e这个元素，那么使用tail和head如何将这个取出来。...利用上面说的，tail取出来的始终是一个表，即使只有一个简单的一个元素，tail取出来的也是一个表，而head取出来的可以是一个元素也可以是一个表。

7021 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭