前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >表型组学 | 人类表型组计划中睡眠特征的全表型组关联分析 | Nat.Med

表型组学 | 人类表型组计划中睡眠特征的全表型组关联分析 | Nat.Med

作者头像
生信菜鸟团
发布2025-03-28 13:49:07
发布2025-03-28 13:49:07
570
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:Phenome-wide associations of sleep characteristics in the Human Phenotype Project
  • 中文标题:人类表型组计划中睡眠特征的全表型组关联分析
  • 发表日期:27 January 2025
  • 文章类型:Article
  • 所属期刊:Nature Medicine
  • 文章作者:Sarah Kohn | Eran Segal
  • 文章链接:https://www.nature.com/articles/s41591-024-03481-x

Abstract

Para_01
  1. 睡眠测试通常用于诊断睡眠障碍,但这些测试记录的多种与睡眠相关的生物标志物也能提供更广泛的健康洞察。
  2. 在本研究中,我们利用了人类表型项目队列的独特全面数据,该数据包括从6366名成年人(3043名男性和3323名女性参与者)在家进行的16812晚睡眠呼吸暂停监测中收集的448个睡眠特征,以研究睡眠特征与身体特征之间的关联,涉及16个身体系统。
  3. 在这项分析中,我们识别出数千个显著关联,其中内脏脂肪组织 (VAT) 是与外周呼吸暂停-低通气指数相关性最强的身体特征,调整了性别、年龄和体重指数 (BMI) 后仍如此。
  4. 此外,通过使用睡眠特征,我们能够在保留的一组个体中预测超过15% 的身体特征,涵盖16个身体系统中的15个系统。
  5. 值得注意的是,睡眠特征对某些胰岛素抵抗、血脂(如甘油三酯)和心血管测量值的预测贡献大于对其他身体系统特征的预测贡献。
  6. 这种贡献独立于 VAT,因为无论是在男性还是女性参与者中,睡眠特征作为这些测量值的预测因子均优于年龄、BMI 和 VAT。
  7. 与肠道微生物群相关的途径及饮食(尤其是对于女性参与者)在预测临床阻塞性睡眠呼吸暂停症状(特别是嗜睡)方面表现尤为突出,超越了年龄、BMI 和 VAT 对这些症状的预测能力。
  8. 共同作用下,生活方式因素有助于预测超过50% 的睡眠特征。
  9. 这项工作为探索睡眠特征与身体特征之间的关联以及基于睡眠监测开发预测模型奠定了基础。

Main

Para_01
  1. 在过去几十年中,已经开发出复杂的睡眠监测方法来评估睡眠障碍。
  2. 从实验室内的多导睡眠图开始,到最近的家庭睡眠呼吸暂停测试 (HSAT),这些睡眠测试使用可穿戴传感器来整夜连续监测患者的呼吸、心跳、血氧饱和度动态变化,有时还包括更多信号。
  3. 这些方法能够评估睡眠结构和整体睡眠健康,通常可以确定阻塞性睡眠呼吸暂停 (OSA) 的严重程度,这是一个广泛存在的健康问题,据估计全球有近 10 亿成年人受到影响,并与多种并发症相关,例如心血管疾病和代谢性疾病的发病风险增加 2-3 倍。
  4. 尽管睡眠数据已经在睡眠障碍的背景下被广泛研究,但我们认为它们是生理信号记录的宝贵来源,可以为人类健康的更广泛方面提供见解。
Para_02
  1. 尽管国家睡眠研究资源库中有来自多个队列的众多数据库,其中最多包含多导睡眠图、活动记录仪和基于问卷的睡眠数据。
  2. 然而,要理解睡眠与整体健康之间的复杂相互作用,需要进行全面的检查,这需要大规模且深度表型化的队列。
  3. 一些表型全关联研究使用了自我报告的或有限的客观睡眠测量来评估睡眠时间和健康结果之间的关系。
  4. 然而,这些研究缺乏纳入广泛的高分辨率客观睡眠测量。
Para_03
  1. 在本研究中,我们利用了人类表型项目(HPP)中的睡眠数据——总计从6366名个体中收集了16812个夜晚的HSAT监测数据(每个个体每研究阶段平均2.42±0.70个夜晚),并结合多种模式探索了睡眠与其他16个身体系统之间的关联。
  2. 我们分析了从HSAT中提取的100个客观生理特征,其中包括呼吸、打鼾、睡眠姿势和睡眠阶段的测量值,以及从静息信号(由HSAT设备收集)中衍生出的348个夜间脉率变异性(PRV)指标。
  3. PRV作为心率变异性的替代指标,已被证明可用于评估个体的整体健康和福祉,从而为人类健康提供潜在的竞争性或互补性见解。
Para_04
  1. 考虑到睡眠指标众所周知的夜间变化性,我们的方法强调使用多晚数据的聚合值以提高可靠性。
  2. 尽管一些研究已经分别探讨了睡眠障碍与某些特征之间的关联,例如肥胖、心房颤动或2型糖尿病,但尚未对与睡眠相关的所有身体系统进行全面的研究。
  3. 因此,我们的目标是绘制出与睡眠特征相关的所有表型,并根据其在不同身体系统中的重要性进行排序。
  4. 此外,我们还研究了睡眠特征预测除睡眠或心血管疾病之外的其他医疗状况的能力。

Results

Cohort characteristics

队列特征

Para_01
  1. 为了开展这项研究,我们分析了来自正在进行的 HPP10 的数据,这是一个大规模、深入表型特征的队列,在本研究进行时,该队列仅包括以色列人,其中大多数人健康,具有欧洲(阿什肯纳兹)犹太人血统,并且相比普通人群拥有相对较高的教育水平(方法)。
Para_02
  1. 该队列包括多种临床、行为、生理和多组学特征分析,可以重新归类为 17 个身体系统:睡眠及其他 16 个系统(图 1a)。
  2. 图 1b 展示了本研究中考虑的 17 个身体系统,将其特征投影到二维空间,以说明它们彼此之间的距离以及如何根据身体系统类型聚集在一起(方法)。
  3. 聚类图显示,例如,睡眠特征与心血管系统之间的紧密关联——这一关系已在先前的研究中得到了广泛探讨。

Fig. 1: Illustration of the HPP study data used in this work.

- 图片说明

◉ 睡眠特征从多晚睡眠监测中提取,并测试了其与年龄、BMI 和 16 个其他身体系统级别的类别的关联,这些类别来自 HPP 研究中收集的全面临床、生理、行为和多组学分析数据。◉ 使用均匀流形近似和投影(UMAP)对 HPP 队列中包含的身体系统特征进行二维映射。◉ 为更好地可视化身体系统相似性和聚类,身体系统用颜色编码。◉ 相对于所有其他表型,睡眠监测的时间安排如下:身体系统特征在访问前后六个月内测量,而睡眠监测则在该访问后两周内的三个晚上进行。◉ ABI 表示踝臂指数;CGM 表示连续血糖监测;DXA 表示双能 X 射线吸收测定法;ECG 表示心电图;HMO 表示健康维护组织;IMT 表示内膜中层厚度;MB 表示微生物组;MS 表示质谱;PWV 表示脉搏波速度;RDS 表示近期抑郁症状。

Para_03
  1. 我们专注于6,748名参与者的多夜睡眠指标,以研究其与在±6个月期间内测量的其他身体系统数据之间的关联(方法和图1c)。
  2. 在排除无效记录和不符合项目纳入标准的参与者后,共纳入了来自6,366名参与者和16,812个夜晚的6,940个数据点(扩展数据图1)(见扩展数据表1获取所有身体系统的样本量)。
  3. 在所包含的总人数中,47.8%(3,043/6,366)为男性,52.2%(3,323/6,366)为女性,平均年龄为52.4 ± 7.7岁(均值 ± 标准差),平均BMI为26.1 ± 4.1 kg m−2。

Reference values and trends of the sleep-derived features

睡眠衍生特征的参考值和趋势

Para_01
  1. 睡眠分析包括使用 WatchPAT 300 (ZOLL Itamar) 家用睡眠测试设备监测外周血氧饱和度、脉搏率、呼吸事件、打鼾水平、睡眠姿势和睡眠阶段,并进行后期处理计算,持续两周时间内的三个夜晚。
  2. 为了评估这些特征在我们数据集中的分布情况,我们计算了所有数据点的平均值和标准差;部分关键特征的结果见表 1。

Table 1 Summary of key sleep-derived measurements 表1 关键睡眠衍生测量值的总结

Para_02
  1. 我们分别对男性和女性参与者进行了与年龄相关的睡眠衍生特征的进展研究(详见方法部分)。
  2. 图2展示了外周呼吸暂停-低通气指数(pAHI)、睡眠脱饱和期间最低氧饱和度的平均值(mean nadir SpO2)以及浅睡和深睡百分比的年龄-性别参考图。
  3. 在本分析中,我们使用了pAHI这一无需气流传感器即可评估的外周测量值,作为AHI的替代指标,并作为睡眠呼吸暂停严重程度的指示器。
  4. 结果表明,通过HSAT进行多夜监测时,pAHI随着每增加一岁而显著增加,这与之前的研究结果一致。
  5. 尽管结果显示女性参与者的pAHI随年龄变化更为明显,但我们发现约10%的女性在55岁左右达到中重度OSA对应的pAHI水平,而约10%的男性在40岁时已达到该阈值。
  6. 同样地,无论性别,mean nadir SpO2都随着每增加一岁而降低。
  7. 此外,随着年龄的增长,男女双方的睡眠结构均发生了变化,表现为深睡比例每年减少0.13 ± 0.01%(平均值 ± 标准差)和0.14 ± 0.01%,浅睡比例每年增加0.18 ± 0.02%和0.23 ± 0.02%,分别对应女性和男性参与者。
  8. 对于pAHI和mean nadir SpO2,一个有趣的性别差异出现了:男性的这些睡眠指标在整个年龄范围内几乎呈线性增长,而女性在大约55岁时表现出进展的变化,这可能反映了绝经状态在此年龄的变化。
  9. 为了验证这一假设,我们从最初的女性队列中重新抽样,创建了两个子组(每组n = 173):一组为绝经前女性参与者,另一组为绝经后女性参与者,按年龄匹配。
  10. 如扩展数据图2所示,我们观察到绝经前组的pAHI测量值随年龄增长的速度略快于绝经后组,在50岁之后达到相似的pAHI水平。
  11. 然而,在50岁以下时,绝经前组的pAHI测量值低于同龄的绝经后组。
  12. 这表明先前观察到的非线性并非与年龄相关,而是与绝经状态有关。

Fig. 2: Association of sleep features with age in male and female participants.

- 图片说明

◉ 以对数尺度表示的女性(橙色)和男性(蓝色)参与者年龄与 pAHI 的关系图。◉ 阻塞性睡眠呼吸暂停(OSA)严重程度级别分别用绿色、黄色和红色标记,正常至轻度(pAHI < 15)、中度(15 < pAHI < 30)和重度(pAHI > 30)。◉ 女性(橙色)和男性(蓝色)参与者在睡眠期间最低 SpO2 平均值与年龄的关系图。◉ 浅睡所占时间百分比与年龄的关系图,与 b 类似。◉ 深睡所占时间百分比与年龄的关系图,与 b 类似。◉ 对于所有面板(a-d),每个图形的左上方显示了稳健线性回归方程,其中‘y’分别表示对数尺度上的 pAHI(a)、平均最低 SpO2(b)、浅睡百分比(c)和深睡百分比(d)。◉ 使用 LOWESS 回归得到的第 3、10、50、90 和 97 个百分位数以虚线黑线显示在每个图上。◉ x 轴和 y 轴值的直方图分别显示在每个图的顶部和右侧。◉ LOWESS 表示局部加权散点图平滑方法。

Within-individuals longitudinal analysis

个体内部纵向分析

Para_01
  1. 总的来说,我们队列中的574名个体接受了两次睡眠监测系列(扩展数据图1)。
  2. 我们使用这个子集来分析表1中列出的关键睡眠特征在两年期间内的个体进展。
  3. 为了进行纵向分析,我们根据方法部分描述的方法计算了个体内部从基线到随访的睡眠测量值的百分比变化。
  4. 该分析显示,与氧饱和度和打鼾水平相关的特征在时间上具有非常高的稳定性,睡眠结构具有一致性,而像pAHI和PRV这样的特征则存在较大波动(扩展数据图3)。
  5. 此外,我们观察到,在所有个体中,两年期间内浅睡比例增加了(+1.01 ± 13.65% 中位数 ± 标准差,P = 0.001),而深睡比例减少了(−1.14 ± 31.64% 中位数 ± 标准差,P = 0.02),这与总体人群中观察到的与年龄相关的改变一致。

Pairwise correlations of sleep-derived features to other body systems features

睡眠衍生特征与其他身体系统特征的成对相关性

Para_01
  1. 为了识别特定的特征-特征关联,我们探索了关键睡眠衍生特征与其他所有身体系统特征之间的成对相关性。
  2. 我们选择了之前与某些表型相关的关键睡眠衍生特征,以提供广泛的视角和在多种身体特征中的定量排名。
  3. 这些睡眠衍生特征被选用来代表使用 HSAT 收集的每种类型变量:pAHI 用于呼吸事件;平均打鼾水平用于连续打鼾监测;平均氧饱和度低点用于连续脉搏血氧仪监测;睡眠时间作为客观测量(而非自我报告);从睡眠分期计算出的睡眠效率;以及夜间 PRV 作为自主神经系统活动的潜在测量方法。
  4. 如前所述,性别和年龄对睡眠特征有广泛影响,特别是对 pAHI,但众所周知,BMI 也与 pAHI 显著相关。
  5. 因此,为了探索与其他身体系统的关联,我们使用了根据年龄、性别和 BMI 校正的 Spearman 相关分析(方法部分)。
  6. 总共测试了 25,164 个相关性,其中 12,404 个对于所有身体系统中的六个关键睡眠衍生特征是显著的;每个身体系统的前 10 个最大相关性如图 3 所示。
  7. 特别是,我们的研究结果表明,pAHI 与身体组成特征的相关性,例如总扫描 VAT 面积的 Spearman 相关系数为 0.52(P < 3 × 10−48),超过了性别、年龄和 BMI 的相关性,成为所有身体系统中最高的相关性。
  8. 类似地,通过中介分析发现,当考虑性别、年龄和 BMI 作为潜在中介因素时,VAT 对 pAHI 具有最大的平均直接效应(扩展数据图 4)。
  9. 还发现血液脂质和心血管系统衍生特征与 pAHI 的相关性在其他身体系统中也是高度显著的。
  10. 值得注意的是,在中介分析后,血液甘油三酯在血液脂质中以及肋骨面积在骨密度测量中仍然与 pAHI 高度相关。
  11. 尽管这些关联在以前的研究中分别被观察到,我们在此提供了它们之间的定量排名。
  12. 这一排名揭示,例如,关于饮食或微生物组与睡眠特征的假设相关性,与其他身体系统相比非常有限,或者白天嗜睡(来自生活方式特征)与 pAHI 的关联仅排在代谢身体系统之后。
  13. 为进一步探索这些稳健的关联,我们检查了 pAHI 与特定血液生物标志物之间的线性关系,包括甘油三酯、糖化血红蛋白(HbA1C)和空腹血糖水平(补充图 1)。
  14. 例如,我们的分析显示,甘油三酯水平超过推荐阈值 175 mg dl−1 的男性人口中有 49.7%(参考文献 31),基于空腹血糖和 HbA1c 阈值的糖尿病男性人口分别有 55.5% 和 53.9%,具有中度 OSA 的 pAHI 指标。
  15. 有趣的是,诸如看电视或吸烟等生活习惯显示出比自我报告的白天嗜睡更强的正相关性,并且与睡眠效率呈负相关,而体力活动则与 pAHI 呈负相关,并与 PRV 呈正相关。
  16. 打鼾水平和最低氧饱和度呈现出与 pAHI 类似的关联,而睡眠持续时间和效率与其他表型的关联较差且较少。
  17. 最后,PRV 被发现与性别、虚弱和骨密度特征呈正相关,正如先前所假设的那样。

Fig. 3: Correlations of key sleep-derived features with features derived from other body systems.

- 图片说明

◉ 环形热图显示了每个身体系统(身体系统名称在图中心标明)与 pAHI 显著相关的前 10 个特征,这些特征与年龄、性别和 BMI 匹配。◉ 热图的每一部分代表一个单一的身体系统特征,其名称在热图的外层标明。◉ 颜色代码在热图顶部标明,表示与 pAHI 的 Spearman 相关性,从外到内依次为平均打鼾水平、平均最低血氧饱和度 SpO2、睡眠时长、睡眠效率以及夜间 PRV 的相关性。◉ 经过 FDR 校正后不显著的相关性以空白白色单元格显示。◉ 这些特征按照它们所属的身体系统分组(在最内层标明),并根据与 pAHI 的 Spearman 相关系数绝对值大小,按逆时针顺序从最强相关到最弱相关进行排序。◉ abs 表示绝对值;ACE 表示血管紧张素转换酶;ARB 表示血管紧张素受体拮抗剂;bmc 表示骨矿物质含量;bmd 表示骨密度;bt 表示血液检测;l 表示左侧;NEG 表示负值;POS 表示正值;r 表示右侧。

Body system-level associations

系统级别的关联

Para_01
  1. 尽管由单一特征定义的特定表型可能与某种睡眠衍生特性高度相关,但这并不一定表明与该表型相关的整个身体系统与睡眠之间存在强关联。
  2. 相反,两种表型之间缺乏相关性并不意味着当将身体系统视为一组特征时,它与某一特定特性之间没有关联。
  3. 此外,某些表型可能与睡眠特性之间存在非线性关系,而这些关系无法通过相关性分析检测到。
  4. 为了解决这一问题,我们使用线性和非线性模型评估了身体系统预测特定表型的能力(详见方法部分中使用的模型和预测能力的计算方法)。
  5. 由于性别、年龄和BMI对人类生理和行为有广泛影响,我们分别针对男性和女性参与者训练和评估模型,并根据年龄和BMI进行调整。
  6. 此外,鉴于内脏脂肪(VAT)已被证明是睡眠呼吸障碍的强预测因子,基于睡眠测试测量或预测的模型也对VAT进行了调整。
Para_02
  1. 因此,我们询问了整个睡眠身体系统是否可以预测其他身体系统的特征,并且男性和女性参与者之间存在多大的差异。
  2. 我们将睡眠身体系统分为两个子组:睡眠测试测量,其中包括与呼吸事件、睡眠结构、打鼾和睡眠姿势相关的特征(方法和补充图2),以及PRV,它包括一组反映神经系统自主变异的计算(方法和补充图3)。
  3. 图4显示,作为一组特征的睡眠测试测量,在调整年龄、BMI和VAT后,对胰岛素抵抗和血脂水平的预测提供了最大的贡献,分别具有线性和非线性关系(扩展数据表2),验证了之前研究中的观察结果。
  4. 睡眠测试测量与男性参与者的46%(23/50)和女性参与者的50%(25/50)的胰岛素抵抗特征显著相关,并分别与男性参与者的16%(472/3,042)和女性参与者的11%(339/3,040)的血脂检测显著相关。
  5. 例如,基于睡眠测试测量、年龄、BMI和VAT,血糖水平的第一分位数(来自连续血糖监测)被预测出,其皮尔逊相关系数为0.29 ± 0.02(中位数±标准差)和0.34 ± 0.02,而仅基于年龄、BMI和VAT时分别为0.11 ± 0.02和0.21 ± 0.02(男性和女性参与者分别如此)。
  6. 这表明VAT并未介导睡眠与胰岛素抵抗之间的关联,与之前工作中的假设相反。
  7. 我们的结果还表明,某些身体系统,如饮食、微生物群或心理健康,在被视为一组全面特征并使用非线性关系时,与睡眠测试测量的关联程度更高,相比它们在表型-表型成对关系中的排名。
  8. 在男性和女性参与者中,使用睡眠测试测量特征集对药物进行显著预测未发现任何结果。
  9. 有趣的是,PRV作为一组特征结合年龄和BMI也能够显著解释大量血脂的方差,对于男性参与者超过15%(470/3,068),而对于女性参与者为12%(400/3,068)。
  10. 此外,PRV除了可预测的心血管系统关联外,还与身体组成、密度、虚弱性和生活方式显著相关(扩展数据图5)。

Fig. 4: Body system feature prediction based on sleep test measurements averaged over three nights.

- 图片说明

◉ 箱线图和蜂群图(中心,中位数;箱子,四分位距(IQR);须线,1.5× IQR),用于比较基于连续三晚睡眠测试测量值平均结果的模型在预测身体系统特征方面的表现,与基于年龄、BMI 和 VAT 的基线模型的表现进行对比,分别针对男性(a)和女性(c)参与者。◉ 每个模型的预测能力通过五折交叉验证评估,并重复 50 次迭代(每次使用不同的随机种子),报告每次迭代中保留集的实际值与预测值之间的皮尔逊相关系数 r。◉ 在图 a 和 c 中,底部图形显示了基于睡眠测试数据的模型从这些迭代中获得的中位预测能力,而顶部图形显示了使用基于睡眠测试数据的模型相比基线模型所解释的额外方差(r² 差异)。◉ 使用睡眠测试测量显著提高预测能力的特征数量(与基线模型相比差异显著,双侧 t 检验中 P < 0.001),对应于这些分布中包含的点数(n),在 x 轴上以括号形式(n/该身体系统中的总特征数)标注为每个身体系统的数值。◉ 特征按身体系统分组,身体系统沿 x 轴从左到右排列,按照图 a 和 c 上部图形中所示的中位解释方差(箱子中心)降序排列。◉ 图 b 和 d 显示条形图和点图(n = 50;中心,均值;误差线,标准差),比较基于年龄、BMI 和 VAT 的模型与基于年龄、BMI、VAT 和连续三晚睡眠测试测量平均值的相应模型在预测图 a 和 c 中用箭头标记的身体系统测量值方面的表现,分别针对男性(b)和女性(d)参与者。◉ 每个模型的平均预测能力值标注在每个条形的右侧。BT 表示血液测试。

Para_03
  1. 在相反的方向上,我们研究了哪个身体系统能够最好地预测睡眠测试测量值。
  2. 我们发现,所有身体系统,当作为一组特征时,在一定程度上都能对男女两性中超过年龄和BMI的睡眠测试测量值进行预测(扩展数据图6)。
  3. 生活方式在预测某些睡眠测试测量值时提供了最大的贡献,这些测量值超越了年龄、BMI和内脏脂肪面积的影响,例如男性和女性参与者的总卧床时间和总唤醒时间,这很容易解释,因为与睡眠习惯相关的问题被包含在生活方式特征中(补充表1)。
  4. 此外,心血管系统、胰岛素抵抗、血脂水平和造血功能(特别是在男性参与者中),以及心理健康(尤其是在女性参与者中)被确定为睡眠测试测量值的重要预测因素。
  5. 这些发现与本研究中观察到的关联一致。
Para_04
  1. 尽管一些睡眠特征与阻塞性睡眠呼吸暂停(OSA)相关,但我们从未训练模型专门对OSA进行分类。
  2. 由于呼吸暂停低通气指数(AHI)作为单一生物标志物,在健康社区人群中被认为是OSA的较差指标,并且在我们的队列中,pAHI仅与日间嗜睡症状中度相关(扩展数据图7),我们根据pAHI和自我报告的日间过度嗜睡症状定义了一个新变量,以估计有症状的临床OSA(方法),这在之前的文献中有所建议。
  3. 我们评估了每个身体系统区分有无临床OSA个体的能力。
  4. 我们发现,在调整年龄、BMI和内脏脂肪组织(VAT)后,所测试的16个身体系统中有10个在至少一个性别中与临床OSA具有显著关联(扩展数据图8)。
  5. 值得注意的是,那些与pAHI相关性较低的身体系统,在超越年龄、BMI和VAT的基础上,对临床OSA分类的贡献比其他身体系统更大——例如,女性参与者的肠道微生物代谢途径(受试者工作特征曲线下的面积(AUC)= 0.614,95%置信区间(CI):0.612–0.617)和男性参与者(0.631(0.629–0.632)),以及女性参与者的饮食(0.611(0.608–0.613))。
  6. 这表明日间嗜睡可能介导了它们与临床OSA的关联,或者当这些身体系统特征作为一个整体时,它们在pAHI预测中的贡献比单独每个特征更大。

Associations with medical diagnoses

与医学诊断的关联

Para_01
  1. HPP 队列在基线研究阶段已经包含了 127 项自我报告的医疗诊断,预计在随访期间会收集到更多数据。
  2. 我们首先分别针对男性和女性参与者,使用逻辑回归模型(方法)探索了睡眠测试测量值和 PRV 特征与睡眠测试时自我报告的这些医疗诊断之间的关联性。
  3. 图 5a 所展示的结果表明,男性和女性参与者的显著医疗诊断关联数分别为 22 和 19,这些关联涉及调整了年龄、BMI 和 VAT 的睡眠测试测量值或调整了年龄和 BMI 的 PRV 特征。
  4. 其中,睡眠测试测量值对预测男性参与者的睡眠呼吸暂停具有较大贡献,这在意料之中,因为它包括了如 pAHI 和脱饱和测量等常用于诊断该疾病的指标,但其预测能力相对较低(AUC = 0.517 ± 0.002(中位数 ± 标准差))。
  5. 此外,它还对许多其他医疗状况和诊断做出了贡献,例如焦虑(男性为 0.507 ± 0.003,女性为 0.518 ± 0.007)和高脂血症(男性为 0.544 ± 0.004,女性为 0.522 ± 0.004),这与前面提到的相关身体系统一致。
  6. 我们发现睡眠测试测量值与性别特定的关联,例如对于女性参与者,存在高血压、骨质减少和糖尿病前期的关联;而对于男性参与者,则与过敏和背痛相关。
  7. 我们将相同的分析应用于夜间测量的 PRV 特征,并发现了与睡眠测试测量值已关联的医疗诊断相关的关联,例如两性中的高脂血症。
  8. 此外,PRV 还与未与睡眠测试测量值关联的医疗状况相关,并且在两性之间有所不同。
  9. 在男性参与者中,PRV 与高血压、特应性皮炎和听力损失相关;而在女性参与者中,PRV 则与焦虑、骨质疏松和哮喘等相关,以及其他一些状况。
  10. 其次,我们使用 Cox 比例风险模型(方法和扩展数据图 1)探讨了基线研究阶段的睡眠测试测量值和 PRV 特征与随访期间自我报告的心血管、代谢和内分泌疾病事件的纵向关联性。
  11. 图 5b 所展示的结果表明,与睡眠结构相关的特征(如睡眠时间和深度睡眠百分比)与内分泌疾病风险增加相关,而 pAHI 更是心血管和代谢疾病的风险预测因子。

Fig. 5: Sleep data-derived predictions of medical conditions and diseases.

- 图片说明

◉ 热图显示了基于基线睡眠测试测量值或基线 PRV 特征(结合年龄和 BMI)的逻辑回归分类器在预测男性(上方)或女性(下方)参与者报告的医学状况和疾病方面的预测能力。◉ 每个模型的预测能力通过五折交叉验证评估,并重复 50 次迭代,每次迭代报告保留集的 AUC 值。◉ 这些热图展示了从这些迭代中获得的每种状况和疾病的中位预测能力(中位 AUC)。◉ 基于睡眠数据结合年龄和 BMI 的模型与仅基于年龄和 BMI(基线模型)相比没有显著改进的状况或疾病要么未在此图中展示,要么被屏蔽(白格子)。◉ 状况和疾病按照 x 轴从左到右排序,从使用基于睡眠测试或 PRV 数据的模型相对于基线模型的中位 AUC 改进较大的到较小的。◉ 森林图以点表示危险比(HR),并用误差条表示 95% 置信区间,展示了基线时各种睡眠特征与接下来两年内发生心血管(紫色,n = 4,555)、代谢(绿色,n = 3,651)和内分泌(粉色,n = 4,624)疾病风险的关系。◉ 危险比大于 1 表示风险增加,而小于 1 则表明保护作用。◉ 显著关联被突出显示。◉ ADHD:注意力缺陷多动障碍;G6PD:葡萄糖-6-磷酸脱氢酶;IBS:肠易激综合征。

Discussion

Para_01
  1. 在这项工作中,我们分析了一个包含6,366名个体的队列的睡眠特征,其中包括夜间计算的PRV,这些个体具有独特全面的表型数据。
  2. 在这里,我们展示了用于诊断OSA的关键特征(如pAHI)随着年龄的增长的变化趋势,展示了男女个体中OSA患病率随年龄增长的增加情况,这与之前的观察结果一致。
  3. 在女性参与者中,这一假设还与绝经状态相关,之前的研究表明,绝经会影响睡眠特征以及额外的生物标志物,例如血脂水平。
  4. 此外,研究表明,呼吸暂停-低通气事件会对睡眠结构产生不利影响。
  5. 这是由于脱饱和事件的加剧导致微觉醒事件的发生,从而引发睡眠片段化。
  6. 鉴于OSA在男性中的更高患病率,我们预期在同一年龄段内,男性的深度睡眠比例会低于女性参与者。
  7. 然而,两性在深度睡眠比例的分布和与年龄相关的进展方面表现出相似性。
  8. 此外,在总体人群中观察到的深度睡眠减少和浅度睡眠增加的现象,不仅体现在不同个体之间,还体现在同一个人在两年间隔测量时的结果中,这也是一种在基于多导睡眠图测量的近期荟萃分析中观察到的老化现象。
Para_02
  1. 迄今为止,睡眠特征已被独立地与各种表型联系起来。
  2. 我们的研究旨在利用 HPP 队列中的广泛数据,在单一队列内调查这些关联,并量化每个关联的相对重要性。
  3. 我们使用了不同的方法,包括成对特征之间的相关性分析和基于机器学习的预测模型,以识别显著的关联。
  4. 我们使用预测模型的动力在于探索基于共享共同生理基础的一组特征之间的关联,而不是基于单一生物标志物的关联。
  5. 我们专注于两个不同的子群体:多晚监测的睡眠测试测量值和夜间 PRV(脉搏到达时间变异性)。
  6. 这些子群体对大多数身体系统特征显示出显著的预测能力,并且存在显著的性别特异性差异。
  7. 我们选择区分这两个子群体,一方面是为了反映睡眠的生理方面,仅用标准睡眠研究中已建立的参数来衡量,而不包括如脉率统计等直接的心脏测量;另一方面是为了反映夜间测量的 PRV 所体现的自主神经系统活动。
Para_03
  1. 使用所有方法并针对两性,发现睡眠测试测量值与身体成分相关,尤其是与内脏脂肪(VAT)相关,这超出了年龄和BMI的影响。
  2. VAT 是总体内脂肪中具有激素活性的组成部分,由内脏脂肪反映,已知男性个体中的含量更高,这可能解释了男性个体中阻塞性睡眠呼吸暂停(OSA)的更高患病率。
  3. 此外,睡眠测试测量值与胰岛素抵抗测量值相关,这在以色列人群中验证了之前在中国、美国、日本和韩国观察到的现象。
  4. 最近在不同队列中探讨了血液脂质与睡眠测试测量值以及 OSA 的关系;在我们的结果中,无论是男性还是女性参与者,通过睡眠测试测量值预测血液脂质水平的能力显著高于仅使用年龄、BMI 甚至 VAT 的能力。
  5. 睡眠与血液脂质及胰岛素抵抗的关系,对应于代谢综合征的组成部分,与各种其他研究的结果一致,且这种关系并未像之前假设的那样由内脏脂肪介导。
  6. 未来的研究可以包括临床试验,评估旨在减少 VAT(作为关键风险因素)的干预措施,例如饮食、运动或药物,并调查改善胰岛素抵抗如何影响睡眠呼吸暂停的严重程度。
  7. 鉴于胰岛素抵抗与睡眠障碍之间的联系独立于 VAT,未来的研究应探索通过药物或生活方式改变对胰岛素抵抗进行早期干预是否能改善睡眠结果,特别是在 OSA 高风险个体中,以及更积极治疗 OSA 是否可以改善糖尿病前期和糖尿病患者的血糖控制。
Para_04
  1. 然而,我们的分析还强调了睡眠与许多假设存在关联的表型之间缺乏强烈联系。
  2. 例如,睡眠与 PRV 领域中肾功能或肝脏健康测量值之间的关联相较于其他身体系统较低。
  3. 这些结果表明,这些关系可能比之前认为的更弱或更为复杂。
  4. 此外,尽管夜间呼吸受到广泛关注,本研究的一个局限性在于缺乏呼吸功能评估(例如肺活量测定),这可能会提供关于呼吸健康对睡眠影响的更完整图景。
Para_05
  1. 在分析自我报告的医疗状况和诊断与睡眠特征之间的关联时,我们确认了非常性别特定的关联,例如女性个体的骨质减少和骨质疏松。
  2. 这些观察结果可能再次表明绝经状态的影响,因为这些疾病通常在绝经后由于雌激素水平下降而出现。
  3. 同样,呼吸暂停事件的增加可以部分归因于绝经后腹部脂肪的积累。
  4. 尽管睡眠测试测量对人类健康的影响已被充分证实,但在大多数医学诊断中,夜间 PRV 仍 largely 未被研究,除了心理健康方面。
  5. 总体而言,本分析中观察到的相对较低的预测能力可能归因于自我报告数据中的噪声,这些数据可能无法准确反映参与者的实际医疗状态。
  6. 例如,睡眠呼吸暂停经常被低估,在我们的队列中,有 85 名参与者(1.85%)报告被诊断为睡眠呼吸暂停,而在同一数据集中,有 1,134 名参与者(24.67%)的平均 pAHI 超过 15。
  7. 本工作中呈现的与医疗状况相关的另一个限制是包含很少样本报告的医疗状况,这降低了某些关联的显著性。
  8. 这样做是为了将自我报告的睡眠呼吸暂停纳入分析,作为我们模型的合理性检查,因为我们预期会发现与此状况的关联。
Para_06
  1. 进一步的研究应集中于确定所识别关联背后的因果关系,例如代谢、心血管或饮食因素是否直接影响睡眠结果,或者睡眠障碍是否导致这些系统中的功能失调。
  2. 阐明这些因果关系可以增强预防和治疗策略。
  3. 此外,基于人工智能(AI)的预测模型可以使用深度学习对原始睡眠监测数据进行分析,从而发现与健康相关的新睡眠特征,超越我们研究中包含的当前睡眠测量指标。
Para_07
  1. 最后,由于纳入了健康志愿者且仅来自一个国家,研究人群可能受到选择偏差的影响,这限制了结果在其他人群中的普遍性。
  2. 然而,这些发现可以作为未来研究和验证的假设,特别是当 HPP 队列中获得长期随访数据、非健康参与者数据以及多样化人群的数据时。
Para_08
  1. 我们工作的主要创新点在于对高分辨率睡眠特征进行全面而同时的评估,并结合跨越16个身体系统的广泛表型,同时在单一大型成人队列中对其关联进行定量排序。
  2. 我们认为这种整体方法可能有助于未来的研究、生物标志物的发现、预测模型的开发以及对与睡眠相关的潜在代谢机制的理解。

Methods

Description of cohort

队列描述

Para_01
  1. 本文中的数据收集自2019年1月至2022年12月期间,共有6748名年龄在40至75岁之间的参与者,他们作为HPP研究的一部分被招募,并且在研究过程中至少接受了一次家庭睡眠测试。
  2. 该研究得到了魏茨曼科学研究院机构审查委员会的批准,所有参与者均为知情同意的自我指定志愿者。
  3. 本研究中的队列是以色列建立的最大纵向研究之一,其人口来源于多个不同的祖先群体,居住在一个相对较小的地理区域内,因此共享相对相似的环境和习惯。
  4. 该人群主要由受过良好教育的欧洲(阿什肯纳兹)犹太人组成,在招募时身体健康(即严重的医疗状况和疾病被定义为排除标准),并且每两年进行一次随访,持续25年。
  5. 有关完整的研究设计,请参见参考文献。
Para_02
  1. 数据包括各种临床、生理、行为和多组学特征数据,我们将其分为17组:睡眠特征以及其他16个代表主要生理系统和环境暴露的身体系统(图1)。

Body system-derived features

身体系统衍生的特征

Para_01
  1. 以下群体代表了本研究使用的基线特征和系统级类别。
  2. 每个群体中个体的确切数量、数据点和特征可以参见扩展数据表1。
Para_02
  1. 性别、年龄和 BMI(基线特征):这一类别被定义为设置一个基线类别,包含作为大多数健康状况的协变量的基本生理特征:性别、年龄和 BMI。
Para_03
  1. 血液脂质:包括通过脂质组学计算的3,098个脂质簇,使用 Waters ACQUITY UPLC 系统连接到 Vion IMS QTof 质谱仪(沃特世公司)以及内部处理,还包括以下血液检测:高密度脂蛋白胆固醇、非高密度脂蛋白胆固醇和甘油三酯。
Para_04
  1. 身体成分:包括对腿部、手臂、躯干、臀部和腹部区域的脂肪和瘦体质评估的108项测量值。
  2. 这些测量值来源于双能X射线吸收测定法成像。
  3. 此外,还包括一些人体测量参数,例如体重、身高以及臀围和腰围。
  4. BMI 不属于这一类别,因为它已经在基线组中有所考虑。
Para_05
  1. 骨密度:包括对多种骨骼成分不同部位的矿物质含量进行的182次测量,这些测量基于双能X射线吸收法成像。
Para_06
  1. 心血管系统:包括来自各种测试的测量值:血压测量值、通过踝臂指数测试计算的血压比值、使用 Falcon 设备(Viasonix)通过脉搏波速度估计的动脉僵硬度、通过 SuperSonic Aixplorer MACH 30(Hologic)从颈动脉超声计算的颈动脉内膜中层厚度、通过 iCare DRSplus 共聚焦眼底成像系统(iCare)和 Python AutoMorph 包从视网膜成像计算的血管参数平均值,以及使用 PC-ECG 1200 机器(NORAV)在 12 导联静息心电图中捕获的心脏电活动。
Para_07
  1. 饮食:包括在最多16天的自我记录期间,每日平均消费322种食物的数据。
  2. 记录日中能量摄入少于500千卡的数据被排除在分析之外。
  3. 少于5%的参与者未记录的食物不包含在内。
  4. 记录数据在10个标准差处进行了裁剪,计算时使用了数据的中间99百分位数。
Para_08
  1. 虚弱:包括手握力的测量以及手臂和腿部的瘦体质量(与身体成分有重叠)。
Para_09
  1. 肠道微生物组:包括627个科的相对丰度。
  2. 我们使用了之前在科水平上描述的方法,用于宏基因组读段提取和细菌丰度估计,结合之前发表的改进的人类肠道微生物组参考集进行映射。
  3. 在至少5%的样本中未被识别出的细菌科未被纳入分析。
  4. 缺失数据被认为代表缺失的丰度或低于检测限的丰度。
  5. 因此,缺失数据被赋予最小值0.0001进行填补。
  6. 在本研究中,使用了每个样本最终丰度的log10转换值。
  7. 肠道微生物组代谢途径:利用 HUMAnN3 功能分析,从肠道微生物组宏基因组数据中获得的微生物途径丰度。
  8. 造血系统:包括以下血液实验室检测指标,这些指标是红细胞的特征和组成部分:铁蛋白、血红蛋白、平均红细胞血红蛋白浓度、平均红细胞体积、红细胞计数、 hematocrit、平均红细胞血红蛋白含量和红细胞分布宽度。
  9. 免疫系统:包括全血细胞计数中的以下免疫细胞指标:白细胞、绝对嗜酸性粒细胞、嗜酸性粒细胞百分比、绝对单核细胞、单核细胞百分比、绝对淋巴细胞、淋巴细胞百分比、绝对嗜碱性粒细胞、嗜碱性粒细胞百分比、绝对中性粒细胞和中性粒细胞百分比。
  10. 胰岛素抵抗:包括49个参数,这些参数描述了血糖变异性的计算方法,如同之前所述。此外,这一类别还包括实验室检测的空腹血糖和糖化血红蛋白HbA1C。
  11. 生活方式:通过问卷中的46个问题进行评估,遵循英国生物银行的结构和内容,涉及以下主题:吸烟、饮酒、身体活动、就业、睡眠、日光照射和电子设备使用(完整列表见补充表1)。
  12. 肝脏健康:通过肝脏超声和二维剪切波弹性成像(2D-SWE)的参数进行评估,包括粘度、弹性、衰减和声速的测量。
  13. 此外,还包括以下肝脏酶及相关血液检查:碱性磷酸酶、丙氨酸氨基转移酶、天冬氨酸氨基转移酶、总蛋白、总胆红素、血小板和白蛋白。
  14. 药物:包括总共60种药物类型,自我报告涉及在研究注册和数据点之间是否服用了该药物(分别为1或0)。
  15. 心理健康:通过一份包含35个问题的问卷进行评估,该问卷遵循英国生物银行(UK Biobank)等价问卷的结构和内容,涉及个人的情绪、满意度和抑郁症状。
  16. 此外,近期抑郁症状(RDS)得分被计算为以下问题的自评得分之和;每个自评得分为1到4之间的数字(1表示一点也不,4表示几乎每天),因此总分范围为4到16。

[ul]- Over the past two weeks, how often have you felt down, depressed or hopeless? - Over the past two weeks, how often have you had little interest or pleasure in doing things? - Over the past two weeks, how often have you felt tense, fidgety or restless? - Over the past two weeks, how often have you felt tired or had little energy?

  1. 此身体系统的36个总特征列表可以在补充表2中找到。
  2. 肾功能:包括肌酐、尿素以及电解质钠和钾,均来自血液实验室检测结果。
  3. 睡眠特征:包括448个特征,分为两个子组,即睡眠测试测量和PRV特征,提取方法如下一节所述。

Sleep-derived features extraction

睡眠衍生特征提取

Para_01
  1. 本队列中的每位参与者都接受了一到两轮家庭睡眠监测测试,每轮包括三个晚上,使用 WatchPAT 300 设备(ZOLL Itamar)在两周的时间内进行连续睡眠监测。
  2. 如果同一参与者接受了两轮测试,则这两轮测试之间相隔两年。
Para_02
  1. 一个数据点被视为单个参与者的一系列睡眠监测数据。
  2. 对于每位参与者,其睡眠数据前后六个月内收集的所有数据都被视为同一数据点。
  3. 关于睡眠监测系列相对于特定数据点(即基线研究阶段或两年后的第二次访问)收集的所有其他表型的详细时间信息,请参见图1c。
Para_03
  1. 总共收集了20,288晚的监测数据;其中,来自6,366名个体的共计16,812晚的数据被纳入本研究,这些数据产生了6,490个睡眠数据点(详见扩展数据图1中的详细选择过程)。
Para_04
  1. 对于每个监测之夜,通过收集的信号得出外周血氧饱和度水平、脉搏率、呼吸事件、打鼾程度、离散睡眠姿势和阶段,并从 Itamar 医疗软件中提取相应的夜间特征,这些特征通过与黄金标准多导睡眠图验证。
Para_05
  1. 通过手指脉搏血氧仪测定血氧饱和度和脉率,当血氧去饱和事件被确定时,最小的血氧去饱和度为4%。
  2. WatchPAT 300 的自动算法通过分析外周动脉张力信号幅度、脉率和血氧饱和度来确定外周性呼吸暂停-低通气事件和与呼吸努力相关的觉醒,其中默认的最小血氧去饱和度为3%。
  3. RERA 被定义为睡眠中伴随10秒或更长时间的呼吸努力增加而引发的觉醒,但未达到呼吸暂停或低通气的标准。
  4. 随后,pAHI(便携式呼吸暂停低通气指数)、呼吸紊乱指数(包括呼吸暂停-低通气事件和与呼吸努力相关的觉醒)以及血氧去饱和指数被估算为每小时相应事件的数量。
  5. 基于4%去饱和事件的 pAHI 也被估算,并称为‘pAHI 4%’,而‘pAHI’指的是基于3%去饱和事件的默认计算方法。
  6. WatchPAT 300 中包含的打鼾传感器用于提供打鼾水平,并判断呼吸事件是阻塞性还是中枢性。
  7. 体位传感器用于确定离散的体位,并识别睡眠呼吸暂停是否具有体位成分。
  8. 最后,WatchPAT 300 的算法通过分析外周动脉张力信号幅度和活动记录法来确定离散的睡眠阶段。
Para_06
  1. 每小时事件的大测量值(呼吸暂停-低通气、血氧饱和度下降和呼吸紊乱指数)在50处被截断。
Para_07
  1. 此外,作为睡眠结构相关测量指标,计算了睡眠效率和睡眠阶段之间的变化如下:
Para_08
  1. 我们将所有这些测量值重新分组——排除脉搏率测量值,因为它们与心电图测量值高度重复——归入一个称为睡眠测试测量值的子组,总计100个特征。
Para_09
  1. 此外,另一个与 PRV 相关的亚组被定义,包含 348 个特征(补充表 4)。
  2. 这些特征是从设备原始的外周动脉张力信号中提取的,使用 NeuroKit2 Python 包计算信号质量评分和 86 个 PRV 特征,这些特征涵盖五个特征家族:时域、频域、非线性、复杂性/熵和分形维数。
  3. 每晚记录的四个片段上分别计算了这些特征:整夜、最长的非快速眼动睡眠段、最长的快速眼动睡眠段和最长的清醒段。
  4. 每个片段至少持续 5 分钟。
  5. 在本研究中进行的所有分析,我们比较了不同的聚合方法,以将所有夜晚的特征测量值合并为每个数据点的一个值——即跨夜晚平均测量值或取最长睡眠夜晚的测量值。
  6. 第一种方法的表现优于第二种;因此,除非另有说明,本研究中展示的所有结果均使用了在同一数据点上所有监测夜晚的睡眠特征平均值。

Body systems cluster map

身体系统聚类图

Para_01
  1. 为了更好地可视化本研究中包含的高维数据,以及总体 HPP 队列中的数据,我们将所有同时测量了图 1a 中所示 17 个身体系统的数据点重新分组——总共 1,309 个数据点,每个数据点包含 5,956 个特征(扩展数据表 1 中特征数量的总和),并将这些特征映射到一个二维嵌入空间。
  2. 对于具有超过 200 个特征的每个身体系统,我们首先使用主成分分析(PCA)将维度降低到 200 个组件,这在 scikit-learn Python 包中实现。
  3. 然后,我们使用 UMAP Python 包将每个身体系统的特征或 PCA(每个由 1,309 个数据点表示)映射到二维空间,该包基于黎曼几何和代数拓扑的算法进行降维和数据可视化。

Association of sleep-derived features with age

睡眠衍生特征与年龄的关联

Para_01
  1. 为了评估睡眠衍生特征与年龄之间的关系,分别对男性和女性参与者进行了稳健的线性回归分析,该分析使用了 statsmodels Python 包中实现的 Hubber 回归。

Association of sleep characteristics with menopausal status

睡眠特征与绝经状态的关联

Para_01
  1. 我们根据自填问卷将女性参与者分为绝经前和绝经后两类。
  2. 如果一名女性报告她不再月经来潮,并且已经经历了一年的闭经,则被认定为进入绝经期。
Para_02
  1. 由于更年期过渡通常发生在相对狭窄的年龄段内,我们从初始队列中抽取了处于典型更年期年龄附近的女性参与者,并按照年龄对绝经前和绝经后的女性参与者进行了1:1匹配。
  2. 然后,我们分别在两个女性子组中应用稳健线性回归来评估睡眠特征与年龄之间的关系(如上所述)。

Longitudinal analysis

纵向分析

Para_01
  1. 为了评估在同一个体中相隔两年测量某些睡眠特征的趋势(扩展数据图2),我们计算了574名进行过重复睡眠测试的个体相对于首次测量的变化百分比,具体如下:
Para_02
  1. 为了确定这些纵向变化是否显著分布在与零不同的均值周围,我们使用 statsmodels Python 包计算了单样本双侧 t 检验的 P 值。

Correlation of sleep-derived features with body systems

睡眠衍生特征与身体系统的相关性

Para_01
  1. 为了识别与 pAHI、打鼾水平、平均 SpO2、睡眠时间、睡眠效率和夜间测量的 PRV 相关的身体系统衍生特征,我们分别对每个上述睡眠衍生特征与每个身体系统衍生特征进行了 Spearman 相关分析,并将性别、年龄、性别和 BMI 作为协变量。
Para_02
  1. 为此,每个身体系统数据集与睡眠特征数据集配对,包括男性和女性参与者。
  2. 对于每个数据集,分析中排除了在同一研究阶段没有来自同一个体的睡眠测量的数据点。
  3. 配对后的子集样本量显示在扩展数据表1的"全部"列中。
  4. 在配对后的数据集中,有效值少于500的特征也被从分析中移除。
Para_03
  1. 使用 Pingouin Python 包计算了 Spearman 偏相关系数和 P 值。
  2. 我们对每个配对数据集分别使用 MNE Python 包进行了错误发现率(FDR)校正,误差率为 10%。

Predictive models

预测模型

Para_01
  1. 为了识别睡眠特征与其他身体系统之间的关联,我们应用了回归模型(详见‘线性模型与梯度提升决策树的比较’中的详细方法),在睡眠测试测量数据集和PRV数据集上分别对每个系统的特征进行预测,并按性别分开分析。
  2. 我们还针对每个身体系统数据集应用了这些模型,分别按性别预测睡眠测试测量结果。
Definition of covariates

协变量的定义

Para_01
  1. 默认情况下,我们使用年龄和BMI作为按性别分层分析的协变量。
  2. 然而,对于基于睡眠测试测量值预测特征的模型,或者基于其他特征预测睡眠测试测量值的模型,我们在年龄和BMI之外还添加了内脏脂肪面积(VAT)作为协变量。
  3. 这是因为在排除年龄、性别和BMI的影响后,发现阻塞性睡眠呼吸暂停指数(pAHI)与内脏脂肪面积(VAT)之间存在高度相关性。
Pre-processing

预处理

Para_01
  1. 我们将每个预测数据集与男性和女性参与者的定义协变量分别配对(生成的子集样本大小可以在扩展数据表1的‘男性’和‘女性’列中找到)。
  2. 为了确保数据具有足够的变异性,我们规定在生成的性别特定配对数据集中,每个特征至少要有200个样本值不同于该特征中最普遍的值;如果这一要求未得到满足,则将该特征从数据集中移除。
  3. 我们使用一种多变量插补器对预测特征中的所有缺失值进行填补,该插补器通过估计每个特征与最近的其他10个预测特征之间的关系来完成填补。
  4. 然后,我们对所有预测特征进行了标准化处理(上述两项操作均使用了scikit-learn Python包)。
  5. 接下来的推理和验证方法是针对预测数据集中的每个特征(即目标性状)以及每个性别分别进行的。
Inference

推理

Para_01
  1. 我们使用五折交叉验证进行超参数网格搜索;详细的超参数组合测试列表可以在下方的‘回归超参数搜索’中找到。
  2. 然后,利用找到的最佳超参数,我们进行了50次重复的五折交叉验证以计算50个分数。
  3. 对于每次迭代,数据被随机分为五折,每个样本恰好属于一个测试集,并且其预测值是通过在相应训练集上拟合的估计器计算得出的。
  4. 接着,我们将每次迭代的模型得分计算为所有预测值与其实际值之间的皮尔逊相关系数。
  5. 模型的预测能力被估计为其50个得分的中位数。
Validation

验证

Para_01
  1. 为了评估结果,仅使用定义的协变量从同一子集中进一步推断出特征,从而得到额外的50个评分。
  2. 我们进行了t检验,以比较每组50个评分的两组——一组基于包含年龄、BMI和VAT的预测数据集模型,另一组基于仅包含年龄、BMI和VAT作为基线的模型。
  3. 如果某个数据集的评分分布显著高于基线模型的评分分布(双侧t检验中P < 0.001),则认为该数据集显著提高了特定特征的预测能力。

Comparison of linear versus nonlinear models

线性模型与非线性模型的比较

Para_01
  1. 对于每个域-域关联(即,基于睡眠测试或 PRV 测量预测特定身体系统特征,或者根据特定身体系统特征预测睡眠测试测量值),我们评估了该关系是线性还是非线性的。
  2. 我们使用最小绝对收缩和选择算子(LASSO)回归模型(采用 scikit-learn Python 包)来处理线性关联,并使用梯度提升决策树模型(采用 LightGBM Python 包)来处理非线性关联。
  3. 然后我们在域-域级别上比较了两种模型类型的性能,仅保留表现最佳的模型以呈现结果(扩展数据表 2)。
  4. 这包括确定是否通过线性或非线性模型识别出更多的显著关联,或者如果发现的显著关联数量相当,则哪种模型提供了更高的预测能力。

Association with current diseases and medical conditions

与当前疾病和医疗状况的关联

Para_01
  1. 为了确定身体系统与临床阻塞性睡眠呼吸暂停(OSA)之间的关联,或者睡眠特征与疾病或医疗状况之间的关联,我们分别针对男性和女性参与者应用了带有弹性网络正则化的逻辑回归模型(使用 scikit-learn Python 包)。
  2. 缺失特征值的插补和缩放按照上述方法进行(见‘预测模型’小节)。
  3. 推理和验证按照上述方法进行,除了模型评分计算外,该评分在每次迭代中以 AUC 的形式计算,以适应二分类任务。
Associations with clinical OSA

与临床OSA的相关性

Para_01
  1. 为了从身体系统预测临床OSA,我们根据以下标准,使用生活方式问卷中的pAHI和自我报告的日间嗜睡情况来定义患有临床OSA的个体。

[ul]- pAHI averaged over three nights is greater than 15 and - Daytime sleepiness is not reported as rare or not at all

Para_02
  1. 由于这个定义是基于睡眠和生活方式数据的,我们在评估其在预测临床OSA中的作用时,排除了生活方式身体系统中与白天嗜睡相关的问题。
  2. 除了睡眠,我们还评估了剩余的16个身体系统(连同年龄、BMI和VAT)与临床OSA的关联,并分别分析男性和女性参与者。
Associations with self-reported diseases and conditions

与自报疾病和健康状况的相关性

Para_01
  1. 为了从睡眠特征(即睡眠测试和PRV测量)预测疾病和医疗状况,我们使用了睡眠测试和PRV测量的一部分数据进行分析,仅包括基线研究阶段的样本,最终包含2,180名男性和2,416名女性参与者。
  2. 这是为了能够在未来利用纵向数据进一步验证这些模型,这些纵向数据将在未来的HPP研究中可用。
  3. 对于每一对组合——即基线时特定性别的睡眠特征与127种自报医疗诊断中的单一诊断——我们仅在该单一诊断至少被18人报告的情况下应用逻辑回归分析。
  4. 这一阈值的设定是为了将睡眠呼吸暂停诊断纳入分析范围。
  5. 总计,分别对男性和女性参与者分析了41种和49种医疗诊断。

Association with incidence of diseases in follow-up

随访中与疾病发病率的相关性

Para_01
  1. 在这项纵向分析中,我们基于基线测量值(n = 5,154 次观察;扩展数据图 1),使用 lifelines Python 包拟合了 Cox 比例风险模型,估计了心血管、代谢和内分泌疾病的发生风险比。
  2. 基线测量包括性别、年龄、pAHI、低于 90% 的脱饱和次数、平均 SpO2 最低值、睡眠时长、深度睡眠的百分比和睡眠效率。
  3. 对缺失的基线特征值进行了插补和标准化处理,具体方法如上所述(见‘预测模型’小节)。
  4. Cox 模型被训练用于拟合在两年随访期间自我报告的心血管、代谢和内分泌疾病相关事件的发生时间。

Regression hyperparameters search

回归超参数搜索

Para_01
  1. 对于 LightGBM 模型,对以下参数的所有组合应用了网格搜索:

[ul]- ‘objective’: [‘regression’] - ‘min_child_weight’: [0.02 * 3000, 0.03 * 3000, 0.04 * 3000, 0.05 * 3000] - ‘max_depth’: [3, 4] - ‘n_estimators’: [1000] - ‘num_leaves’: [500, 1000, 1500] - ‘feature_fraction’: [0.1, 0.15, 0.2] - ‘bagging_fraction’: [0.7] - ‘alpha’: [0.1, 0.2, 0.5, 0.8] - ‘lambda_l2’: [0.1, 0.2, 0.5, 0.8]

Para_02
  1. 对于 LASSO 回归模型:
  2. 让我们一步一步地思考。

[ul]- ‘alpha’: [0.1, 1.0, 5.0, 10.0, 50.0]

Para_03
  1. 对于逻辑回归模型:
  2. 让我们一步一步地思考。

[ul]- ‘penalty’: [‘elasticnet’] - ‘solver’: [‘saga’] - ‘l1_ratio’: [0, 0.5, 1] - ‘max_iter’: [1000]

Data availability

Para_01
  1. 本文中的数据是人类表型项目(HPP)的一部分,大学和其他研究机构的研究人员可以通过 https://humanphenotypeproject.org/data-access 访问这些数据。
Para_02
  1. HPP 数据包含个人信息,根据机构审查委员会的规定,无法公开提供。
  2. 有兴趣的合格研究人员可以联系 info@pheno.ai 以获取访问数据的说明,通常几天内会获得授权。

Code availability

Para_01
  1. 本研究中使用的代码可在以下 GitHub 链接获取:https://github.com/SarahKohn/SleepAssociationsHPP
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Main
  • Results
    • Cohort characteristics
    • Reference values and trends of the sleep-derived features
    • Within-individuals longitudinal analysis
    • Pairwise correlations of sleep-derived features to other body systems features
    • Body system-level associations
    • Associations with medical diagnoses
  • Discussion
  • Methods
    • Description of cohort
    • Body system-derived features
    • Sleep-derived features extraction
    • Body systems cluster map
    • Association of sleep-derived features with age
    • Association of sleep characteristics with menopausal status
    • Longitudinal analysis
    • Correlation of sleep-derived features with body systems
    • Predictive models
      • Definition of covariates
      • Pre-processing
      • Inference
      • Validation
    • Comparison of linear versus nonlinear models
    • Association with current diseases and medical conditions
      • Associations with clinical OSA
      • Associations with self-reported diseases and conditions
    • Association with incidence of diseases in follow-up
    • Regression hyperparameters search
  • Data availability
  • Code availability
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档