7.3 KiB
2025年高教社杯全国大学生数学建模竞赛题目(请先阅读“全国大学生数学建模竞赛论文格式规范”)
C题 NIPT的时点选择与胎儿的异常判定
NIPT(Non-invasive Prenatal Test,即无创产前检测)是一种通过采集母体血液、检测胎儿的游离DNA片段、分析胎儿染色体是否存在异常的产前检测技术,目的是通过早期检测确定胎儿的健康状况。根据临床经验,畸形胎儿主要有唐氏综合征、爱德华氏综合征和帕陶氏综合征,这三种体征分别由胎儿21号、18号和13号“染色体游离DNA片段的比例”(简称“染色体浓度”)是否异常决定。NIPT的准确性主要由胎儿性染色体(男胎XY,女胎XX)浓度判断。通常孕妇的孕期在10周~25周之间可以检测胎儿性染色体浓度,且如果男胎的Y染色体浓度达到或高于4%、女胎的X染色体浓度没有异常,则可认为NIPT的结果是基本准确的,否则难以保证结果准确性要求。同时,实际中应尽早发现不健康的胎儿,否则会带来治疗窗口期缩短的风险,早期发现(12周以内)风险较低;中期发现(13-27周)风险高;晚期发现(28周以后)风险极高。
实践表明,男胎Y染色体浓度与孕妇孕周数及其身体质量指数(BMI)紧密相关。通常根据孕妇的BMI值进行分组(例如:[20,28),[28,32),[32,36),[36,40),40以上)分别确定NIPT的时点(相对孕期的时间点)。由于每个孕妇的年龄、BMI、孕情等存在个体差异,对所有孕妇采用简单的经验分组和统一的检测时点进行NIPT,会对其准确性产生较大影响。因此,依据BMI对孕妇进行合理分组,确定各不同群组的最佳NIPT时点,可以减少某些孕妇因胎儿不健康而缩短治疗窗口期所带来的潜在风险。
为了研究各类孕妇群体合适的NIPT时点,并对检测的准确性进行分析,附件给出了某地区(大多为高BMI)孕妇的NIPT数据。在实际检测中,经常会出现测序失败(比如:检测时点过早和不确定因素影响等)的情况。同时为了增加检测结果的可靠性,对某些孕妇有多次采血多次检测或一次采血多次检测的情况。试利用附件提供的数据建立数学模型研究如下问题:
问题1
试分析胎儿Y染色体浓度与孕妇的孕周数和BMI等指标的相关特性,给出相应的关系模型,并检验其显著性。
问题2
临床证明,男胎孕妇的BMI是影响胎儿Y染色体浓度的最早达标时间(即浓度达到或超过4%的最早时间)的主要因素。试对男胎孕妇的BMI进行合理分组,给出每组的BMI区间和最佳NIPT时点,使得孕妇可能的潜在风险最小,并分析检测误差对结果的影响。
问题3
男胎Y染色体浓度达标时间受多种因素(身高、体重、年龄等)的影响,试综合考虑这些因素、检测误差和胎儿的Y染色体浓度达标比例(即浓度达到或超过4%的比例),根据男胎孕妇的BMI,给出合理分组以及每组的最佳NIPT时点,使得孕妇潜在风险最小,并分析检测误差对结果的影响。
问题4
由于孕妇和女胎都不携带Y染色体,重要的是如何判定女胎是否异常。试以女胎孕妇的21号、18号和13号染色体非整倍体(AB列)为判定结果,综合考虑X染色体及上述染色体的Z值、GC含量、读段数及相关比例、BMI等因素,给出女胎异常的判定方法。
附录1 附件中各列数据的说明
| 列 | 说明 | 列 | 说明 |
|---|---|---|---|
| A | 样本序号 | Q | 13号染色体的Z值 |
| B | 孕妇代码 | R | 18号染色体的Z值 |
| C | 孕妇年龄 | S | 21号染色体的Z值 |
| D | 孕妇身高 | T | X染色体的Z值 |
| E | 孕妇体重 | U | Y染色体的Z值(女胎数据此列为空白) |
| F | 末次月经时间 | V | Y染色体浓度,即Y染色体游离DNA片段的比例(女胎数据此列为空白) |
| G | IVF妊娠方式 | W | X染色体浓度(其数值是通过生物信息学在一定假设下通过数据分析估计得出,可能出现负值) |
| H | 检测时间 | X | 13号染色体的GC含量 |
| I | 检测抽血次数 | Y | 18号染色体的GC含量 |
| J | 孕妇本次检测时的孕周(周数 + 天数) | Z | 21号染色体的GC含量 |
| K | 孕妇BMI指标 | AA | 被过滤掉的读段数占总读段数的比例 |
| L | 原始测序数据的总读段数(个) | AB | 检测出的13号、18号、21号染色体非整倍体,即数量异常,空白即为无异常 |
| M | 总读段数中在参考基因组上比对的比例 | AC | 孕妇的怀孕次数 |
| N | 总读段数中重复读段的比例 | AD | 孕妇的生产次数 |
| O | 总读段数中唯一比对的读段数(个) | AE | 胎儿是否健康(婴儿出生后的结果) |
| P | GC含量,序列中碱基G(鸟嘌呤)和C(胞嘧啶)所占的比例,是测序数据质量评估中的一个重要指标,正常GC含量范围为40% ~ 60%,GC含量过高、过低、或分布异常可能意味着测序质量存在问题 |
附录2 Z值(Z-score)
Z值(Z-score)的计算公式: [Z=\frac{X-\mu}{\sigma}] 其中X为待检测样本中目标染色体的相对计数比例,μ为正常对照群体中该染色体计数比例的均值,σ为正常群体中该比例的标准差。在NIPT中,对于常见染色体非整倍体检测,通常采用Z值分析方法进行统计判定。已知染色体非整倍体通常定义为该染色体存在一个或三个拷贝,正常为两个拷贝,且每条染色体所采集到的读段数量与该染色体长度成正比。