This commit is contained in:
ChuXun
2025-12-27 14:36:56 +08:00
parent 95028f8070
commit c882a7a216
11 changed files with 2455 additions and 4 deletions

44
xlsx2csv/完整题目.md Normal file
View File

@@ -0,0 +1,44 @@
# 2025年高教社杯全国大学生数学建模竞赛题目请先阅读“全国大学生数学建模竞赛论文格式规范”
## C题 NIPT的时点选择与胎儿的异常判定
NIPTNon-invasive Prenatal Test即无创产前检测是一种通过采集母体血液、检测胎儿的游离DNA片段、分析胎儿染色体是否存在异常的产前检测技术目的是通过早期检测确定胎儿的健康状况。根据临床经验畸形胎儿主要有唐氏综合征、爱德华氏综合征和帕陶氏综合征这三种体征分别由胎儿21号、18号和13号“染色体游离DNA片段的比例”简称“染色体浓度”是否异常决定。NIPT的准确性主要由胎儿性染色体男胎XY女胎XX浓度判断。通常孕妇的孕期在10周~25周之间可以检测胎儿性染色体浓度且如果男胎的Y染色体浓度达到或高于4%、女胎的X染色体浓度没有异常则可认为NIPT的结果是基本准确的否则难以保证结果准确性要求。同时实际中应尽早发现不健康的胎儿否则会带来治疗窗口期缩短的风险早期发现12周以内风险较低中期发现13-27周风险高晚期发现28周以后风险极高。
实践表明男胎Y染色体浓度与孕妇孕周数及其身体质量指数BMI紧密相关。通常根据孕妇的BMI值进行分组例如[20,28)[28,32)[32,36)[36,40)40以上分别确定NIPT的时点相对孕期的时间点。由于每个孕妇的年龄、BMI、孕情等存在个体差异对所有孕妇采用简单的经验分组和统一的检测时点进行NIPT会对其准确性产生较大影响。因此依据BMI对孕妇进行合理分组确定各不同群组的最佳NIPT时点可以减少某些孕妇因胎儿不健康而缩短治疗窗口期所带来的潜在风险。
为了研究各类孕妇群体合适的NIPT时点并对检测的准确性进行分析附件给出了某地区大多为高BMI孕妇的NIPT数据。在实际检测中经常会出现测序失败比如检测时点过早和不确定因素影响等的情况。同时为了增加检测结果的可靠性对某些孕妇有多次采血多次检测或一次采血多次检测的情况。试利用附件提供的数据建立数学模型研究如下问题
### 问题1
试分析胎儿Y染色体浓度与孕妇的孕周数和BMI等指标的相关特性给出相应的关系模型并检验其显著性。
### 问题2
临床证明男胎孕妇的BMI是影响胎儿Y染色体浓度的最早达标时间即浓度达到或超过4%的最早时间的主要因素。试对男胎孕妇的BMI进行合理分组给出每组的BMI区间和最佳NIPT时点使得孕妇可能的潜在风险最小并分析检测误差对结果的影响。
### 问题3
男胎Y染色体浓度达标时间受多种因素身高、体重、年龄等的影响试综合考虑这些因素、检测误差和胎儿的Y染色体浓度达标比例即浓度达到或超过4%的比例根据男胎孕妇的BMI给出合理分组以及每组的最佳NIPT时点使得孕妇潜在风险最小并分析检测误差对结果的影响。
### 问题4
由于孕妇和女胎都不携带Y染色体重要的是如何判定女胎是否异常。试以女胎孕妇的21号、18号和13号染色体非整倍体AB列为判定结果综合考虑X染色体及上述染色体的Z值、GC含量、读段数及相关比例、BMI等因素给出女胎异常的判定方法。
## 附录1 附件中各列数据的说明
| 列 | 说明 | 列 | 说明 |
|-----|----------------------------------------------------------------------|-----|----------------------------------------------------------------------|
| A | 样本序号 | Q | 13号染色体的Z值 |
| B | 孕妇代码 | R | 18号染色体的Z值 |
| C | 孕妇年龄 | S | 21号染色体的Z值 |
| D | 孕妇身高 | T | X染色体的Z值 |
| E | 孕妇体重 | U | Y染色体的Z值女胎数据此列为空白 |
| F | 末次月经时间 | V | Y染色体浓度即Y染色体游离DNA片段的比例女胎数据此列为空白 |
| G | IVF妊娠方式 | W | X染色体浓度其数值是通过生物信息学在一定假设下通过数据分析估计得出可能出现负值 |
| H | 检测时间 | X | 13号染色体的GC含量 |
| I | 检测抽血次数 | Y | 18号染色体的GC含量 |
| J | 孕妇本次检测时的孕周(周数 + 天数) | Z | 21号染色体的GC含量 |
| K | 孕妇BMI指标 | AA | 被过滤掉的读段数占总读段数的比例 |
| L | 原始测序数据的总读段数(个) | AB | 检测出的13号、18号、21号染色体非整倍体即数量异常空白即为无异常 |
| M | 总读段数中在参考基因组上比对的比例 | AC | 孕妇的怀孕次数 |
| N | 总读段数中重复读段的比例 | AD | 孕妇的生产次数 |
| O | 总读段数中唯一比对的读段数(个) | AE | 胎儿是否健康(婴儿出生后的结果) |
| P | GC含量序列中碱基G鸟嘌呤和C胞嘧啶所占的比例是测序数据质量评估中的一个重要指标正常GC含量范围为40% ~ 60%GC含量过高、过低、或分布异常可能意味着测序质量存在问题 | | |
## 附录2 Z值Z-score
Z值Z-score的计算公式
\[Z=\frac{X-\mu}{\sigma}\]
其中X为待检测样本中目标染色体的相对计数比例μ为正常对照群体中该染色体计数比例的均值σ为正常群体中该比例的标准差。在NIPT中对于常见染色体非整倍体检测通常采用Z值分析方法进行统计判定。已知染色体非整倍体通常定义为该染色体存在一个或三个拷贝正常为两个拷贝且每条染色体所采集到的读段数量与该染色体长度成正比。