mirror of
https://github.com/ChuXunYu/OfficeFileHandle.git
synced 2026-01-31 02:01:26 +00:00
6.3 KiB
6.3 KiB
阶段性存档:Problem 1 (Relationship Modeling)
1. 符号体系 (Notations)
| 符号 | 含义 | 单位 | 备注 |
|---|---|---|---|
Y |
胎儿Y染色体浓度 (Response Variable) | % | 目标变量,已剔除 Z\text{-score} > 3 的异常值 |
\mathbf{x} |
特征向量 | N/A | \mathbf{x} = [t, B, A, H, W]^T |
t |
孕周 (Gestational Age) | weeks | 核心正相关因子 |
B |
孕妇身体质量指数 (BMI) | kg/m^2 |
核心负相关因子 (稀释效应) |
W |
孕妇体重 (Weight) | kg | 辅助特征,贡献度最高 |
A |
孕妇年龄 (Age) | years | 辅助特征 |
H |
孕妇身高 (Height) | cm | 辅助特征 |
2. 最终模型 (Final Model: Gradient Boosting Decision Tree)
我们采用 GBDT (梯度提升决策树) 作为最终关系模型,以捕捉复杂的非线性关系和特征交互。
数学形式:
\hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m)
其中:
M = 300(迭代次数/树的数量)\nu = 0.05(学习率 Learning Rate)h_m(\mathbf{x})为第m棵回归树 (Base Learner),最大深度 $D=4$。- 损失函数:
L(y, \hat{y}) = \frac{1}{2}(y - \hat{y})^2(MSE)
已确定参数 (Hyperparameters):
n_estimators: 300learning_rate: 0.05max_depth: 4subsample: 0.8 (用于降低过拟合)
3. 决策逻辑 (Model Selection Logic)
| 候选模型 | 测试结果 (Test Set) | 采纳状态 | 决策理由 |
|---|---|---|---|
| 多元线性回归 (MLR) | R^2 < 0 (CV) |
淘汰 | 无法捕捉数据的非线性特征,且受多重共线性(体重 vs BMI)影响严重。 |
| 多项式交互回归 (Poly-2) | R^2 \approx 0.04 |
淘汰 | 虽然引入了交互项,但模型泛化能力差,解释度提升有限。 |
| 高斯过程回归 (GPR) | R^2 \approx 0.09 |
备选 (P2可用) | 理论优美,提供置信区间,但点预测精度未达预期目标 (>20\%)。 |
| 梯度提升树 (GBDT) | $R^2 = 0.2157$ | 优选 (Winner) | 配合异常值清洗 (Z<3),成功突破 20% 的解释度瓶颈。能自动处理共线性并量化特征重要性。 |
4. 遗留问题 (Limitations & Sensitivity)
- 外推风险:树模型对训练集范围之外的数据(如 BMI > 45 或 孕周 > 30w)预测能力较弱,表现为预测值“平顶”。
- 解释性黑盒:相比于
Y = \beta X的显式公式,GBDT 难以直接给出“BMI每增加1单位,浓度下降多少”的解析解,需依赖 SHAP 值或部分依赖图 (PDP) 进行解释。 - 未观测变量:即便
R^2提升至 0.21,仍有近 80% 的变异由未观测因素(如胎盘体积、母体血容量动态变化)决定,这暗示了个体差异极大,必须在 Problem 2 中采用“分组策略”来对冲个体风险。
5. 关键结果 (Key Results)
- 模型性能:RMSE = 0.0275, $R^2 = 0.2157$。
- 特征重要性排序:
- No.1 体重 (25.3%) & No.2 BMI (24.0%):证实了母体体量是导致胎儿DNA浓度稀释的主导因素。
- No.3 孕周 (21.4%):证实了随孕周增加,DNA释放量累积的正相关性。
- 数据洞察:剔除约 0.7% 的极端异常值后,模型性能提升显著,说明原始数据中存在测序错误或录入噪音。
阶段性存档:问题 1 完成,准备进入问题 2
背景:我们正在解决 2025 数模竞赛 C 题。目前已完成数据清洗、相关性分析及第一问的建模工作。本存档旨在为第二问(基于 BMI 的分组与时点优化)提供确定的数学基础和参数依据。
1. 符号定义 (Notations)
| 符号 | 物理含义 | 单位 | 备注 |
|---|---|---|---|
Y |
胎儿 Y 染色体浓度 (Response Variable) | % | 目标变量,已剔除 Z\text{-score} > 3 的异常值 |
t |
孕周 (Gestational Age) | weeks | 核心时间变量,范围 [11, 29] |
B |
孕妇身体质量指数 (BMI) | kg/m^2 |
核心分组变量 |
W |
孕妇体重 (Weight) | kg | 辅助特征,特征重要性最高 |
A |
孕妇年龄 (Age) | years | 辅助特征 |
H |
孕妇身高 (Height) | cm | 辅助特征 |
\mathbf{x} |
特征向量 | - | \mathbf{x} = [A, B, t, W, H]^T |
2. 核心假设 (Assumptions)
- 稀释效应 (Dilution Effect):母体体重及 BMI 与胎儿游离 DNA 浓度呈负相关,假设母体血容量随体型增加而增加,从而稀释了胎儿 DNA。
- 累积效应 (Accumulation Effect):胎儿游离 DNA 浓度随孕周增加呈单调递增趋势(在观测窗口内)。
- 数据有效性:剔除
Y浓度分布中\pm 3\sigma之外的样本(约占 0.7%)后,剩余数据能真实反映生物学规律。 - 阈值假设:根据题目,NIPT 准确性的硬性约束为 $Y \ge 4%$。
3. 已建模型 (Established Models)
模型 I:统计推断模型 (OLS Regression)
用于检验变量显著性(问题 1 核心要求)。
Y = \beta_0 + \beta_1 A + \beta_2 B + \beta_3 t + \epsilon
模型 II:非线性预测模型 (GBDT)
用于捕捉复杂交互作用,作为问题 2 优化的预测引擎(Oracle)。
\hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m)
其中 M=300 为迭代次数,\nu=0.05 为学习率,h_m 为回归树基学习器。
4. 关键结果 (Key Results from Problem 1)
A. 显著性检验结果 (OLS)
所有核心变量均通过 $t$-检验 (P < 0.001),系数如下:
- 截距 (
\beta_0):0.1514 - 孕周 (
t):+0.0010(正相关,每增加1周,浓度增加 0.1%) - BMI (
B):-0.0020(负相关,每增加1单位,浓度减少 0.2%) - 年龄 (
A):-0.0009(负相关)
B. 预测模型性能 (GBDT)
- 拟合优度:
R^2 = 0.176(在含噪生物数据中属于可接受范围)。 - 均方根误差: $RMSE = 0.0282$。
- 特征重要性 (Feature Importance):
- Weight: 26.2% (主导因素)
- BMI: 23.1%
- Gestational Age: 21.2%
下一步任务 (Next Step): 进入 问题 2。利用上述 GBDT 模型预测不同 BMI 下的浓度变化曲线,建立优化模型以确定最佳分组区间和最佳检测时点。目标是最小化“漏检风险”(浓度<4%)与“延误风险”(孕周过大)。