Files
OfficeFileHandle/xlsx2csv/1.md
ChuXun c882a7a216 1
2025-12-27 14:36:56 +08:00

6.3 KiB
Raw Blame History

阶段性存档Problem 1 (Relationship Modeling)

1. 符号体系 (Notations)

符号 含义 单位 备注
Y 胎儿Y染色体浓度 (Response Variable) % 目标变量,已剔除 Z\text{-score} > 3 的异常值
\mathbf{x} 特征向量 N/A \mathbf{x} = [t, B, A, H, W]^T
t 孕周 (Gestational Age) weeks 核心正相关因子
B 孕妇身体质量指数 (BMI) kg/m^2 核心负相关因子 (稀释效应)
W 孕妇体重 (Weight) kg 辅助特征,贡献度最高
A 孕妇年龄 (Age) years 辅助特征
H 孕妇身高 (Height) cm 辅助特征

2. 最终模型 (Final Model: Gradient Boosting Decision Tree)

我们采用 GBDT (梯度提升决策树) 作为最终关系模型,以捕捉复杂的非线性关系和特征交互。

数学形式:


\hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m)

其中:

  • M = 300 (迭代次数/树的数量)
  • \nu = 0.05 (学习率 Learning Rate)
  • h_m(\mathbf{x}) 为第 m 棵回归树 (Base Learner),最大深度 $D=4$。
  • 损失函数:L(y, \hat{y}) = \frac{1}{2}(y - \hat{y})^2 (MSE)

已确定参数 (Hyperparameters)

  • n_estimators: 300
  • learning_rate: 0.05
  • max_depth: 4
  • subsample: 0.8 (用于降低过拟合)

3. 决策逻辑 (Model Selection Logic)

候选模型 测试结果 (Test Set) 采纳状态 决策理由
多元线性回归 (MLR) R^2 < 0 (CV) 淘汰 无法捕捉数据的非线性特征,且受多重共线性(体重 vs BMI影响严重。
多项式交互回归 (Poly-2) R^2 \approx 0.04 淘汰 虽然引入了交互项,但模型泛化能力差,解释度提升有限。
高斯过程回归 (GPR) R^2 \approx 0.09 备选 (P2可用) 理论优美,提供置信区间,但点预测精度未达预期目标 (>20\%)。
梯度提升树 (GBDT) $R^2 = 0.2157$ 优选 (Winner) 配合异常值清洗 (Z<3),成功突破 20% 的解释度瓶颈。能自动处理共线性并量化特征重要性。

4. 遗留问题 (Limitations & Sensitivity)

  1. 外推风险:树模型对训练集范围之外的数据(如 BMI > 45 或 孕周 > 30w预测能力较弱表现为预测值“平顶”。
  2. 解释性黑盒:相比于 Y = \beta X 的显式公式GBDT 难以直接给出“BMI每增加1单位浓度下降多少”的解析解需依赖 SHAP 值或部分依赖图 (PDP) 进行解释。
  3. 未观测变量:即便 R^2 提升至 0.21,仍有近 80% 的变异由未观测因素(如胎盘体积、母体血容量动态变化)决定,这暗示了个体差异极大,必须在 Problem 2 中采用“分组策略”来对冲个体风险

5. 关键结果 (Key Results)

  1. 模型性能RMSE = 0.0275, $R^2 = 0.2157$。
  2. 特征重要性排序
    • No.1 体重 (25.3%) & No.2 BMI (24.0%)证实了母体体量是导致胎儿DNA浓度稀释的主导因素。
    • No.3 孕周 (21.4%)证实了随孕周增加DNA释放量累积的正相关性。
  3. 数据洞察:剔除约 0.7% 的极端异常值后,模型性能提升显著,说明原始数据中存在测序错误或录入噪音。

阶段性存档:问题 1 完成,准备进入问题 2

背景:我们正在解决 2025 数模竞赛 C 题。目前已完成数据清洗、相关性分析及第一问的建模工作。本存档旨在为第二问(基于 BMI 的分组与时点优化)提供确定的数学基础和参数依据。


1. 符号定义 (Notations)

符号 物理含义 单位 备注
Y 胎儿 Y 染色体浓度 (Response Variable) % 目标变量,已剔除 Z\text{-score} > 3 的异常值
t 孕周 (Gestational Age) weeks 核心时间变量,范围 [11, 29]
B 孕妇身体质量指数 (BMI) kg/m^2 核心分组变量
W 孕妇体重 (Weight) kg 辅助特征,特征重要性最高
A 孕妇年龄 (Age) years 辅助特征
H 孕妇身高 (Height) cm 辅助特征
\mathbf{x} 特征向量 - \mathbf{x} = [A, B, t, W, H]^T

2. 核心假设 (Assumptions)

  1. 稀释效应 (Dilution Effect):母体体重及 BMI 与胎儿游离 DNA 浓度呈负相关,假设母体血容量随体型增加而增加,从而稀释了胎儿 DNA。
  2. 累积效应 (Accumulation Effect):胎儿游离 DNA 浓度随孕周增加呈单调递增趋势(在观测窗口内)。
  3. 数据有效性:剔除 Y 浓度分布中 \pm 3\sigma 之外的样本(约占 0.7%)后,剩余数据能真实反映生物学规律。
  4. 阈值假设根据题目NIPT 准确性的硬性约束为 $Y \ge 4%$。

3. 已建模型 (Established Models)

模型 I统计推断模型 (OLS Regression)

用于检验变量显著性(问题 1 核心要求)。

Y = \beta_0 + \beta_1 A + \beta_2 B + \beta_3 t + \epsilon

模型 II非线性预测模型 (GBDT)

用于捕捉复杂交互作用,作为问题 2 优化的预测引擎Oracle

\hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m)

其中 M=300 为迭代次数,\nu=0.05 为学习率,h_m 为回归树基学习器。

4. 关键结果 (Key Results from Problem 1)

A. 显著性检验结果 (OLS) 所有核心变量均通过 $t$-检验 (P < 0.001),系数如下:

  • 截距 (\beta_0): 0.1514
  • 孕周 (t): +0.0010 (正相关每增加1周浓度增加 0.1%)
  • BMI (B): -0.0020 (负相关每增加1单位浓度减少 0.2%)
  • 年龄 (A): -0.0009 (负相关)

B. 预测模型性能 (GBDT)

  • 拟合优度: R^2 = 0.176 (在含噪生物数据中属于可接受范围)。
  • 均方根误差: $RMSE = 0.0282$。
  • 特征重要性 (Feature Importance):
    1. Weight: 26.2% (主导因素)
    2. BMI: 23.1%
    3. Gestational Age: 21.2%

下一步任务 (Next Step) 进入 问题 2。利用上述 GBDT 模型预测不同 BMI 下的浓度变化曲线,建立优化模型以确定最佳分组区间最佳检测时点。目标是最小化“漏检风险”(浓度<4%)与“延误风险”(孕周过大)。