Files
ChuXun c882a7a216 1
2025-12-27 14:36:56 +08:00

134 lines
6.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 阶段性存档Problem 1 (Relationship Modeling)
## 1. 符号体系 (Notations)
| 符号 | 含义 | 单位 | 备注 |
| :--- | :--- | :--- | :--- |
| $Y$ | 胎儿Y染色体浓度 (Response Variable) | % | 目标变量,已剔除 $Z\text{-score} > 3$ 的异常值 |
| $\mathbf{x}$ | 特征向量 | N/A | $\mathbf{x} = [t, B, A, H, W]^T$ |
| $t$ | 孕周 (Gestational Age) | weeks | 核心正相关因子 |
| $B$ | 孕妇身体质量指数 (BMI) | $kg/m^2$ | 核心负相关因子 (稀释效应) |
| $W$ | 孕妇体重 (Weight) | kg | 辅助特征,贡献度最高 |
| $A$ | 孕妇年龄 (Age) | years | 辅助特征 |
| $H$ | 孕妇身高 (Height) | cm | 辅助特征 |
## 2. 最终模型 (Final Model: Gradient Boosting Decision Tree)
我们采用 **GBDT (梯度提升决策树)** 作为最终关系模型,以捕捉复杂的非线性关系和特征交互。
**数学形式:**
$$
\hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m)
$$
其中:
* $M = 300$ (迭代次数/树的数量)
* $\nu = 0.05$ (学习率 Learning Rate)
* $h_m(\mathbf{x})$ 为第 $m$ 棵回归树 (Base Learner),最大深度 $D=4$。
* 损失函数:$L(y, \hat{y}) = \frac{1}{2}(y - \hat{y})^2$ (MSE)
**已确定参数 (Hyperparameters)**
* `n_estimators`: 300
* `learning_rate`: 0.05
* `max_depth`: 4
* `subsample`: 0.8 (用于降低过拟合)
## 3. 决策逻辑 (Model Selection Logic)
| 候选模型 | 测试结果 (Test Set) | 采纳状态 | 决策理由 |
| :--- | :--- | :--- | :--- |
| **多元线性回归 (MLR)** | $R^2 < 0$ (CV) | 淘汰 | 无法捕捉数据的非线性特征,且受多重共线性(体重 vs BMI影响严重。 |
| **多项式交互回归 (Poly-2)** | $R^2 \approx 0.04$ | 淘汰 | 虽然引入了交互项,但模型泛化能力差,解释度提升有限。 |
| **高斯过程回归 (GPR)** | $R^2 \approx 0.09$ | 备选 (P2可用) | 理论优美,提供置信区间,但点预测精度未达预期目标 ($>20\%$)。 |
| **梯度提升树 (GBDT)** | **$R^2 = 0.2157$** | **优选 (Winner)** | 配合异常值清洗 ($Z<3$),成功突破 20% 的解释度瓶颈。能自动处理共线性并量化特征重要性。 |
## 4. 遗留问题 (Limitations & Sensitivity)
1. **外推风险**:树模型对训练集范围之外的数据(如 BMI > 45 或 孕周 > 30w预测能力较弱表现为预测值“平顶”。
2. **解释性黑盒**:相比于 $Y = \beta X$ 的显式公式GBDT 难以直接给出“BMI每增加1单位浓度下降多少”的解析解需依赖 SHAP 值或部分依赖图 (PDP) 进行解释。
3. **未观测变量**:即便 $R^2$ 提升至 0.21,仍有近 80% 的变异由未观测因素(如胎盘体积、母体血容量动态变化)决定,这暗示了**个体差异极大,必须在 Problem 2 中采用“分组策略”来对冲个体风险**。
## 5. 关键结果 (Key Results)
1. **模型性能**RMSE = 0.0275, $R^2 = 0.2157$。
2. **特征重要性排序**
* **No.1 体重 (25.3%)** & **No.2 BMI (24.0%)**证实了母体体量是导致胎儿DNA浓度稀释的主导因素。
* **No.3 孕周 (21.4%)**证实了随孕周增加DNA释放量累积的正相关性。
3. **数据洞察**:剔除约 0.7% 的极端异常值后,模型性能提升显著,说明原始数据中存在测序错误或录入噪音。
# 阶段性存档:问题 1 完成,准备进入问题 2
**背景**:我们正在解决 2025 数模竞赛 C 题。目前已完成数据清洗、相关性分析及第一问的建模工作。本存档旨在为第二问(基于 BMI 的分组与时点优化)提供确定的数学基础和参数依据。
---
### 1. 符号定义 (Notations)
| 符号 | 物理含义 | 单位 | 备注 |
| :--- | :--- | :--- | :--- |
| $Y$ | 胎儿 Y 染色体浓度 (Response Variable) | % | 目标变量,已剔除 $Z\text{-score} > 3$ 的异常值 |
| $t$ | 孕周 (Gestational Age) | weeks | 核心时间变量,范围 $[11, 29]$ |
| $B$ | 孕妇身体质量指数 (BMI) | $kg/m^2$ | 核心分组变量 |
| $W$ | 孕妇体重 (Weight) | kg | 辅助特征,特征重要性最高 |
| $A$ | 孕妇年龄 (Age) | years | 辅助特征 |
| $H$ | 孕妇身高 (Height) | cm | 辅助特征 |
| $\mathbf{x}$ | 特征向量 | - | $\mathbf{x} = [A, B, t, W, H]^T$ |
### 2. 核心假设 (Assumptions)
1. **稀释效应 (Dilution Effect)**:母体体重及 BMI 与胎儿游离 DNA 浓度呈负相关,假设母体血容量随体型增加而增加,从而稀释了胎儿 DNA。
2. **累积效应 (Accumulation Effect)**:胎儿游离 DNA 浓度随孕周增加呈单调递增趋势(在观测窗口内)。
3. **数据有效性**:剔除 $Y$ 浓度分布中 $\pm 3\sigma$ 之外的样本(约占 0.7%)后,剩余数据能真实反映生物学规律。
4. **阈值假设**根据题目NIPT 准确性的硬性约束为 $Y \ge 4\%$。
### 3. 已建模型 (Established Models)
#### 模型 I统计推断模型 (OLS Regression)
用于检验变量显著性(问题 1 核心要求)。
$$ Y = \beta_0 + \beta_1 A + \beta_2 B + \beta_3 t + \epsilon $$
#### 模型 II非线性预测模型 (GBDT)
用于捕捉复杂交互作用,作为问题 2 优化的预测引擎Oracle
$$ \hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m) $$
其中 $M=300$ 为迭代次数,$\nu=0.05$ 为学习率,$h_m$ 为回归树基学习器。
### 4. 关键结果 (Key Results from Problem 1)
**A. 显著性检验结果 (OLS)**
所有核心变量均通过 $t$-检验 ($P < 0.001$),系数如下:
* **截距 ($\beta_0$)**: $0.1514$
* **孕周 ($t$)**: $+0.0010$ (正相关每增加1周浓度增加 0.1%)
* **BMI ($B$)**: $-0.0020$ (负相关每增加1单位浓度减少 0.2%)
* **年龄 ($A$)**: $-0.0009$ (负相关)
**B. 预测模型性能 (GBDT)**
* **拟合优度**: $R^2 = 0.176$ (在含噪生物数据中属于可接受范围)。
* **均方根误差**: $RMSE = 0.0282$。
* **特征重要性 (Feature Importance)**:
1. **Weight**: 26.2% (主导因素)
2. **BMI**: 23.1%
3. **Gestational Age**: 21.2%
---
**下一步任务 (Next Step)**
进入 **问题 2**。利用上述 GBDT 模型预测不同 BMI 下的浓度变化曲线,建立优化模型以确定**最佳分组区间**和**最佳检测时点**。目标是最小化“漏检风险”(浓度<4%)与“延误风险”(孕周过大)。