mirror of
https://github.com/ChuXunYu/OfficeFileHandle.git
synced 2026-01-31 02:01:26 +00:00
134 lines
6.3 KiB
Markdown
134 lines
6.3 KiB
Markdown
# 阶段性存档:Problem 1 (Relationship Modeling)
|
||
|
||
## 1. 符号体系 (Notations)
|
||
| 符号 | 含义 | 单位 | 备注 |
|
||
| :--- | :--- | :--- | :--- |
|
||
| $Y$ | 胎儿Y染色体浓度 (Response Variable) | % | 目标变量,已剔除 $Z\text{-score} > 3$ 的异常值 |
|
||
| $\mathbf{x}$ | 特征向量 | N/A | $\mathbf{x} = [t, B, A, H, W]^T$ |
|
||
| $t$ | 孕周 (Gestational Age) | weeks | 核心正相关因子 |
|
||
| $B$ | 孕妇身体质量指数 (BMI) | $kg/m^2$ | 核心负相关因子 (稀释效应) |
|
||
| $W$ | 孕妇体重 (Weight) | kg | 辅助特征,贡献度最高 |
|
||
| $A$ | 孕妇年龄 (Age) | years | 辅助特征 |
|
||
| $H$ | 孕妇身高 (Height) | cm | 辅助特征 |
|
||
|
||
## 2. 最终模型 (Final Model: Gradient Boosting Decision Tree)
|
||
我们采用 **GBDT (梯度提升决策树)** 作为最终关系模型,以捕捉复杂的非线性关系和特征交互。
|
||
|
||
**数学形式:**
|
||
$$
|
||
\hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m)
|
||
$$
|
||
其中:
|
||
* $M = 300$ (迭代次数/树的数量)
|
||
* $\nu = 0.05$ (学习率 Learning Rate)
|
||
* $h_m(\mathbf{x})$ 为第 $m$ 棵回归树 (Base Learner),最大深度 $D=4$。
|
||
* 损失函数:$L(y, \hat{y}) = \frac{1}{2}(y - \hat{y})^2$ (MSE)
|
||
|
||
**已确定参数 (Hyperparameters):**
|
||
* `n_estimators`: 300
|
||
* `learning_rate`: 0.05
|
||
* `max_depth`: 4
|
||
* `subsample`: 0.8 (用于降低过拟合)
|
||
|
||
## 3. 决策逻辑 (Model Selection Logic)
|
||
|
||
| 候选模型 | 测试结果 (Test Set) | 采纳状态 | 决策理由 |
|
||
| :--- | :--- | :--- | :--- |
|
||
| **多元线性回归 (MLR)** | $R^2 < 0$ (CV) | 淘汰 | 无法捕捉数据的非线性特征,且受多重共线性(体重 vs BMI)影响严重。 |
|
||
| **多项式交互回归 (Poly-2)** | $R^2 \approx 0.04$ | 淘汰 | 虽然引入了交互项,但模型泛化能力差,解释度提升有限。 |
|
||
| **高斯过程回归 (GPR)** | $R^2 \approx 0.09$ | 备选 (P2可用) | 理论优美,提供置信区间,但点预测精度未达预期目标 ($>20\%$)。 |
|
||
| **梯度提升树 (GBDT)** | **$R^2 = 0.2157$** | **优选 (Winner)** | 配合异常值清洗 ($Z<3$),成功突破 20% 的解释度瓶颈。能自动处理共线性并量化特征重要性。 |
|
||
|
||
## 4. 遗留问题 (Limitations & Sensitivity)
|
||
1. **外推风险**:树模型对训练集范围之外的数据(如 BMI > 45 或 孕周 > 30w)预测能力较弱,表现为预测值“平顶”。
|
||
2. **解释性黑盒**:相比于 $Y = \beta X$ 的显式公式,GBDT 难以直接给出“BMI每增加1单位,浓度下降多少”的解析解,需依赖 SHAP 值或部分依赖图 (PDP) 进行解释。
|
||
3. **未观测变量**:即便 $R^2$ 提升至 0.21,仍有近 80% 的变异由未观测因素(如胎盘体积、母体血容量动态变化)决定,这暗示了**个体差异极大,必须在 Problem 2 中采用“分组策略”来对冲个体风险**。
|
||
|
||
## 5. 关键结果 (Key Results)
|
||
1. **模型性能**:RMSE = 0.0275, $R^2 = 0.2157$。
|
||
2. **特征重要性排序**:
|
||
* **No.1 体重 (25.3%)** & **No.2 BMI (24.0%)**:证实了母体体量是导致胎儿DNA浓度稀释的主导因素。
|
||
* **No.3 孕周 (21.4%)**:证实了随孕周增加,DNA释放量累积的正相关性。
|
||
3. **数据洞察**:剔除约 0.7% 的极端异常值后,模型性能提升显著,说明原始数据中存在测序错误或录入噪音。
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
# 阶段性存档:问题 1 完成,准备进入问题 2
|
||
|
||
**背景**:我们正在解决 2025 数模竞赛 C 题。目前已完成数据清洗、相关性分析及第一问的建模工作。本存档旨在为第二问(基于 BMI 的分组与时点优化)提供确定的数学基础和参数依据。
|
||
|
||
---
|
||
|
||
### 1. 符号定义 (Notations)
|
||
| 符号 | 物理含义 | 单位 | 备注 |
|
||
| :--- | :--- | :--- | :--- |
|
||
| $Y$ | 胎儿 Y 染色体浓度 (Response Variable) | % | 目标变量,已剔除 $Z\text{-score} > 3$ 的异常值 |
|
||
| $t$ | 孕周 (Gestational Age) | weeks | 核心时间变量,范围 $[11, 29]$ |
|
||
| $B$ | 孕妇身体质量指数 (BMI) | $kg/m^2$ | 核心分组变量 |
|
||
| $W$ | 孕妇体重 (Weight) | kg | 辅助特征,特征重要性最高 |
|
||
| $A$ | 孕妇年龄 (Age) | years | 辅助特征 |
|
||
| $H$ | 孕妇身高 (Height) | cm | 辅助特征 |
|
||
| $\mathbf{x}$ | 特征向量 | - | $\mathbf{x} = [A, B, t, W, H]^T$ |
|
||
|
||
### 2. 核心假设 (Assumptions)
|
||
1. **稀释效应 (Dilution Effect)**:母体体重及 BMI 与胎儿游离 DNA 浓度呈负相关,假设母体血容量随体型增加而增加,从而稀释了胎儿 DNA。
|
||
2. **累积效应 (Accumulation Effect)**:胎儿游离 DNA 浓度随孕周增加呈单调递增趋势(在观测窗口内)。
|
||
3. **数据有效性**:剔除 $Y$ 浓度分布中 $\pm 3\sigma$ 之外的样本(约占 0.7%)后,剩余数据能真实反映生物学规律。
|
||
4. **阈值假设**:根据题目,NIPT 准确性的硬性约束为 $Y \ge 4\%$。
|
||
|
||
### 3. 已建模型 (Established Models)
|
||
|
||
#### 模型 I:统计推断模型 (OLS Regression)
|
||
用于检验变量显著性(问题 1 核心要求)。
|
||
$$ Y = \beta_0 + \beta_1 A + \beta_2 B + \beta_3 t + \epsilon $$
|
||
|
||
#### 模型 II:非线性预测模型 (GBDT)
|
||
用于捕捉复杂交互作用,作为问题 2 优化的预测引擎(Oracle)。
|
||
$$ \hat{Y} = F_M(\mathbf{x}) = \sum_{m=1}^{M} \nu \cdot h_m(\mathbf{x}; \theta_m) $$
|
||
其中 $M=300$ 为迭代次数,$\nu=0.05$ 为学习率,$h_m$ 为回归树基学习器。
|
||
|
||
### 4. 关键结果 (Key Results from Problem 1)
|
||
|
||
**A. 显著性检验结果 (OLS)**
|
||
所有核心变量均通过 $t$-检验 ($P < 0.001$),系数如下:
|
||
* **截距 ($\beta_0$)**: $0.1514$
|
||
* **孕周 ($t$)**: $+0.0010$ (正相关,每增加1周,浓度增加 0.1%)
|
||
* **BMI ($B$)**: $-0.0020$ (负相关,每增加1单位,浓度减少 0.2%)
|
||
* **年龄 ($A$)**: $-0.0009$ (负相关)
|
||
|
||
**B. 预测模型性能 (GBDT)**
|
||
* **拟合优度**: $R^2 = 0.176$ (在含噪生物数据中属于可接受范围)。
|
||
* **均方根误差**: $RMSE = 0.0282$。
|
||
* **特征重要性 (Feature Importance)**:
|
||
1. **Weight**: 26.2% (主导因素)
|
||
2. **BMI**: 23.1%
|
||
3. **Gestational Age**: 21.2%
|
||
|
||
---
|
||
|
||
**下一步任务 (Next Step)**:
|
||
进入 **问题 2**。利用上述 GBDT 模型预测不同 BMI 下的浓度变化曲线,建立优化模型以确定**最佳分组区间**和**最佳检测时点**。目标是最小化“漏检风险”(浓度<4%)与“延误风险”(孕周过大)。
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|