Files
MCM/A题/参考/预处理1.md
2026-01-31 13:43:21 +08:00

32 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
### 二、6步核心预处理操作
#### 1. 编码适配与数据读取
- 识别原始CSV文件编码为GB2312非默认UTF-8使用该编码读取数据确保字段名如“屏幕亮度”“CPU大核平均能量消耗”无乱码成功加载1000条记录、68个字段。
#### 2. 样本排序与索引规范
- 按“样本id”字段升序排序原始id无序如[0,1,10,100...]),重置数据索引,使样本按序号自然连续,保证后续分析的逻辑连贯性。
#### 3. 有效分析窗口筛选
- 以“样本序号替代时间步长”基于“电池电量百分比BATTERY__PERCENT”变化规律筛选出300个样本的稳定窗口样本234-534
- 该窗口内电量从91%降至74%下降17%),无极端波动,数据质量最优。
#### 4. 异常数据清洗
- 处理3类关键异常
1. **字符串转数值**将“CPU_MID_FREQ_KHz”中的“err”异常值转为空值用前向填充+后向填充补全;
2. **数值逻辑修正**电池放电电流BATTERY_DISCHARGE_TOTAL_UA为负值表示放电方向取负转为正值单位A
3. **单位统一**将温度AVG_SOC_TEMP的毫摄氏度单位如44533→44.5℃除以1000转为常规摄氏度。
#### 5. 特征标准化处理
- 对核心硬件指标进行归一化统一到0-1范围便于后续对比分析
- 屏幕亮度原始值0-100÷100
- CPU性能大中小核频率分别归一后按0.4大核、0.3中核、0.3小核加权计算“CPU代理性能值”
- WiFi数据传输量差值取对数后归一同时生成“WiFi活跃标识”1=有数据传输0=无)。
#### 6. 核心字段筛选
- 从68个原始字段中筛选出9个关键字段组成最终数据集覆盖“标识、硬件性能、电池状态、温度”核心维度
样本id、时间步长索引、标准化屏幕亮度、CPU代理性能、WiFi代理指标、WiFi活跃标识、标准化电量、放电电流、电池温度。
---
### 三、预处理结果
最终得到**300行×9列**的清洁数据集,满足:无缺失值、无异常值、核心指标标准化,可直接用于硬件性能与能耗关联分析、建模等场景。