预处理1

This commit is contained in:
ChuXun
2026-01-31 13:43:21 +08:00
parent 84fb77d060
commit 8f767b45b6
3 changed files with 202 additions and 0 deletions

31
A题/参考/预处理1.md Normal file
View File

@@ -0,0 +1,31 @@
### 二、6步核心预处理操作
#### 1. 编码适配与数据读取
- 识别原始CSV文件编码为GB2312非默认UTF-8使用该编码读取数据确保字段名如“屏幕亮度”“CPU大核平均能量消耗”无乱码成功加载1000条记录、68个字段。
#### 2. 样本排序与索引规范
- 按“样本id”字段升序排序原始id无序如[0,1,10,100...]),重置数据索引,使样本按序号自然连续,保证后续分析的逻辑连贯性。
#### 3. 有效分析窗口筛选
- 以“样本序号替代时间步长”基于“电池电量百分比BATTERY__PERCENT”变化规律筛选出300个样本的稳定窗口样本234-534
- 该窗口内电量从91%降至74%下降17%),无极端波动,数据质量最优。
#### 4. 异常数据清洗
- 处理3类关键异常
1. **字符串转数值**将“CPU_MID_FREQ_KHz”中的“err”异常值转为空值用前向填充+后向填充补全;
2. **数值逻辑修正**电池放电电流BATTERY_DISCHARGE_TOTAL_UA为负值表示放电方向取负转为正值单位A
3. **单位统一**将温度AVG_SOC_TEMP的毫摄氏度单位如44533→44.5℃除以1000转为常规摄氏度。
#### 5. 特征标准化处理
- 对核心硬件指标进行归一化统一到0-1范围便于后续对比分析
- 屏幕亮度原始值0-100÷100
- CPU性能大中小核频率分别归一后按0.4大核、0.3中核、0.3小核加权计算“CPU代理性能值”
- WiFi数据传输量差值取对数后归一同时生成“WiFi活跃标识”1=有数据传输0=无)。
#### 6. 核心字段筛选
- 从68个原始字段中筛选出9个关键字段组成最终数据集覆盖“标识、硬件性能、电池状态、温度”核心维度
样本id、时间步长索引、标准化屏幕亮度、CPU代理性能、WiFi代理指标、WiFi活跃标识、标准化电量、放电电流、电池温度。
---
### 三、预处理结果
最终得到**300行×9列**的清洁数据集,满足:无缺失值、无异常值、核心指标标准化,可直接用于硬件性能与能耗关联分析、建模等场景。