2.2 KiB
2.2 KiB
二、6步核心预处理操作
1. 编码适配与数据读取
- 识别原始CSV文件编码为GB2312(非默认UTF-8),使用该编码读取数据,确保字段名(如“屏幕亮度”“CPU大核平均能量消耗”)无乱码,成功加载1000条记录、68个字段。
2. 样本排序与索引规范
- 按“样本id”字段升序排序(原始id无序,如[0,1,10,100...]),重置数据索引,使样本按序号自然连续,保证后续分析的逻辑连贯性。
3. 有效分析窗口筛选
- 以“样本序号替代时间步长”,基于“电池电量百分比(BATTERY__PERCENT)”变化规律,筛选出300个样本的稳定窗口(样本234-534):
- 该窗口内电量从91%降至74%(下降17%),无极端波动,数据质量最优。
4. 异常数据清洗
- 处理3类关键异常:
- 字符串转数值:将“CPU_MID_FREQ_KHz”中的“err”异常值转为空值,用前向填充+后向填充补全;
- 数值逻辑修正:电池放电电流(BATTERY_DISCHARGE_TOTAL_UA)为负值(表示放电方向),取负转为正值(单位:A);
- 单位统一:将温度(AVG_SOC_TEMP)的毫摄氏度单位(如44533→44.5℃)除以1000,转为常规摄氏度。
5. 特征标准化处理
- 对核心硬件指标进行归一化(统一到0-1范围),便于后续对比分析:
- 屏幕亮度:原始值(0-100)÷100;
- CPU性能:大中小核频率分别归一后,按0.4(大核)、0.3(中核)、0.3(小核)加权计算“CPU代理性能值”;
- WiFi数据:传输量差值取对数后归一,同时生成“WiFi活跃标识”(1=有数据传输,0=无)。
6. 核心字段筛选
- 从68个原始字段中,筛选出9个关键字段组成最终数据集,覆盖“标识、硬件性能、电池状态、温度”核心维度: 样本id、时间步长索引、标准化屏幕亮度、CPU代理性能、WiFi代理指标、WiFi活跃标识、标准化电量、放电电流、电池温度。
三、预处理结果
最终得到300行×9列的清洁数据集,满足:无缺失值、无异常值、核心指标标准化,可直接用于硬件性能与能耗关联分析、建模等场景。