Files
MCM/A题/参考/预处理1.md
2026-01-31 13:43:21 +08:00

2.2 KiB
Raw Blame History

二、6步核心预处理操作

1. 编码适配与数据读取

  • 识别原始CSV文件编码为GB2312非默认UTF-8使用该编码读取数据确保字段名如“屏幕亮度”“CPU大核平均能量消耗”无乱码成功加载1000条记录、68个字段。

2. 样本排序与索引规范

  • 按“样本id”字段升序排序原始id无序如[0,1,10,100...]),重置数据索引,使样本按序号自然连续,保证后续分析的逻辑连贯性。

3. 有效分析窗口筛选

  • 以“样本序号替代时间步长”基于“电池电量百分比BATTERY__PERCENT”变化规律筛选出300个样本的稳定窗口样本234-534
    • 该窗口内电量从91%降至74%下降17%),无极端波动,数据质量最优。

4. 异常数据清洗

  • 处理3类关键异常
    1. 字符串转数值将“CPU_MID_FREQ_KHz”中的“err”异常值转为空值用前向填充+后向填充补全;
    2. 数值逻辑修正电池放电电流BATTERY_DISCHARGE_TOTAL_UA为负值表示放电方向取负转为正值单位A
    3. 单位统一将温度AVG_SOC_TEMP的毫摄氏度单位如44533→44.5℃除以1000转为常规摄氏度。

5. 特征标准化处理

  • 对核心硬件指标进行归一化统一到0-1范围便于后续对比分析
    • 屏幕亮度原始值0-100÷100
    • CPU性能大中小核频率分别归一后按0.4大核、0.3中核、0.3小核加权计算“CPU代理性能值”
    • WiFi数据传输量差值取对数后归一同时生成“WiFi活跃标识”1=有数据传输0=无)。

6. 核心字段筛选

  • 从68个原始字段中筛选出9个关键字段组成最终数据集覆盖“标识、硬件性能、电池状态、温度”核心维度 样本id、时间步长索引、标准化屏幕亮度、CPU代理性能、WiFi代理指标、WiFi活跃标识、标准化电量、放电电流、电池温度。

三、预处理结果

最终得到300行×9列的清洁数据集,满足:无缺失值、无异常值、核心指标标准化,可直接用于硬件性能与能耗关联分析、建模等场景。