### 二、6步核心预处理操作 #### 1. 编码适配与数据读取 - 识别原始CSV文件编码为GB2312(非默认UTF-8),使用该编码读取数据,确保字段名(如“屏幕亮度”“CPU大核平均能量消耗”)无乱码,成功加载1000条记录、68个字段。 #### 2. 样本排序与索引规范 - 按“样本id”字段升序排序(原始id无序,如[0,1,10,100...]),重置数据索引,使样本按序号自然连续,保证后续分析的逻辑连贯性。 #### 3. 有效分析窗口筛选 - 以“样本序号替代时间步长”,基于“电池电量百分比(BATTERY__PERCENT)”变化规律,筛选出300个样本的稳定窗口(样本234-534): - 该窗口内电量从91%降至74%(下降17%),无极端波动,数据质量最优。 #### 4. 异常数据清洗 - 处理3类关键异常: 1. **字符串转数值**:将“CPU_MID_FREQ_KHz”中的“err”异常值转为空值,用前向填充+后向填充补全; 2. **数值逻辑修正**:电池放电电流(BATTERY_DISCHARGE_TOTAL_UA)为负值(表示放电方向),取负转为正值(单位:A); 3. **单位统一**:将温度(AVG_SOC_TEMP)的毫摄氏度单位(如44533→44.5℃)除以1000,转为常规摄氏度。 #### 5. 特征标准化处理 - 对核心硬件指标进行归一化(统一到0-1范围),便于后续对比分析: - 屏幕亮度:原始值(0-100)÷100; - CPU性能:大中小核频率分别归一后,按0.4(大核)、0.3(中核)、0.3(小核)加权计算“CPU代理性能值”; - WiFi数据:传输量差值取对数后归一,同时生成“WiFi活跃标识”(1=有数据传输,0=无)。 #### 6. 核心字段筛选 - 从68个原始字段中,筛选出9个关键字段组成最终数据集,覆盖“标识、硬件性能、电池状态、温度”核心维度: 样本id、时间步长索引、标准化屏幕亮度、CPU代理性能、WiFi代理指标、WiFi活跃标识、标准化电量、放电电流、电池温度。 --- ### 三、预处理结果 最终得到**300行×9列**的清洁数据集,满足:无缺失值、无异常值、核心指标标准化,可直接用于硬件性能与能耗关联分析、建模等场景。