32 lines
2.2 KiB
Markdown
32 lines
2.2 KiB
Markdown
### 二、6步核心预处理操作
|
||
#### 1. 编码适配与数据读取
|
||
- 识别原始CSV文件编码为GB2312(非默认UTF-8),使用该编码读取数据,确保字段名(如“屏幕亮度”“CPU大核平均能量消耗”)无乱码,成功加载1000条记录、68个字段。
|
||
|
||
#### 2. 样本排序与索引规范
|
||
- 按“样本id”字段升序排序(原始id无序,如[0,1,10,100...]),重置数据索引,使样本按序号自然连续,保证后续分析的逻辑连贯性。
|
||
|
||
#### 3. 有效分析窗口筛选
|
||
- 以“样本序号替代时间步长”,基于“电池电量百分比(BATTERY__PERCENT)”变化规律,筛选出300个样本的稳定窗口(样本234-534):
|
||
- 该窗口内电量从91%降至74%(下降17%),无极端波动,数据质量最优。
|
||
|
||
#### 4. 异常数据清洗
|
||
- 处理3类关键异常:
|
||
1. **字符串转数值**:将“CPU_MID_FREQ_KHz”中的“err”异常值转为空值,用前向填充+后向填充补全;
|
||
2. **数值逻辑修正**:电池放电电流(BATTERY_DISCHARGE_TOTAL_UA)为负值(表示放电方向),取负转为正值(单位:A);
|
||
3. **单位统一**:将温度(AVG_SOC_TEMP)的毫摄氏度单位(如44533→44.5℃)除以1000,转为常规摄氏度。
|
||
|
||
#### 5. 特征标准化处理
|
||
- 对核心硬件指标进行归一化(统一到0-1范围),便于后续对比分析:
|
||
- 屏幕亮度:原始值(0-100)÷100;
|
||
- CPU性能:大中小核频率分别归一后,按0.4(大核)、0.3(中核)、0.3(小核)加权计算“CPU代理性能值”;
|
||
- WiFi数据:传输量差值取对数后归一,同时生成“WiFi活跃标识”(1=有数据传输,0=无)。
|
||
|
||
#### 6. 核心字段筛选
|
||
- 从68个原始字段中,筛选出9个关键字段组成最终数据集,覆盖“标识、硬件性能、电池状态、温度”核心维度:
|
||
样本id、时间步长索引、标准化屏幕亮度、CPU代理性能、WiFi代理指标、WiFi活跃标识、标准化电量、放电电流、电池温度。
|
||
|
||
---
|
||
|
||
### 三、预处理结果
|
||
最终得到**300行×9列**的清洁数据集,满足:无缺失值、无异常值、核心指标标准化,可直接用于硬件性能与能耗关联分析、建模等场景。
|