随着配电网采集的数据规模日益增大,如何高效地预处理配电网数据成为目前配电网数据分析面临的 重要问题之一。考虑到配电网大数据的复杂性,提出了基于Apache spark的大规模数据并行预处理的方法。 首先,为了更有效地处理配电网大数据,以spark为计算引擎搭建了大数据并行计算平台;接着,分析了目 前配电网大数据面I临的一些普遍性问题,提出了针对这些问题的数据治理方案;然后,结合spark计算引 擎,介绍了配电网大数据预处理的具体流程;最后通过实验验证了数据预处理对配电网数据预测的精确度提 升,以及分布式计算平台在数据预处理方面的速度优势。