着云计算和大数据时代的到来,大规模数据中心在全球范围内得到r广泛的部署.但大规模数据中心 的高能耗仍然是当今亟待解决的问题.为解决这一问题,通常采用太阳能等可再生绿色新能源为数据中心供电.绿 色数据中心能够根据新能源的变化配合市电为数据中心提供高效、低能耗且稳定的电能供给,这是数据中心发展 的趋势.文中针对数据收集不完善和断电等因素会造成一定程度的数据缺失情况,提出了一种基于完备相容类的 不完备大数据填补算法,来填补数据中心的缺失数据;针对绿色数据中心能耗大数据的不稳定、间歇性和随时变化 等特点,提出了一种基于离散弱相关的决策森林并行分类算法,通过对数据中心能耗大数据并行分类,来指导供电 方式,以利于高效节能和延长电池寿命;此外进一步提出了一种增量更新决策森林的算法,来增量更新分类模型, 该算法能够保障分类模型不断适应数据变化,防止分类准确率随时间而下降,从而避免电池频繁充放电,以保证稳 定供电.整体来说,文中提出了一种数据中心能耗大数据管理模型,该模型针对大规模绿色数据中心的能源供给相 关问题,运用不完备能耗大数据的填补、能耗大数据的并行分类、分类模型更新这三方面的技术方法,动态调控太 阳能和市电供电端口,为数据中心提供高效、低能耗且稳定的电能供给.最后,采用绿色数据中心真实的能耗相关 大数据集进行实验,实验结果说明文中提出的能耗大数据管理模型,能够帮助绿色数据中心有效管理太阳能和其 他资源来配合市电提供稳定且充足的电能供应,从而为整个数据中心服务体系提供高效的能源服务.