针对典型深度强化学习算法若干显性固有弊端,提出了一种改进深度强化学习算法,设计了基于改进深度强化学习算法的电力市场监测模型。引入智能体(agent)机制,Agent执行动作(action)并把当前收益(reward)和未来收益反馈给环境(environment)模拟策略网络,在有限马尔科夫决策过程中引入多重Q网络机制实现深度估值网络。以国家电网某电力公司为效能评价载体,基于谷歌的Tensorflow 1.2.1和OpenAI的Gym 0.9.2环境开发了验证环境并对模型进行了实证分析,仿真验证结果表明所提模型可以在较短的时间内处理多维波动非线性电力市场监预测模型,在稳定性、监测自主性、预测准确性、对抗环境下的模型性能等方面具有明显优势。