本发明提供了一种楼宇暖通空调系统控制方法,包括以下步骤:对具有可变风量和恒定送风温度的暖通空调系统建立知识模型,根据所述知识模型将智能体基于深度确定性策略梯度进行预训练;将经过预训练的智能体在真实环境中基于所述知识模型和所述深度确定性策略梯度的混合强化学习算法进行在线迭代学习,并实时更新基于数据驱动的环境模型。将智能体基于深度确定性策略梯度进行预训练,预训练过程中减少了智能体在真实环境中交互时产生的学习成本。基于知识模型和深度确定性策略梯度的混合强化学习算法进行在线迭代学习,在迭代学习过程中实时更新基于数据驱动的环境模型,使在线训练更加稳定,同时还可以降低学习成本。