随着技术的快速演进,基础模型正迎来一场深层次的跃迁。2025年,大模型的训练重点从“数据+规模”转向“后训练+多模态”。这场变革的核心在于,强化学习开始在大模型后训练中发挥关键作用,并有望赋予模型自我优化与持续进化能力。例如,DeepSeek-R1-Zero通过纯强化学习展现出推理能力,这不仅为DeepSeekR1的训练提供了关键支撑,更全面地将大模型应用推向了推理时代。想象一下,未来在诸多场景下AI都不再需要人类工程师“手把手”教学,而是能像围棋大师AlphaGo那样,通过可验证的奖励信号,在工业机器人路径优化、复杂物流网络调度等领域自主找到最优解,甚至发现超越人类经验的全新策略,从而在未知环境中展现出卓越的适应性。