1.海外模型保持头部优势,国内模型继续追赶。 在本次9月通用测评中,海外模型占据了榜单前6,其中GPT-5(high)以69.37分遥遥领先,o4-mini(high) (65.91分) 、 Claude-Sonnet-4.5-Reasoning (65.62分) Claude-Opus-4.1-Reasoning(64.87分)、Gemini-2.5-Pro (64.68分)等紧随其后。国内的DeepSeek-V3.2-Exp-Thinking、 Doubao-Seed-1.6-thinking-250715分别62.62分和60.96分并列国内第一。 2.国内开源模型优势显著。 国内的DeepSeek-V3.2-Exp-Thinking (62.62分)、openPangu-Ultra-MoE-718B(58.87分)和Qwen3-235B-A22B-Thinking-2507(57.73分)分别位于开源模型榜单前三,大幅度领先海外开源最好模型gpt-oss-120b(53.05分)。 3.国内模型更具性价比,海外模型推理效率更高。 国内模型的API价格大多数处于0-10元/百万Tokens,平均API价格为3.88元/百万Tokens,而海外模型的API价格比较分散,从2-200元/百万Tokens不等,海外模型平均API价格为20.46元/百万Tokens,是国内模型API价格的5倍以上。国内推理模型平均每题的推理耗时为101.07秒,而海外推理模型仅有41.60秒,海外推理模型的推理效率远高于国内推理模型。