
前沿资讯
1747822294更新
0
在Google I/O 2025大会上,谷歌宣布对Gemini 2.5 Flash版和Pro版进行了升级。Flash版在推理、代码和长上下文等几乎所有维度的基准测试中表现更优,Pro版则引入了实验性的增强推理模式“Deep Think”(深度思考),能够在回应前考虑多种假设。
据了解,“Deep Think”增强推理模式借鉴了AlphaGo项目中“给予模型更多思考时间以优化响应”的经验,结合并行推理等前沿技术,使模型在回应前可生成并评估多重假设。实测数据显示,其在2025年美国数学奥林匹克(USAMO)、竞争级编程基准LiveCodeBench等硬核测试中,Gemini 2.5 Pro处于领先地位,在多模态理解与推理测试MMMU中得分达84.0%。此外,凭借100万token长上下文窗口,Gemini 2.5 Pro在编程排行榜WebDev Arena中以1420分领先,同时在基于人类偏好的LMArena排行榜全类别登顶。目前,“Deep Think”模式已向受信任测试者通过API开放,待安全评估与专家反馈完善后将全面推出。
定位为“速度、效率与低成本”的主力模型Gemini 2.5 Flash,此次在推理、多模态、代码及长上下文基准测试中实现全面提升,在LMArena排行榜仅次于Pro版。模型效率得到显著优化,token使用量减少20%-30%,目前已根据开发者反馈完成最终调整,在Google AI Studio、Vertex AI及Gemini应用中开放预览,计划6月初全面投入生产环境。
其他升级功能包括用于创造更自然对话体验的原生音频输出、支持多扬声器的文本转语音功能。借助原生音频输入(预览版),用户可以调整Gemini的语气、口音和说话风格,例如要求模型在讲故事时表现得夸张或伤感。与Mariner项目一样,该模型还具备工具使用能力,能够代表用户进行搜索。其他实验性早期语音功能包括情感对话,使模型能够检测用户语音中的情感并做出适当回应、能够过滤掉背景对话的主动音频以及Live API中支持更复杂任务的思考功能。
Pro版和Flash版中的新多扬声器功能支持超过24种语言,并且模型可以快速从一种方言切换到另一种。谷歌DeepMind首席技术官科雷·卡武克丘奥卢(Koray Kavukcuoglu)和产品管理高级总监图尔西·多西(Tulsee Doshi)在博客中写道:“文本转语音功能富有表现力,能够捕捉到细微差别,例如耳语。”
为优化开发者体验,Gemini 2.5 Pro与Flash在API和Vertex AI中新增“思考总结”功能,将模型原始思维过程整理为带标题、关键细节及工具调用记录的结构化格式,便于理解与调试。同时引入“思考预算”机制,开发者可灵活控制模型回应前的token使用量,甚至关闭思考功能。此外,模型原生支持开源工具集成,通过Gemini API的Model Context Protocol(MCP)定义SDK,降低与开源生态的对接门槛。
参考资料:https://venturebeat.com/ai/inside-google-ai-leap-gemini-2-5-thinks-deeper-speaks-smarter-codes-faster/