Google I/O 2025：谷歌宣布对Gemini 2.5的Flash版和Pro版进行重大功能升级-AI前沿快讯-AI工具导航

Google I/O 2025：谷歌宣布对Gemini 2.5的Flash版和Pro版进行重大功能升级

在Google I/O 2025大会上，谷歌宣布对Gemini 2.5 Flash版和Pro版进行了升级。Flash版在推理、代码和长上下文等几乎所有维度的基准测试中表现更优，Pro版则引入了实验性的增强推理模式“Deep Think”（深度思考），能够在回应前考虑多种假设。

据了解，“Deep Think”增强推理模式借鉴了AlphaGo项目中“给予模型更多思考时间以优化响应”的经验，结合并行推理等前沿技术，使模型在回应前可生成并评估多重假设。实测数据显示，其在2025年美国数学奥林匹克（USAMO）、竞争级编程基准LiveCodeBench等硬核测试中，Gemini 2.5 Pro处于领先地位，在多模态理解与推理测试MMMU中得分达84.0%。此外，凭借100万token长上下文窗口，Gemini 2.5 Pro在编程排行榜WebDev Arena中以1420分领先，同时在基于人类偏好的LMArena排行榜全类别登顶。目前，“Deep Think”模式已向受信任测试者通过API开放，待安全评估与专家反馈完善后将全面推出。

定位为“速度、效率与低成本”的主力模型Gemini 2.5 Flash，此次在推理、多模态、代码及长上下文基准测试中实现全面提升，在LMArena排行榜仅次于Pro版。模型效率得到显著优化，token使用量减少20%-30%，目前已根据开发者反馈完成最终调整，在Google AI Studio、Vertex AI及Gemini应用中开放预览，计划6月初全面投入生产环境。

其他升级功能包括用于创造更自然对话体验的原生音频输出、支持多扬声器的文本转语音功能。借助原生音频输入（预览版），用户可以调整Gemini的语气、口音和说话风格，例如要求模型在讲故事时表现得夸张或伤感。与Mariner项目一样，该模型还具备工具使用能力，能够代表用户进行搜索。其他实验性早期语音功能包括情感对话，使模型能够检测用户语音中的情感并做出适当回应、能够过滤掉背景对话的主动音频以及Live API中支持更复杂任务的思考功能。

Pro版和Flash版中的新多扬声器功能支持超过24种语言，并且模型可以快速从一种方言切换到另一种。谷歌DeepMind首席技术官科雷·卡武克丘奥卢（Koray Kavukcuoglu）和产品管理高级总监图尔西·多西（Tulsee Doshi）在博客中写道：“文本转语音功能富有表现力，能够捕捉到细微差别，例如耳语。”

为优化开发者体验，Gemini 2.5 Pro与Flash在API和Vertex AI中新增“思考总结”功能，将模型原始思维过程整理为带标题、关键细节及工具调用记录的结构化格式，便于理解与调试。同时引入“思考预算”机制，开发者可灵活控制模型回应前的token使用量，甚至关闭思考功能。此外，模型原生支持开源工具集成，通过Gemini API的Model Context Protocol（MCP）定义SDK，降低与开源生态的对接门槛。

参考资料：https://venturebeat.com/ai/inside-google-ai-leap-gemini-2-5-thinks-deeper-speaks-smarter-codes-faster/