商汤科技林达华：多模态通用智能是通向AGI的必经之路-AI前沿快讯-AI工具导航

商汤科技林达华：多模态通用智能是通向AGI的必经之路

商汤科技联合创始人、执行董事、首席科学家林达华8月12日发布万字长文《迈向多模态通用智能：商汤的思考》，系统阐述了商汤科技在多模态通用智能领域的技术战略。林达华在文章中指出，多模态通用智能是通向通用人工智能（AGI）的必经之路。

林达华在文章中强调，人工智能的核心目标是与外界进行自主交互，而多模态信息处理能力是实现这一目标的关键。他指出，语言模型虽然是当前AI发展的重要推动力，但其本质是符号化的交流工具，无法独立构建真正的AGI。多模态技术通过融合视觉、语音等多种感知模态，能够更全面地理解和交互世界，从而成为连接大语言模型（LLM）和AGI的桥梁。

文章回顾了商汤在多模态领域的探索历程。商汤从计算机视觉技术起家，早期在人脸识别、智能驾驶等领域取得突破。2019年，商汤率先推出百亿参数视觉大模型，开启了多模态技术的早期探索。2023年，商汤与上海人工智能实验室合作研发的“书生2.5”成为国内首个多模态通用大模型，初步展示了跨模态理解能力。2024年，商汤突破原生多模态融合训练技术，推出日日新6.0系列模型，实现了语言和视觉模态的深度融合。

林达华详细分析了多模态模型的两种训练方式：适应训练和原生训练。他指出，适应训练存在模态融合不深入的局限，而原生训练能够更好地建模跨模态关联。商汤通过大规模对比实验，验证了原生融合训练的优越性，并将其作为核心技术路径。这一选择使得商汤在纯文本和图文评测中均位居国内榜首，实现了技术上的重大突破。

在多模态推理方面，林达华提出，完整的思维能力需要逻辑思维和形象思维的有机结合。商汤创新性地引入图文交错思维链，允许模型在推理过程中生成图形化表达，从而拓宽思维路径。这一技术通过强化学习得到显著增强，在日日新6.5模型中实现了真正的多模态思考能力。

林达华还展望了从多模态到具身智能的发展路径。他指出，具身智能的核心挑战在于与物理空间的交互学习效率。商汤通过开悟世界模型，建立数字空间与物理空间的连接，为智能体提供高效的交互模拟环境。这一技术在智能驾驶等领域已展现出巨大潜力。

商汤通过“基础设施-模型-应用”三位一体的战略，实现了技术创新与商业价值的正向循环。林达华强调，通向AGI是一场长跑，“技术理想需要商业价值的护航才能行稳致远”。商汤将继续以长期主义投入多模态通用智能，打造兼具技术领先性与产业韧性的中国方案。

参考资料：https://www.sensetime.com/cn/news-detail/51169893?categoryId=72；