商汤科技林达华:多模态通用智能是通向AGI的必经之路

前沿资讯 1755152340更新

0

商汤科技联合创始人、执行董事、首席科学家林达华8月12日发布万字长文《迈向多模态通用智能:商汤的思考》,系统阐述了商汤科技在多模态通用智能领域的技术战略。林达华在文章中指出,多模态通用智能是通向通用人工智能(AGI)的必经之路。

林达华在文章中强调,人工智能的核心目标是与外界进行自主交互,而多模态信息处理能力是实现这一目标的关键。他指出,语言模型虽然是当前AI发展的重要推动力,但其本质是符号化的交流工具,无法独立构建真正的AGI。多模态技术通过融合视觉、语音等多种感知模态,能够更全面地理解和交互世界,从而成为连接大语言模型(LLM)和AGI的桥梁。

文章回顾了商汤在多模态领域的探索历程。商汤从计算机视觉技术起家,早期在人脸识别、智能驾驶等领域取得突破。2019年,商汤率先推出百亿参数视觉大模型,开启了多模态技术的早期探索。2023年,商汤与上海人工智能实验室合作研发的“书生2.5”成为国内首个多模态通用大模型,初步展示了跨模态理解能力。2024年,商汤突破原生多模态融合训练技术,推出日日新6.0系列模型,实现了语言和视觉模态的深度融合。

林达华详细分析了多模态模型的两种训练方式:适应训练和原生训练。他指出,适应训练存在模态融合不深入的局限,而原生训练能够更好地建模跨模态关联。商汤通过大规模对比实验,验证了原生融合训练的优越性,并将其作为核心技术路径。这一选择使得商汤在纯文本和图文评测中均位居国内榜首,实现了技术上的重大突破。

在多模态推理方面,林达华提出,完整的思维能力需要逻辑思维和形象思维的有机结合。商汤创新性地引入图文交错思维链,允许模型在推理过程中生成图形化表达,从而拓宽思维路径。这一技术通过强化学习得到显著增强,在日日新6.5模型中实现了真正的多模态思考能力。

林达华还展望了从多模态到具身智能的发展路径。他指出,具身智能的核心挑战在于与物理空间的交互学习效率。商汤通过开悟世界模型,建立数字空间与物理空间的连接,为智能体提供高效的交互模拟环境。这一技术在智能驾驶等领域已展现出巨大潜力。

商汤通过“基础设施-模型-应用”三位一体的战略,实现了技术创新与商业价值的正向循环。林达华强调,通向AGI是一场长跑,“技术理想需要商业价值的护航才能行稳致远”。商汤将继续以长期主义投入多模态通用智能,打造兼具技术领先性与产业韧性的中国方案。

参考资料:https://www.sensetime.com/cn/news-detail/51169893?categoryId=72;