前沿资讯
1772004905更新
0
OpenAI 宣布 Responses API 正式支持 docx、pptx、csv、xlsx 等多种文件格式的直接输入。

官方文档显示,新支持的输入类型覆盖了企业办公的"主流战场":Word 文档、PowerPoint 幻灯片、Excel 表格,以及 txt、md、json 等开发者常用格式。
但细读技术文档后,有三个关键点值得划重点:
第一,表格类文件的处理逻辑与 PDF 不同。 对于 xlsx、csv 等电子表格,API 并不会把整个 sheet 直接扔给模型,而是只解析每页前 1000 行,并自动生成摘要和表头元数据。官方解释这是为了"让模型在一个更结构化的视图中工作",换句话说就是为了省 Token,但代价是可能丢失长尾数据。
第二,非 PDF 文件的图像提取能力受限。 如果你的 Word 文档里嵌入了架构图、PPT 里包含关键数据可视化,API 目前不会提取这些视觉元素。OpenAI 给出的建议是:先转成 PDF,再作为输入文件。
第三,Token 消耗需要重新评估。 PDF 文件的解析会同时提取文本和页面图像,同样的内容,PDF 格式的 Token 消耗会比纯文本高不少。如果你的应用涉及大量 PDF 批量处理,成本核算需要重新跑一遍。
官方文档列出了三种文件提供方式:
- 外部 URL 直传:适合文件已在公网可访问的场景
- Files API 上传后引用:适合需要复用或安全管控的场景
- Base64 编码直传:适合一次性处理或前端直传的场景
单文件大小限制 50MB,全请求总大小同样限制在 50MB。 对于大多数企业文档来说,这个上限足够,但如果是高清设计稿或大型数据集,可能需要预处理。
需要提醒的是:复杂数据分析场景,OpenAI 仍然建议使用 Hosted Shell。 文件输入适合"理解"场景,而聚合、连接、图表生成这类任务,专用工具仍是更优解。
参考资料:https://x.com/OpenAIDevs/status/2026420817568084436;https://developers.openai.com/api/docs/guides/file-inputs/
豫公网安备41010702003375号