Fireworks AI最近推出了一项名为“Document Inlining”的新功能,这是一个复合AI系统,旨在将非结构化的文档(如PDF、截图、图像等)转化为大型语言模型(LLM)可理解的结构化文本。这一功能能够自动识别和解析文档中的多种内容,包括文本、表格、图表以及嵌套布局,并将其直接输入到用户选择的LLM中,从而提高推理质量和输入灵活性。
Document Inlining通过自动化流程,将任何数字资产格式转换为LLM兼容的格式,解决了传统LLM在处理非文本数据时的局限性。此外,该功能还兼容OpenAI API,用户只需在现有的API中添加一行代码即可启用此功能,且目前处于公开预览阶段,使用时不会产生额外解析成本,仅需支付输入和输出的Token费用。 实验表明,Document Inlining在68%的情况下优于直接使用图像输入的GPT4o模型,并且使用该功能的VLM(视觉语言模型)在响应质量上显著提升。Fireworks计划继续扩展该功能,涵盖音频文件内联和对长文档的推理时搜索等功能。 |