微软发布在 Arxiv.org 上的一篇论文显示,该公司专门为 Excel 、 Google Sheets 等电子表格程序开发了一个名为 “SpreadsheetLLM” 的大语言模型。论文指出,电子表格具有许多不同形式和选项的布局和格式,这会让常规的大模型在令牌限制以及功能理解上出现困难,SpreadsheetLLM 旨在克服这些问题。它包含三个模块:基于结构锚点的压缩、逆索引转换和数据格式感知聚合。 SpreadsheetLLM 能显著提高电子表格表格检测任务的性能,在 GPT4 的上下文学习设置中,其表现比普通方法提高了 25.6%,同时在令牌(tokens)方面将成本降低了 96% 。该团队还开发了所谓的 SheetCompressor,它能压缩电子表格,以便 SpreadsheetLLM 更高效地使用。暂不清楚微软是否会将该模型推向市场。
https://arxiv.org/html/2407.09025v1