自动化数据可视化在简化数据解读、增强决策支持和提升效率方面发挥着关键作用。虽然大语言模型在从自然语言生成可视化方面展现出潜力,但缺乏全面基准测试限制了对模型能力的严格评估。
Text2Vis基准测试旨在评估文本到可视化模型,涵盖20多种图表类型和多样化数据科学查询,包括趋势分析、相关性分析、异常检测和预测分析。该基准包含1,985个样本,每个样本包含数据表、自然语言查询、简短答案、可视化代码和标注图表。查询涉及复杂推理、对话轮次和动态数据检索。
研究对11个开源和闭源模型进行了基准测试,揭示了显著的性能差距,突出了关键挑战,并为未来发展提供了见解。为缩小这一差距,提出了首个跨模态行动者-评论家代理框架,联合优化文本答案和可视化代码,将GPT-4o的通过率从直接方法的26%提升至42%,同时提高了图表质量。
还引入了基于大语言模型的自动化评估框架,无需人工标注即可对数千个样本进行可扩展评估,测量答案正确性、代码执行成功率、可视化可读性和图表准确性。Text2Vis已在指定网址发布。
主题分类:计算与语言(cs.CL);计算机视觉与模式识别(cs.CV)
引用信息:arXiv:2507.19969 cs.CL
DOI:10.48550/arXiv.2507.19969
提交历史:2025年7月26日 UTC时间14:59:04
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。