AI创企Arthur开源大模型性能评估工具

文章来源：企鹅号 - 鞭牛士

纽约AI初创公司Arthur于当地时间8月17日发布开源AI模型评估工具Bench，用于比较生成文本模型的大型语言模型（LLM）、提示和超参数。据称，Arthur Bench可以帮助企业进行模型选择和验证、预算和隐私优化以及将学术基准转化为实际应用。Arthur同时推出了生成评估项目GAP，旨在对OpenAI、Anthropi和Meta等AI领先企业提供的语言模型产品的优缺点进行排名。