部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >用 R 复刻了一张图,附代码

用 R 复刻了一张图,附代码

作者头像
统计学家
发布2024-11-15 13:44:04
发布2024-11-15 13:44:04
6700
代码可运行
举报
运行总次数:0
代码可运行

大家好,我是章北海

现在市面上再有大模型发布,很难掀起大波澜了,尤其是国内百模大战背景下。

前几天看到阿里开源了通义千问 Coder 系列的 6 款 Qwen-2.5-Coder 模型。

说是编程能力又大幅提升了,甚至超越 GPT-4o

由于阿里没有给我广告费,我就不吹嘘它如何牛逼了。

倒是感觉官方这张图很有漂亮

既然大模型都这么能打了,那能不能复刻这张图呢?

我找了 GPT-4o、Claude-3-opus、Claude-3.5-sonnet-20241022 这几位经常被超越的loser

结果并不理想

我还试了号称很难打的其他几个,不提名字了,效果更差,懒得再深入了

Claude sonet 241022

然后优化了提示词,让其先抽取并整理好数据再用 python 绘制极坐标图,效果好点了:

不过 Python 的天花板貌似也止于此了

想要更漂亮,害得上 R

用 GPT-4o 复刻结果如下:

调整一下图例、去掉背景色

再上 PS,或许就完整复刻官方那张图了

代码如下:

代码语言:javascript
代码运行次数:0
复制
# 加载必要的库
library(ggplot2)
library(tidyr)
library(dplyr)

# 数据准备
data <- data.frame(
  Benchmark = c("HumanEval", "MBPP", "EvalPlus Average", "MultiPL-E", "McEval", 
                "LiveCodeBench", "CRUXEval-O", "BigCodeBench",
                "AiderPass@2", "Spider", "BIRD-SQL", "CodeArena"),
  Qwen2.5_Coder_32B_Instruct = c(92.7, 90.2, 86.3, 79.4, 65.9, 31.4, 83.4, 38.3, 73.7, 85.1, 58.4, 68.9),
  DeepSeek_Coder_V2_Instruct = c(88.4, 89.2, 83.8, 79.9, 62.9, 27.9, 75.1, 36.3, 72.9, 81.3, 51.9, 57.4),
  DeepSeek_Coder_33B_Instruct = c(79.3, 81.2, 74.9, 69.2, 54.3, 21.3, 50.6, 29.8, 59.4, 73.8, 45.6, 16.8),
  CodeStral_22B = c(78.1, 73.3, 73.5, 70.2, 50.5, 22.6, 63.5, 29.8, 51.1, 76.6, 46.2, 21.7),
  GPT_4o_2024_08.06 = c(92.1, 86.8, 84.4, 79.1, 65.8, 34.6, 89.2, 37.6, 71.4, 79.8, 54.2, 69.1)
)

# 数据转换为长格式
data_long <- data %>%
  pivot_longer(cols = -Benchmark, names_to = "Model", values_to = "Score")

# 绘制极坐标图
ggplot(data_long, aes(x = Benchmark, y = Score, fill = Model)) +
  geom_bar(stat = "identity", position = "dodge") +
  coord_polar() +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    legend.position = "bottom",
    legend.text = element_text(size = 8),
    plot.title = element_text(hjust = 0.5)
  ) +
  guides(fill = guide_legend(nrow = 2)) +  # 设置图例为两行
  labs(title = "Benchmark Scores by Model",
       fill = "Model")

Claude-3-opus 表现也不俗

最后生成图形如下:

最后说一句

由于用的比较少,我本地没再安装 RRstudio

https://posit.cloud 可以创建 Rstudio 空间,和本地没区别,感兴趣可以去试试。

为了避免被喷,再说一下,其实也测试了 Qwen2.5Deepseek

deepseek 就不放了,他绘制了一幅条形图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档