首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Gemini-2.5pro在OCR上表现超神,我的草书都能识别!

Gemini-2.5pro在OCR上表现超神,我的草书都能识别!

作者头像
一只牛博
发布于 2025-05-31 01:06:36
发布于 2025-05-31 01:06:36
11100
代码可运行
举报
运行总次数:0
代码可运行

引言

Google最新推出的Gemini-2.5 Pro大型语言模型不仅在标准NLP任务上表现出色,更在光学字符识别(OCR)领域展现出惊人的能力。今天我将分享两个实际测试案例,证明这款模型的OCR识别能力已经达到了"超神"水平。

草书识别:连我自己都难辨认的字迹

作为一个字迹潦草的人,我的手写笔记常常连自己回头看都难以辨认。带着好奇心,我决定用我最潦草的笔记挑战Gemini-2.5 Pro。

将一句自我介绍+祝福语上传后,令人惊讶的是,Gemini几乎完美地识别出了所有内容,包括:

  • 潦草的中文字符
  • 不规则的标点符号
  • 甚至是我自创的缩写和简写
  • 表情符号

这远超出了我的预期,因为连我自己有时候都不认识自己的笔迹,而Gemini却能直接解读。

复杂课表转HTML:一键从图像到结构化数据

第二个测试更具挑战性:我从网上找了一张复杂的课程表,包含多个时间段、各种课程名称。这类表格通常需要手动重建或使用专业OCR软件处理。

将课表图片上传给Gemini-2.5 Pro后,我要求它识别内容并生成相应的HTML代码。结果令人震惊:

  • 模型不仅准确识别了所有文字内容
  • 还正确理解了表格的行列结构和单元格合并情况
  • 生成的HTML代码格式规范,结构完整
  • 直接复制代码到浏览器就能呈现出完整还原的课表

最令人印象深刻的是,Gemini不仅仅是识别了文字,而是真正"理解"了课表的含义和结构,这远超传统OCR工具的能力范围。

首先是我提问的内容以及课程表的内容:

生成的html如下图:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>课程表</title>
    <style>
        body {
            font-family: sans-serif;
        }
        table {
            width: 80%;
            margin: 20px auto;
            border-collapse: collapse;
            border: 1px solid #ccc;
        }
        th, td {
            border: 1px solid #ccc;
            padding: 10px;
            text-align: center;
        }
        th {
            background-color: #f2f2f2;
        }
        .header {
            text-align: center;
            margin-bottom: 20px;
        }
        .header h1 {
            margin-bottom: 5px;
        }
        .header p {
            color: #555;
            margin-top: 0;
        }
        .rules {
            width: 80%;
            margin: 20px auto;
            padding: 15px;
            border: 1px solid #eee;
            background-color: #f9f9f9;
        }
        .rules h2 {
            margin-top: 0;
            text-align: center;
            color: #333;
        }
        .rules ul {
            list-style: none;
            padding-left: 0;
        }
        .rules li {
            margin-bottom: 10px;
            line-height: 1.6;
            color: #444;
        }
        .rules li::before {
            content: "✧ "; /* Using a similar symbol */
            color: #ffa500; /* Orange color */
            margin-right: 5px;
        }
    </style>
</head>
<body>

    <div class="header">
        <h1>课程表</h1>
        <p>广州某某小学 某某年级某某班课程安排表</p>
    </div>

    <table>
        <thead>
            <tr>
                <th></th>
                <th>周一</th>
                <th>周二</th>
                <th>周三</th>
                <th>周四</th>
                <th>周五</th>
            </tr>
        </thead>
        <tbody>
            <tr>
                <td>第一节</td>
                <td>语文</td>
                <td>语文</td>
                <td>语文</td>
                <td>语文</td>
                <td>语文</td>
            </tr>
            <tr>
                <td>第二节</td>
                <td>数学</td>
                <td>英语</td>
                <td>语文</td>
                <td>历史</td>
                <td>数学</td>
            </tr>
            <tr>
                <td>第三节</td>
                <td>数学</td>
                <td>数学</td>
                <td>数学</td>
                <td>体育</td>
                <td>历史</td>
            </tr>
            <tr>
                <td>第四节</td>
                <td>英语</td>
                <td>生物</td>
                <td>化学</td>
                <td>英语</td>
                <td>英语</td>
            </tr>
            <tr>
                <td>第五节</td>
                <td>体育</td>
                <td>地理</td>
                <td>体育</td>
                <td>地理</td>
                <td>生物</td>
            </tr>
            <tr>
                <td>第六节</td>
                <td>政治</td>
                <td>政治</td>
                <td>政治</td>
                <td>政治</td>
                <td>化学</td>
            </tr>
            <tr>
                <td>第七节</td>
                <td>自习</td>
                <td>自习</td>
                <td>自习</td>
                <td>自习</td>
                <td>自习</td>
            </tr>
            <tr>
                <td>第八节</td>
                <td>自习</td>
                <td>自习</td>
                <td>自习</td>
                <td>自习</td>
                <td>自习</td>
            </tr>
        </tbody>
    </table>

    <div class="rules">
        <h2>小学生日常行为准则:</h2>
        <ul>
            <li>举止文明,不说脏话,不骂人,不打架。不涉足未成年人不宜的活动和场所。</li>
            <li>情趣健康,不看色情,凶杀、暴力、封建迷信的书刊、音像制品,不听不唱不健康歌曲,不参加迷信活动。</li>
            <li>爱惜名誉,拾金不昧,抵制不良诱惑,不做有损人格的事。</li>
            <li>注意安全,防火灾、防溺水、防触电、防盗、防中毒等。</li>
        </ul>
    </div>

</body>
</html>
image-20250422211242206
image-20250422211242206

技术分析:为何Gemini-2.5 Pro的OCR如此强大?

Gemini-2.5 Pro的OCR能力优势主要体现在:

  1. 多模态理解:模型能同时处理视觉和语言信息,理解图像中的上下文。
  2. 丰富的训练数据:经过大量各类文字样本训练,包括不同字体、手写体和复杂布局。
  3. 上下文推理能力:当遇到模糊或不确定的字符时,能通过上下文推断最可能的内容。
  4. 结构化信息处理:不仅识别文字,还能理解表格、列表等结构化信息的逻辑关系。

实际应用场景

这种强大的OCR能力为许多应用场景带来可能:

  • 学生可快速数字化手写笔记
  • 研究人员能高效提取古籍或手稿中的信息
  • 办公人员可一键将纸质表格转为电子文档
  • 开发者能更容易实现文档自动化处理流程

结语

Gemini-2.5 Pro的OCR能力确实达到了"超神"水平,特别是在处理手写体和复杂结构化内容方面的表现令人印象深刻。这不仅是技术的进步,更代表了AI向真正理解和处理人类信息方式迈出的重要一步。

无论是草书识别还是复杂表格转换,Gemini-2.5 Pro都展示了超越传统OCR工具的卓越能力,为我们处理各类文本图像带来了全新的可能性。

另外,trae也是支持Gemini-2.5pro,下面是trae实现的

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Python执行或远程执行shell命令
最近想要实现通过脚本循环再Linux下运行shell命令,经过探索发现使用Python语言有几种解决方案,在此简单记录。
宋天伦
2020/10/28
7.6K0
ubuntu1~16.04.9 下安装python3.6 详细教程(在腾讯云服务器上安装实例)
1.输入 sudo add-apt-repository ppa:jonathonf/python-3.6
用户2416682
2019/09/27
2.2K0
ubuntu1~16.04.9 下安装python3.6 详细教程(在腾讯云服务器上安装实例)
Install Rancher 1
因为整合了 k8s 的编排功能, 并且有着非常友好的操作界面,所以在目前的容器技术圈中有着很大的影响力
franket
2021/08/10
7130
为kubernetes(k8s)单独配置kubectl工具
Kubernetes API 是一个 HTTP REST API。这个 API 是真正的 Kubernetes 用户界面,通过它可以完全控制它。这意味着每个 Kubernetes 操作都作为 API 端点公开,并且可以通过对该端点的 HTTP 请求进行。因此,kubectl 的主要目的是向 Kubernetes API 发出 HTTP 请求:
小陈运维
2022/01/06
1.1K0
腾讯云Ubuntu Server 16.04.1 LTS升级系统到Ubuntu 18.04.1 LTS
* 此修改方案为临时方案(/etc/resolv.conf文件系统重启后会自动还原),最终方案待定,下方为腾讯云原装Ubuntu 18.04.1 LTS系统镜像 systemd-resolve --status执行结果,仅供参考。
用户1196360
2018/11/23
8.4K0
腾讯云Ubuntu Server 16.04.1 LTS升级系统到Ubuntu 18.04.1 LTS
WIN10下创建Ubuntu18.04子系统及安装图形界面
控制面板——>程序——>程序和功能——>启用或关闭Windows功能——>适用于Linux的Windows子系统——>确定 (然后重启)
好派笔记
2021/09/17
3.1K0
ansible基础使用
由于在生产中, 出于安全性考虑, 不使用ssh互信进行ansible通信, 可以在配置文件中通过键值对的方式定义变量, 注明用户名与密码
buiu
2021/11/25
4970
Python Paramiko实现sftp文件上传下载以及远程执行命令
Paramiko模块是基于Python实现的SSH远程安全连接,用于SSH远程执行命令、文件传输等功能。
py3study
2020/02/29
10.3K0
zzupdate:单条命令升级 Ubuntu 18.04 LTS
Ubuntu 18.04 版本已经发布,并得到各个社区的一致好评,因为 Ubuntu 18.04 可能是 Ubuntu 多年来最令人兴奋的版本。
用户8639654
2021/10/14
6610
【亲测有效】Ubuntu18.04 sudo apt update无法解析域名的解决方案
拿起了封尘已久的ThinkPad,输入 sudo apt update 的时候,发现这个命令变得不好使了,具体出现的问题如下图所示:
Angel_Kitty
2019/09/09
13.8K1
原来Python是这样连接远程主机的,你会吗?
在软件测试的过程中,涉及到远程Linux主机环境测试的时候,难免会遇到需要执行shell命令的场景,比如通过shell命令去配置一些环境或者去检查用例执行的结果等等,那么就是用到了比较常用的工具paramiko。
软测小生
2021/09/06
2.4K0
docker 操作进阶
sudo docker exec -it merlingpu env LANG=C.UTF-8 /bin/bash
AI拉呱
2021/01/14
5010
python利用paramiko连接远程服务器执行命令的方法
python中的paramiko模块是用来实现ssh连接到远程服务器上的库,在进行连接的时候,可以用来执行命令,也可以用来上传文件。
菲宇
2019/06/11
1.4K0
paramiko模块——ssh远程连接服务器并执行命令
https://www.cnblogs.com/ghylpb/p/12158061.html
GH
2020/03/19
3.3K0
如何搭建 nginx 静态网站
Nginx是一款面向性能设计的HTTP服务器,相较于Apache、lighttpd具有占有内存少,稳定性高等优势。Nginx不采用每客户机一线程的设计模型,而是充分使用异步逻辑从而削减了上下文调度开销,所以并发服务能力更强。整体采用模块化设计,有丰富的模块库和第三方模块库,配置灵活。 在Linux操作系统下,Nginx使用epoll事件模型,得益于此,Nginx在Linux操作系统下效率相当高。同时Nginx在OpenBSD或FreeBSD操作系统上采用类似于epoll的高效事件模型kqueue。
星空之下
2018/10/17
4.8K0
如何搭建 nginx 静态网站
终于来了,Percona发布XtraBackup for MySQL 8.0
Percona在9月12日,终于宣布第一个测试用的XtraBackup for MySQL 8.0版本给大家试用:
数据和云
2018/10/08
9820
终于来了,Percona发布XtraBackup for MySQL 8.0
python3 paramiko 远程执行 ssh 命令、上传文件、下载文件
在win10的系统下,本来想要python3直接调用ansible库进行远程执行的,但是很可惜,ansible是基于linux系统的ssh服务进行远程调用,不太兼容windows。 那么下面来使用paramiko库,直接手写一个ssh远程调用。
Devops海洋的渔夫
2019/06/15
6K0
python paramiko
近段时间用Python写一个小东西,每次修改代码后要手工上传到服务器,觉得很麻烦,虽然有WinSCP,找了一下资料,发现paramiko可以实现自动上传文件的功能,可惜的是,折腾了半天,在Python3.3下没有成功,最后退而求其次安装了2.7才弄好,记录如下:
py3study
2020/01/06
1.6K0
python paramiko模块简介
    paramiko是用python语言写的一个模块,遵循SSH2协议,支持以加密和认证的方式,进行远程服务器的连接。
py3study
2020/01/09
1.2K0
TopDocs:一款美观实用的在线文档编辑系统,支持Markdown语法
说明:最近博主对文档程序小有需求,找了很久发现都是单页,而且还不支持移动端,不是很理想,所以萌JJ大雕就专门花了半天时间,给博主写了一个,该文档程序基于graphql、nuxtjs、mongodb、keystonejs的实时在线文档编辑系统,可用作各种在线文档编辑和展示,支持markdown语法,对移动端特别友好,这里就开源分享出来,给对文档有需求的人。
子润先生
2021/05/28
1.1K0
推荐阅读
相关推荐
Python执行或远程执行shell命令
更多 >
LV.0
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档