开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

对于阿拉伯语单词/字母，Tesseract不返回任何内容

Tesseract是一个开源的OCR（光学字符识别）引擎，用于将图像中的文字转换为可编辑文本。它支持多种语言，包括阿拉伯语。

对于阿拉伯语单词/字母，Tesseract不返回任何内容可能是由于以下几个原因：

图像质量问题：Tesseract对图像的质量要求较高，如果图像模糊、光照不均匀、文字模糊或扭曲等，会影响识别结果。因此，确保图像清晰、文字清晰可见是提高识别准确率的关键。
字体问题：某些特殊字体或字母形状可能不在Tesseract的字库中，导致无法识别。可以尝试使用更常见的字体或者优化字体渲染设置。
语言数据问题：Tesseract的识别效果与其训练过的语言数据密切相关。可能是Tesseract缺少针对阿拉伯语的训练数据或者训练数据不完善。可以尝试更新或添加适用于阿拉伯语的训练数据以提高识别效果。
参数配置问题：Tesseract提供了一些参数用于优化识别效果，可能需要调整参数配置以适应阿拉伯语的特点。例如，设置字体、字符集、文本方向等参数。

综上所述，如果对于阿拉伯语单词/字母，Tesseract不返回任何内容，可以尝试优化图像质量、调整字体、添加适用的训练数据，并合理配置参数以提高识别准确率。同时，可以使用腾讯云提供的OCR相关产品进行比较，例如腾讯云的OCR文字识别服务（https://cloud.tencent.com/product/ocr-text-recognition），该服务支持多种语言的文字识别，包括阿拉伯语，提供高精度、高效率的OCR识别能力。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

App出海本地化时遇到复杂语言？华为多语言检查服务有大招！

所谓复杂，也是一个相对概念。其实曾有外国友人在学习中文时就认为，“这是一个复杂语言哪”。

04

区域设置 ID (LCID) 表

区域性名称和标识符区域性名称遵循 RFC 1766 标准，格式为“-”，其中是从 ISO 639-1 派生的由两个小写字母构成的代码，是从 ISO 3166 派生的由两个大写字母构成的代码。例如，美国英语为“en-US”。在双字母语言代码不可用的情况中，将使用从 ISO 639-2 派生的三字母代码；例如，三字母代码“div”用于使用 Dhivehi 语言的区域。某些区域性名称带有指定书写符号的后缀；例如“-Cyrl”指定西里尔语书写符号，“-Latn”指定拉丁语书写符号。区域设置描述简写

干货 | 国际化探索之路-Trip.com如何走进阿拉伯市场

随着国际化之路的进一步推进，Trip.com已经在全球多个国家开设了站点，今天的主角是阿拉伯世界。

04

Facebook的新AI「Rosetta」会识别表情包，还会删帖丨论文

不过，表情包上的那些网络金句都是.jpg或者.gif的图片格式，无法被搜索、无法被计算机监测，字太小不清晰的时候还会让视力不好的同学看不清楚。

02

资源 | 囊括欧亚非大陆多种语言的25个平行语料库数据集（拿走不谢！）

原文链接：https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/

04

WordPress根据浏览器语言自动跳转网址的方法

有不少使用WordPress搭建外贸站的公司都会做多个语言的网站，例如英文和中文。同时有些外贸站站长不希望自己的网站被国内用户访问，想要国内用户跳转到不同的网址，我们可以利用浏览器语言来判断用户环境，然后自动跳转到不同的网址上面，具体方法如下：

00

新Wolfram U 幕课《探索数据可视化》

经过几个月的头脑风暴、开发笔记本和脚本以及通过多轮编辑和重新拍摄来完善视频，我们很高兴地宣布，数据科学中的视觉探索大规模开放在线课程 (MOOC) 现已推出。(https://www.wolfram.com/wolfram-u/visual-explorations-in-data-science/)

01

mysql mediumtext 最大_mysql – TINYTEXT，TEXT，MEDIUMTEXT和LONGTEXT最大存储大小

上升到@ Ankan-Zerob的挑战，这是我对每个文本类型中可以存储的最大长度的估计：

01

海外互联网市场分析之：中东北非（下）

上一篇对中东北非市场的介绍，我们分享了区域概况、特点和重点国家列举，（海外互联网市场分析之：中东北非（上））

01

海外互联网市场分析之：中东北非（上）

中东，是我很热爱的一片土地。那里的人民友好、虔诚，市场发展蓬勃，机会丰富。数一数，我实际到过的中东国家也有五六个了，最遗憾的是由于之前沙特签证政策原因，我作为女性没能进去沙特的国门，期待这个遗憾会在不久的将来可以补上。

01

车机Android开发：切换阿拉伯语UI遇到问题

大家好，我在开发过程中遇到了一个国际化的问题。当应用的UI从中文切换到阿拉伯语后，我发现PIP功能的位置没有正确进行适应改变。

04

索引技术简介

2．索引技术索引是关系型数据库里的重要概念。总的来说，索引就是拿空间换时间。数据库技术和大数据技术会有一个融合的过程，除了前面讲到的B数索引、Hash索引等，还有倒排索引、MinMax索引、BitSet索引、MDK索引等。大数据的核心是“大”，大数据索引和传统索引最主要的不同考虑点也是数据量的级别增大后索引本身也会变得很大。传统的B树索引是一个全局索引，数据量增大后，可能一台物理机的内存根本无法装下索引本身，每次插入之后，索引更新的代价会大到无法接受。索引本身的分布式需要充分考虑。另外一个变化就是很多

08

关于网站左右布局适配

新的一年加入新的公司，新的公司做新的项目。公司涉及到的项目基本都是海外的，没有国内的。做过国际化项目的同学应该知道，世界上每个国家的风俗习惯都不同。对于前端开发来说，就网页布局这方面就有正常的ltr布局，即：从左往右布局。但是在一些国家，比如阿拉伯，希伯来等国家，却有着和我们不一样的习惯，遵从了我们老祖先从右往左的阅读习惯，文字也是从右往左书写的习惯，当然是看不懂的。站在前端的角度就是rtl布局。

03

倒排索引原理和实现

搜索引擎通常检索的场景是：给定几个关键词，找出包含关键词的文档。怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词——文档矩阵模型，通过这个模型我们可以很方便知道某篇文档包含哪些关键词，某个关键词被哪些文档所包含。单词-文档矩阵的具体数据结构可以是倒排索引、签名文件、后缀树等。

02

(含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(三)

本次整理的论文同样主要偏向于Open-Domain QA，其中主要涉及到阿拉伯语的问答（这个可以尝试转变成中文的，因为这个是有源码的）、开放问答系统搭建、开放问答效率提升、基于web表的开放问答方法、开放问答模型泛化能力研究等，最后还有一篇是关于RC(Reading Comprehension)的paper，个人觉得不错所以也放到这里面了。（四篇含源码）

02

你可能不知道的字符串分割技巧

你可能会第一时间想到，用 split 按所有可能断句的标点符号分割就好了，比如下面的代码：

01

AI解决密码学家终极挑战，600年未解伏尼契手稿有望破译

来源：gizmodo.com 编译：马文【新智元导读】伏尼契手稿是一本内容不明的神秘书籍，里面充满着神秘的文字和插图。自从100多年前被发现以来，无数语言学家和密码学家对这部手稿进行了细致研究，但至今没有人能够破译出只言片语。现在，阿尔伯塔大学的NLP专家宣称利用AI技术能够破译这部天书。伏尼契手稿是一本内容不明的神秘书籍，共240页，里面充满着编码一般的文字和神秘的插图。自从100多年前被发现以来，伏尼契手稿就一直令语言学家和密码学家困惑不解，至今没有人能够破译出只言片语。但最近，利用人工智能，加拿大

斯坦福的Stanford.NLP.NET：集合多个NLP工具

-欢迎该项目包含使用使用 IKVM.NET 将 Stanford NLP.jar 软件包重新编译到.NET 中的构建脚本，这些软件经过测试可以有效工作，该工具包的介绍网站是：https://serg

08

法语MSDS是什么文件/法语MSDS是直接翻译的吗

MSDS是 Material Safety Data Sheet 英文单词首字母的缩写，直译为材料安全数据表，通常被理解为材料安全说明书。主要是通过这份文件向货运公司，使用者等接触产品的相关方说明产品有哪些危险或危害，接触过程中需要注意什么，要做好哪些防护等，随着经济发展货物流通不断加大和人们安全意识的不断提高，MSDS这样的说明资料已经被普遍要求，由于MSDS早出现在欧美等发达国家，现在对MSDS的需要还都主要集中在相关出口产品上。

03

WordPress非插件纯代码实现彻底屏蔽站点垃圾评论

不知道是从哪里来的垃圾评论，可能是谷歌来的吧，天天给我评论英文、俄文、乱七八糟的语言，本博客不但有邮件提醒还有Server 酱的提醒，到处都提醒，所以很烦的。今天我要干掉一部分垃圾评论 1. 在 WordPress 后台“设置” > “讨论” > 评论黑名单中添加相应的垃圾评论关键词即可。如在黑名单中添加“信用卡”，那么当评论的内容、评论者名称、URL、电子邮件或 IP 地址中包含其中任何关键字（如信用卡）时，系统将会禁止提交到数据库。 WordPress 讨论黑名单但是即使这样 Server 酱依旧会

03

资源 | 斯坦福大学发布Stanford.NLP.NET：集合多个NLP工具

选自斯坦福机器之心编译参与：李泽南、Smith 近日，斯坦福大学发布了 Stanford.NLP for .Net，为自然语言处理领域的开发者们提供帮助。顾名思义，它是 Stanford NLP 为.NET 准备的版本。链接：https://sergey-tihon.github.io/Stanford.NLP.NET/ 该项目包含使用使用 IKVM.NET 将 Stanford NLP.jar 软件包重新编译到.NET 中的构建脚本，这些软件经过测试可以有效工作，该工具包的介绍网站是：https:/

06

字符，字符串，字符编码的区别

字符集和字符编码一般都是成对出现的，如ASCII、IOS-8859-1、GB2312、GBK，都是即表示了字符集又表示了对应的字符编码，以后统称为编码。

02

全球10大新兴MOOC平台盘点(在线教育)

对教育、在线教育、大数据在教育领域应用的朋友，请给公众号留言，大数据文摘将组建“大数据-教育行业群”，共同讨论相关话题。如果说2012年是MOOC之年，那么2013年就是MOOC爆发之年。2013年世界各国都推出了自己的MOOC平台。MOOC学院带你环游MOOC世界，盘点世界各国MOOC平台的特点。 2012年，我们见证了Coursera、edX和Udacity三巨头的崛起。2013年，我们惊喜地发现世界各国纷纷推出了自己的MOOC平台，例如中国的学堂在线，德国的iversity，澳大利亚的Op

08

解密600年前的秘密，科学家利用AI成功破译“伏尼契手稿”第一句

唐旭编译整理量子位出品 | 公众号 QbitAI 1912年，一份残余240页、从头至尾由未知文字与奇异插图写成的手稿在罗马附近的一所耶稣会大学图书馆中被波兰书商伏尼契（《牛虻》作者艾捷尔·丽莲

Python Faker的使用，你了解多少呢？

在软件需求、开发、测试过程中，有时候需要使用一些测试数据，对这种情况，我们一般要么使用已有的系统数据，要么需要手动制造一些数据。

03

随手画个圆，你是怎么画的？我们分析了10万个圆，得到了这样的结论

大数据文摘作品编译：Niki、吕征达、笪洁琼、Harry 在读本文之前，可以先自己试着从纸上画个圆圈。再回想一下，你是从上面开始画的还是下面呢？顺时针还是逆时针？在这些问题里，可能隐藏着你来自哪里的线索。今年十一月，谷歌发布了一款叫“Quick,Draw!”的线上游戏，玩家需要在20秒内画出要求的图案，比如骆驼或洗衣机之类的。（游戏界面传送门：https://quickdraw.withgoogle.com/）这个游戏的目的远不止让你开心，真正的初衷是运用这些草图让计算机学习人如何绘画。（意味深长啊

04

倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。

03

Android支持RTL(从右向左)语言

未加入android:supportsRtl=“true” 阿拉伯语(RTL)的示例.

02

NLP被英语统治？打破成见，英语不应是「自然语言」同义词

自然语言处理（Natural Language Processing，NLP）领域的发展取决于语言资源的存在：书面、口头或手语的数字化资源集合，通常会带有高级的标签或者注释，反映了NLP系统对当前任务的预期输出（例如，语音识别系统的高级文本或者对话系统中高标准用户的意向标签，如Siri、Alexa或Google Home等）。无监督、弱监督、半监督或远程监督的机器学习技术降低了对标记数据的总体依赖性，但即使使用了这些算法，也还需要有足够的标记数据来评估系统的性能，并且通常需要更多的未标记数据集来支持需要大量数据的机器学习技术。

00

无监督式训练方法或能解决小语种机器翻译难题

来源：Science 编译：Bing 得益于神经网络的发展，机器自动翻译已取得了很大的进步。但是训练这样的网络需要有大量的数据，要向计算机展示数以百万个人类翻译的例子。现在，有两篇新的论文表明，神经网络可以无需平行文本自学翻译。这个令人惊讶的进步能让多语言的文档更容易访问。有趣的是，这两篇论文提交的时间只相差一天。论文一：Unsupervised Neural Machine Translation：https://arxiv.org/abs/1710.11041 论文二：Unsupervised M

07

Faker 都能造哪些数据

我们在测试过程中，会使用一些测试数据，测试数据有时候来自数据库里的脱敏数据，有时候需要自己造。自己造一些简单的文本还好，一些复杂的，比如身份证号，信用卡号，街道地址可就麻烦了。

02

密码学家百年来无法辨认，500年前古怪手稿的加密希伯来语被AI算法破译

大数据文摘作品编译：Niki、丁慧、龙牧雪几个世纪以来，伏尼契手稿（Voynich manuscript）一直是本人类无法理解的书，但现在我们终于可以读懂它了——这要归功于我们在手稿写成的500年后发明的机器智能。伏尼契手稿通常被称为“世界上最神秘的书籍”，它是一份可追溯到15世纪初的中世纪文本。它由复杂、未知语言书写的神秘文本组成，并附有奇怪的图表和插图，包括植物、裸体人像和天文符号。它甚至有折叠页面，非常漂亮。然而，没人知道手稿上面到底写了什么。这些文字的意义，被铭刻在古代的牛皮纸上，几百年来一

07

ex命令

ex命令用于在Ex模式下启动vim文本编辑器，ex执行效果如同vi -e，如要从Ex模式回到普通模式，则在vim中输入:vi或:visual指令即可，可以通过运行vi -e来启动ex，也可以通过运行ex -v来启动vi，ex是vim的基础，vim是世界上最受欢迎的文本编辑器之一。ex并不是另一个编辑器，应该说vi是更一般更基本的ex行编辑器的可视模式，所以ex算是vi的底层行编辑器。由于一些ex命令可以节省大量的编辑时间，因此在使用vi时它们是非常有用的，这些命令的大部分都可以在不离开vi的情况下使用。

01

人工智能如何赋能亚太区产业发展？

12月28日，“亚太区域互联网创新创业高峰论坛”在海口隆重举办。本次峰会是由海南省工业和信息化厅、海口市人民政府和澄迈县人民政府主办，龙华区人民政府、复兴城互联网创新创业园和品途集团承办，是2017海南“互联网+”创新创业节系列活动之一。本次峰会，下午的最后一个环节是主题为“人工智能如何赋能亚太区产业发展”的圆桌对话。在中国企业走出去联盟创始人程瀚文的主持下，全域医疗执行总裁孙德义、泰中侨商联合会副会长兼执行主席陈金敦、网乐创始人兼CEO欧振兴、Go Wild 创始人邱楠、中国以色列商会副总经理金思

07

谷歌详述Smart Linkify的核心动力——机器学习

本周推出的最新版谷歌移动操作系统Android Pie，其最轻松的功能之一就是Smart Linkify。它是一种API，可在文本中检测到地址，电话号码和其他此类实体时添加可点击链接。虽然这可能听起来像是魔法一般，但这一切都归功于AI。

02

你的灵魂画作都去哪儿了？“猜画小歌”背后的5000万组数据

自从退出中国的搜索引擎市场，谷歌大概无时不刻都想”卷土重来“。昨天，这家以搜索引擎著称的巨头公司用一款微信小程序“猜画小歌”占领了朋友圈“C位”，刷足存在感的同时，还顺便激发了身边一票“灵魂画手”。

02

你的灵魂画作都去哪儿了？“猜画小歌”背后的5000万组数据

自从退出中国的搜索引擎市场，谷歌大概无时不刻都想”卷土重来“。昨天，这家以搜索引擎著称的巨头公司用一款微信小程序“猜画小歌”占领了朋友圈“C位”，刷足存在感的同时，还顺便激发了身边一票“灵魂画手”。

00

亚马逊创建并开源数据集，用于理解不同语言中的名字

亚马逊已经创建并开源了一个数据集，用于训练AI模型以识别不同语言和脚本类型的名称，因此Alexa可以例如在英语发音者发音时理解日本艺术家或人的名字，反之亦然。

02

Execute 方法（Find 对象）

Execute 方法（Find 对象）运行指定的查找操作。如果查找成功，则返回 True。语法 expression.Execute(FindText, MatchCase, MatchWholeWord, MatchWildcards, MatchSoundsLike, MatchAllWordForms, Forward, Wrap, Format, ReplaceWith, Replace, MatchKashida, MatchDiacritics, MatchAlefHamza, MatchC

07

Google翻译将离线翻译质量提高了20％

昨日下午，科技巨头谷歌宣布，其免费多语言机器翻译服务“翻译”(Translate)现在已经变得更加强大。在某些情况下，离线翻译的准确性提高了一个数量级，翻译质量获得了极大的提升。

02

你为自己的产品做好战略规划了吗？（市场用户篇）

在我初入职场的第一份工作时，我的一位领导——当时公司的HRVP曾跟我分享的一个职业化经验，一直让我记忆犹新，获益匪浅：他告诉我，能不能做一名好的管理者，问问题的能力是其中一项很重要的能力。做事情、完成任务，能够正确的问出问题、问正确的问题是关键的那个“1”。做战略规划，更是这样。

01

为了消灭不友好评论，ins用200万条数据训练了FB的DeepText

安妮编译整理量子位出品 | 公众号 QbitAI 网络言论环境也该净化一下了，倡导言论自由的美国也意识到了这点。昨天，图片社交平台Instagram推出两种文本过滤器：一种可以抵制冒犯性评论，一

04

纽约时报记者的手机两次被NSO Group的Pegasus间谍软件感染

美国《纽约时报》记者本·哈伯德（Ben Hubbard）24日在该报网站上发文表示，自己的iphone手机曾两度被以色列技术公司NSO Group 的 Pegasus 间谍软件入侵感染。

02

Facebook AI导致人被抓，谁来背锅？

前段时间和Bittiger的冯总聊天。他有一个伟大的愿望，每天更新，争取写一万篇文章。这个让我深受启发。我意识到也许每天写点东西不是一个坏事。很多时候写作习惯是需要养成的。也许我今天写的文章不怎么样，起码我也在写了。今天聊的不是什么大的话题。看到全国人民都在为去不去金拱门吃炸鸡而困惑，想想自己在国外估计还是照样见不到金拱门，有点遗憾。早上看到了这则新闻。新闻说一位在约旦河西岸的巴勒斯坦建筑工人在他的推土机旁边，说了一声早安。结果Facebook的AI自动翻译成了“伤害他们”。而以色列警方则根据Fac

06

自然语言不等于英语，为什么NLPer应当认识到这个问题，以及该怎么做？

自然语言并不等于英语。然而，目前NLP的研究中，大家潜意识里却认为英语是一种具有足够代表性的语言。而除英语以外的其他语言研究则通常被认为是“特殊语言”，在审稿人的眼中同等情况下对它们的研究则不如英语研究重要。这本质上是对语言的“以偏概全”。近日华盛顿大学语言学家Emily M. Bender为此撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》，指出其中存在的问题，以及提出对学习语言进行命名和标记的方案。AI科技评论对其文章做如下不改变原意的编译。

00

MySQL中char、varchar和text的区别

1.char：存储定长数据很方便，CHAR字段上的索引效率级高，必须在括号里定义长度，可以有默认值，比如定义char(10)，那么不论你存储的数据是否达到了10个字节，都要占去10个字节的空间（自动用空格填充），且在检索的时候后面的空格会隐藏掉，所以检索出来的数据需要记得用什么trim之类的函数去过滤空格。 2.varchar：存储变长数据，但存储效率没有CHAR高，必须在括号里定义长度，可以有默认值。保存数据的时候，不进行空格自动填充，而且如果数据存在空格时，当值保存和检索时尾部的空格仍会保留。另外，varchar类型的实际长度是它的值的实际长度+1，这一个字节用于保存实际使用了多大的长度。 3.text：存储可变长度的非Unicode数据，最大长度为2^31-1个字符。text列不能有默认值，存储或检索过程中，不存在大小写转换，后面如果指定长度，不会报错误，但是这个长度是不起作用的，意思就是你插入数据的时候，超过你指定的长度还是可以正常插入。

01

MySQL中char、varchar和text的区别

它们的存储方式和数据的检索方式都不一样。数据的检索效率是：char > varchar > text 空间占用方面，就要具体情况具体分析了。

04

[AI测试]python文字图像识别tesseract

github官网：https://github.com/tesseract-ocr/tesseract

03

关于跨语种语言模型的讨论

最近，一个预先训练的模型被证明可以改善下游问题。Lample和Conneau提出了两个新的培训目标来培训跨语言语言模型(XLM)。这种方法可以实现跨语言自然语言推理(XNLI)的最新成果。另一方面，wada和iwata提出了另一种无需并行数据学习跨语言文本表示的方法。他们将其命名为多语言神经语言模型。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭