如何在乌尔都语中截断字符串

在乌尔都语中，可以使用以下方法来截断字符串：

使用字符串切片：可以使用切片操作符来截取字符串的一部分。切片操作符使用方括号表示，可以指定起始位置和结束位置来截取字符串的子串。例如，如果要截取字符串的前五个字符，可以使用以下代码：

string = "میرا نام ہیں جون"
substring = string[:5]
print(substring)

输出结果为："میرا"

使用字符串函数：乌尔都语中的字符串也可以使用各种字符串函数来截断。例如，可以使用split()函数将字符串分割成多个部分，然后选择需要的部分。例如，如果要截取字符串中的第一个单词，可以使用以下代码：

string = "میرا نام ہیں جون"
words = string.split()
substring = words[0]
print(substring)

输出结果为："میرا"

使用正则表达式：如果需要更复杂的字符串截断操作，可以使用正则表达式来匹配和提取需要的部分。正则表达式是一种强大的模式匹配工具，可以根据特定的模式来匹配和提取字符串。例如，如果要截取字符串中的数字部分，可以使用以下代码：

import re

string = "میرا نمبر ہے 12345"
pattern = r'\d+'
match = re.search(pattern, string)
if match:
    substring = match.group()
    print(substring)

输出结果为："12345"

以上是在乌尔都语中截断字符串的几种常见方法。根据具体的需求和场景，可以选择适合的方法来截断字符串。

相关·内容

资源 | FAIR & NYU开发XNLI语料库：15种语言（含低资源语言）

Conneau等机器之心编译参与：路、王淑婷近日，FAIR 和纽约大学的研究者合作开发了一个新的自然语言推断语料库 XNLI，该语料库将 MultiNLI 的测试集和开发集扩展到 15 种语言，包括斯瓦西里语和乌尔都语等低资源语言...研究者使用文本蕴含标注这些句对，然后将这些句子翻译成 14 种语言：法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印度语、斯瓦西里语和乌尔都语，这就有 11.25...这些语言涉及多个语系，包括斯瓦西里语和乌尔都语这两种低资源语言。...XNLI 为低资源语言（如斯瓦西里语和乌尔都语）提供额外的开放平行数据。...本研究将 MultiNLI 的开发集和测试集扩展到 15 种语言（包括斯瓦西里语和乌尔都语等低资源语言），从而构建了一个 XLU 的评估集。

1.8K3 0

Facebook全新无监督机器翻译法，BLUE测试提升超过10分！

这个单语模型比较好获得，只要有小语种（比如乌尔都语）的大量单语数据集就可以。英语的单语模型则更好构建了。通过使用单语模型对逐字翻译模型进行优化，就得到了一个比较原始的机器翻译系统。...接下来，Facebook研究人员再将这些机器翻译所得到的句子（从乌尔都语到英语的翻译）作为ground truth，用于训练从英语到乌尔都语的机器翻译。这种技术最先由R....不可否认，由于第一个系统（从乌尔都语到英语的原始机器翻译系统）的翻译错误，作为训练数据输入的英语句子质量并不高，因此第二个反向翻译系统输出的乌尔都语翻译效果可想而知。...不过，有了刚才训练好的那个乌尔都语单语模型，就可以用它来对第二个反向翻译系统输出的乌尔都语译文进行校正，从而不断优化、迭代，逐渐完善第二个反向翻译系统。...研究人员还测试了在语种上相隔较远的语种（英俄），训练资源较少的语种（英语—罗马尼亚语），以及语种相隔极远且训练资源极少的语种（英语—乌尔都语）的翻译。

9072 0

Facebook无监督机器学习翻译突破，表现优于监督模型

当从一种语言到另一种语言的翻译示例没有很多时（例如从英语到乌尔都语），Facebook使用无监督的机器学习来翻译其平台上的内容。...Facebook AI Research（FAIR）巴黎实验室主任Antoine Bordes表示，该方法由FAIR设计，并在FAIR与公司应用机器学习部门的合作中在平台上使用。...“当你处理像英语到乌尔都语这样的案例时，翻译示例很少，我们的系统比监督系统更好。因此，训练无监督系统比没有足够数据的监督系统更好，”Bordes说。...训练逐字翻译以基于从前面的五个单词和句子中的特定单词之后的五个单词绘制的上下文来预测单词。这个词嵌入方法是在去年秋天Lample和Ranzato共同撰写的一篇论文中提出的。...然后，用大量数据训练的语言模型（如书籍或其他书面文本）用于排列对于英语使用者或乌尔都语说话者有意义的结构中的句子。最后，使用反向翻译来改进使用逐字翻译和语言模型进行的翻译。

5021 0

脸书采用无监督机器学习提供翻译服务

由于缺少从一种语言到另一种语言的很多翻译示例——例如从英语到乌尔都语（Urdu），Facebook（脸书）公司已经开始使用无监督的机器学习来翻译其平台上的内容。...在实验中，该方法的表现与经过10万次翻译训练的有监督模型相当，并且在翻译示例很少的情况下，其表现优于Facebook的语言匹配系统。...Bordes说：“当你处理像英语到乌尔都语这样的案例很少的翻译任务时，我们系统的表现超过了有监督的系统。因此，在没有足够数据的时候，训练无监督系统比有监督系统更好。”...逐字翻译的训练原理为：根据一个句子中某个字的前面五个单词和后面五个单词来推测其上下文含义，然后对该单词进行预测。...然后，使用大量数据（如书籍或其他书面文本）训练的语言模型被用于按照英语或乌尔都语使用者能够理解的结构来安排句子。最后，使用反向翻译来改进通过逐字翻译和语言模型获得的翻译结果。

5264 0

翻译们又要失业？Facebook最新无监督机器翻译成果，BLEU提升10个点！

对于从乌尔都语到英语等没有句子对的语言翻译而言，翻译系统则显得无能为力。从那时起，研究人员就开始构建无需句子对也能翻译的系统，无监督神经机器翻译（UNMT）就是其一。...实际上，该项研究使得很多没有平行文本的语言翻译变得更为容易，如从乌尔都语到英语的翻译。 ▌研究原理 1、字节对编码：不像此前为系统提供完整单词的方式，只给系统提供单词的一部分。...此外，不同语言的嵌入词有相似的领域结构，这在于世界各地的人都拥有相同的物理环境。...例如，英语中的单词“cat”和“furry”之间的关系类似于它们在西班牙语中的相应翻译（“gato”和“peludo”），因为这些单词的频率和其上下文是相似的。...该系统将学习如何在没有盖子的情况下，在图像周围移动像素以生成有盖子的图像。目前，Facebook 人工智能实验室将免费开放代码，方便开发者获取搭建系统。

1.1K4 0

App出海本地化时遇到复杂语言？华为多语言检查服务有大招！

如同芸芸众生中的千人千面，全世界使用的语言如此之多，肯定有其独特之处。不过这里说的复杂语言，是从计算机显示文字的角度来讲的。在计算机系统里，文字都是以二进制编码存储的。...这个过程中，编码与图形是一一对应的，关系比较简单。而我们所说的复杂文字，就是这一套系统无法直接显示，需要进行额外处理的文字。具体需要额外处理的文字有哪些呢？...举几个例子（并非全部）：比如整形使用阿拉伯文字的许多语言，如阿拉伯语、波斯语、乌尔都语、维吾尔语等，都存在根据字母在单词中所处位置不同而字形不同的情况。一般分为词首、词中、词尾三种形态。...下图用黑色表示原本的字母字形，而用不同颜色表示了同一个字母在词首、词中、词尾的不同字形。例1 在另外一些语言中，部分字形会根据其组合的字符发生变化。...目前该服务提供的拼写检查已经覆盖了多个复杂语言，如阿拉伯语、藏语、波斯语、印地语、希伯来语、缅甸语等。除了拼写检查之外，同时也支持单复数的检查。力不能及的地方，就让工具来帮忙吧。

9334 0

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

基于文本的图像生成（text-guided image generation）模型，如DALL-E 2大火后，网友们也是乐此不疲地生成各种搞怪图像。...2208.04135.pdf 作者提出两种构造prompt的方法，第一种称之为macaronic prompting，其中macaronic一词的原意指多种语言的单词进行混合后生成新的词汇，比如说在巴基斯坦，乌尔都语和英语的混合词就很常见...比如鸟（birds）这个词在德语里是Vögel，用意大利语是uccelli，用法语是oiseaux，西班牙语是pájaros，在CLIP模型使用byte pair encoding(BPE)算法对输入提示句进行分词后...虽然不同的文本指导的图像生成模型有不同的架构、训练数据和分词方法，但原则上，macaronic提示可以应用于任何在多语言数据上训练的模型，比如在DALL-E mini模型中也能发现相同的效果。...可以生成传统上可怕的「爬行动物」的图像，如蝎子。

5332 0

真实 VS 合成，我们需要的真实数据微乎其微？| 一周最火AI论文

这些数据包括28万多小时的广播中近28亿字的转录语音，以及有关语音的元数据。本研究使用一个转录系统检查新的音频文件并将其转录后写回到数据中。...该模型在四种不同的语言情感数据集上进行了评估，包括乌尔都语数据集，该数据集还包含了其他语言，这些语言的标签数据很难找到，而且主流社会对这些语言的研究也不多。...乌尔都语是巴基斯坦的官方民族语言和印度宪法承认的22种官方语言之一。结果表明，该模型可以显著提高所有数据集（包括非主流的乌尔都语数据）的基线跨语言SER性能，而不需要任何标签。...你能说出神经网络中的操作是怎样起作用的吗？除了指示网络的权重和基本操作之外，我们能够说出它如何将图像分类为猫或狗，或者它如何在多个动作中做出选择吗？...他们研究了哪种刺激可以欺骗系统，并且可视化了网络中的元素。通过移除网络中的单元，他们可以分析系统在受干扰情况下的反应。

1.6K1 0

200+语言任意互译，新开源的大模型让粤语靓仔直接喜大普奔

这其中，中文分为简体繁体和粤语三种，而除了中英法日语等常用语种外，还包括了许多小众语言 △NLLB支持的部分语种截图由于这些语言之间都可以两两互译，所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了...除了AI业内关心他们如何支持语料稀缺的冷门语言，以及如何在BLEU基准测试上提高7个点以外。也有来自西非的网友认为，语言障碍正是全球互联网用户数量进一步增长的关键。...如果质量评估表明，质量在90%以上，则认为该语言可以被纳入Flores-200中。最终，Flores-200中包含了842篇不同文章的翻译，共3001个句子。...用监督方式训练的LID模型在看似流畅的句子上，可能难以识别处不正确语法和不完整的字符串。此外，LID很容易学习到没有意义的相关性。...所以，在这个LID开发的不同阶段，工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。

6011 0

ubuntu输入法ibus

sudo apt-get install ibus-m17n 这个软件包包含了几乎所有除了英语，中日韩等的其他输入法，如：阿拉伯语，阿姆哈拉语，阿萨姆语，阿萨帕斯坎诸语，奥杰布瓦语，白俄罗斯语，波斯语，...藏语，傣语，丹麦语，迪维希语，俄语，法语，梵语，高棉语，格鲁吉亚语，古典希腊语，古吉拉特语，哈萨克语，捷克语，卡纳达语，克里语，克罗地亚语，克什米尔语，老挝语，马拉提语，马拉雅拉姆语，孟加拉语，缅甸语，...尼泊尔语，旁遮普语，普什图语，日语，瑞典语，瑞典，塞尔维亚语，僧加罗语，世界语，斯洛伐克语，四川彝族语，泰卢固语，泰米尔语，泰语，维吾尔语，乌兹别克语，乌尔都语，希伯来语，现代希腊语，信德语，亚美尼亚语...，伊努伊特语，依地语，印地语，越南，占语，朝鲜，latex输入特殊符号，input-pad等。

3851 0

iOS MachineLearning 系列（11）—— 自然语言识别与文本分析

语言识别是其他高级自然语言处理任务的基础，本篇文章还将介绍NaturalLanguage关于文本分析的能力，其能够对文本中的人名，地名和组织名进行识别，也可以对词性进行分析，如动词，名词。...首先初始化一个NLLanguageRecognizer实例，如下： let recognizer = NLLanguageRecognizer() 可以定义一些示例的字符串来测试识别能力，如： let...属性即可获取到这段文本所使用的最接近的语言，例如上面的示例字符串中，string1和string2是比较单纯的中文和英文，string3是日语，日语中很多字是和中文一样的，因此对其进行识别可能会出现误差...// 乌尔都语 public static let urdu: NLLanguage // 越南语 public static let vietnamese: NLLanguage...效果如下： nameType 此方案用来解析文本中的组织名，地名，人名。同样对英文支持较好，如下：可以看到，其中国家的名字，人名和城市名都正确的解析了出来。

8001 0

资源 | 囊括欧亚非大陆多种语言的25个平行语料库数据集（拿走不谢！）

、普什图语和乌尔都语电话会话语音，并附有语音分割标注。...地址：https://catalog.ldc.upenn.edu/LDC2018T17 Arabizi Text：自动检测英语和阿拉伯语混合文本中语码转换的训练数据，包含 522 条推特。...源文本是 2013 年 5 月从阿拉伯版《Le Monde Diplomatique》中收集的文章。...地址：http://opus.nlpl.eu/hrenWaC.php Catalan-Spanish：从加泰罗尼亚政府官方刊物中收集的加泰罗尼亚语和西班牙语文档合集。...、泰米尔语和乌尔都语。

3K4 1

文字转语音

学习如何将文字转换为栩栩如生的口头语音介绍音频 API 提供基于我们的 TTS（文本到语音）模型的语音端点。...当前的语音都针对英语进行了优化。...Alloy ...Echo ...Fable ...Onyx ...Nova ...Shimmer ...支持的输出格式默认的响应格式是 "mp3"，但其他格式如 "opus"、"aac"、"flac"...毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、塔加洛语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语...某些因素可能会影响输出音频，如大小写或语法，但我们对这些因素进行的内部测试结果参差不齐。我能否创建自己声音的自定义副本？不，这不是我们支持的功能。我拥有输出的音频文件吗？

4181 0

输出不详宗教预言，Google翻译为何“水逆”了？

例如，在索马里语中，“ag”这个词被翻译成了“Gershon 的儿子（sons of Gershon）”，“耶和华的名字（name of the LORD）”，并且会引用圣经里的“cubits”（计量单位...他还指出，索马里语、夏威夷语以及毛利语等产生最奇怪结果的语言，它们用于训练的翻译文本比英语或汉语等更广泛使用的语言要少很多。...比如，如果你为政府部署一个 Urdu-to-English （乌尔都语——英语）的机器翻译系统，那么很容易将一堆已经翻译成乌尔都语的宗教文本组合在一起。...在传统的 SMT 系统中，如基于短语的翻译系统，语句对齐能够提供有用的调试信息来检查模型。但即便论文中经常将软注意力机制视为“软对齐”，注意力机制并不是传统意义上的对齐。...在 NMT 系统中，除了源域中的动词外，目标中的动词也可以作为主语和宾语。

4302 0

机器翻译做到头了？Meta开源NLLB翻译模型，支持200种语言互译

▲NLLB支持的部分语种截图由于这些语言之间都可以两两互译，所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了。一位用粤语的靓仔看到这里直接喜大普奔。...除了AI业内关心他们如何支持语料稀缺的冷门语言，以及如何在BLEU基准测试上提高7个点以外。也有来自西非的网友认为，语言障碍正是全球互联网用户数量进一步增长的关键。...如果质量评估表明，质量在90%以上，则认为该语言可以被纳入Flores-200中。最终，Flores-200中包含了842篇不同文章的翻译，共3001个句子。...用监督方式训练的LID模型在看似流畅的句子上，可能难以识别处不正确语法和不完整的字符串。此外，LID很容易学习到没有意义的相关性。...所以，在这个LID开发的不同阶段，工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。

8.9K1 0

CVE-2017-12824及利用样本分析

0x01页内该介绍引自维基百科 InPage是一种文字处理程序和页面布局软件，最初在1994年开发，适用于Windows和Mac平台下的乌尔都语，Balochi，波斯语，普什图语和阿拉伯语等语言。...通过连续两个0x416E3453(字符串"An4S")标志进行定位其Shellcode起始位置： ? 跳转到Shellcode之后，先获取PE文件(DLL文件Backdoor)起始位置： ?...根据重定位项数组中的重定位数据进行重定位： ? 修复输入表： ?...清空内存内容，用于后续存储字符串： ? 拼接字符串： ? ? image.png 向C:\Windows\Tasks\tss.js这一JS文件中写入内容： ?...保存到文件： image.png 向staEnd.dll文件中写入内容： image.png image.png 向file.inp文件中写入内容： ?

8251 0

Google翻译将离线翻译质量提高了20％

对于一些语言，包括日语、韩语、泰语、波兰语和印地语，质量提高超过20%。...在一个相关的改进中，Translate now为10种新语言提供了离线音译支持，包括但不限于：阿拉伯语、孟加拉语、古吉拉特语、卡纳达语、马拉地语、泰米尔语、泰卢固语和乌尔都语。...更重要的是，一个新的改进版本助手也在紧锣密鼓的研发中。它的英文模式离线工作，能以“几乎零”的延迟处理语音，提供答案的速度也会比上一代快10倍。

1.2K2 0

一种获取NLP语料的基本方法

lo 老挝语 sh 塞尔维亚-克罗地亚语 af 南非语 gd 苏格兰盖尔语 lt 立陶宛语 si 僧伽罗语 ak 阿坎语 gl 加利西亚语 lu 卢巴语 sk 斯洛伐克语 am 阿姆哈拉语 gn 瓜拉尼语...ms 马来语 sv 瑞典语 bh 比哈尔语 hy 亚美尼亚语 mt 马耳他语 sw 斯瓦希里语 bi 比斯拉马语 hz 赫雷罗语 my 缅甸语 ta 泰米尔语 bm 班巴拉语 ia 因特语 na 瑙鲁语...kg 刚果语 om 奥罗莫语 ug 维吾尔语 da 丹麦语 ki 基库尤语 or 奥里亚语 uk 乌克兰语 de 德语 kj 宽亚玛语 os 奥塞梯语 ur 乌尔都语 dv 迪维西语 kk 哈萨克语 pa...WikiExtractor -o extracted_xml --process 2 -b 512K --json zhwiki-latest-pages-articles.xml.bz2 每个生成的文件中，...如何提取 JSON 格式字符串中的 text 内容？可以使用json.loads()方法将符合 JSON 格式的字符串转换为 Python 中的字典。

1.9K2 0

58岁PDF发明人离世！他给男友订了一架直升机，从此相伴13年

如果你在电脑上使用过阿拉伯语、波斯语、乌尔都语或中文，你用过他的代码。如果你玩过Xbox，你就用过他的代码。」正如这份美丽的讣告所言，Alan总是把工作看作与人沟通的途径。...他是发明PDF的核心团队成员之一，他和同事一起，构建了支持阿拉伯语、波斯语和乌尔都语等语言的打印机驱动程序，这是一个将数据转换为可打印格式的软件。...「每个人都知道有问题就去问Alan，他可以直接回答，」Shorey说。「这比在谷歌上搜索快得多。」 Shorey说Alan是他见过的最聪明的人之一。...目前，Paul McLachlan就职于号称是「特斯拉杀手」的电动汽车公司Rivian，在产品开发组织中领导核心电池数据团队。...除了多种相互竞争的文字处理器格式（如Microsoft Word和Corel WordPerfect）外，并没有一种可靠的方法，可以在不同的软件和操作系统中查看含有图像或其他布局元素的文件。

2792 0

开发 | Facebook 开源增强版 LASER 库：可实现 93 种语言的零样本迁移

该工具包现在可应用于使用 28 种不同的字符串编写的 90 多种语言也就是说，它将所有语言一同嵌入到一个独立的共享空间中（而不是为每一种语言都创建一个单独的模型），从而实现在 90 多种语言中的应用。...Facebook 在与英语和西班牙语对齐的公共平行数据中的 2.23 亿个句子上训练他们的系统，对于每个小批量，他们都随机选择一种输入语言，并训练系统将句子翻译成英语或者西班牙语。...融入到 LASER 的 93 种语言包括主动宾（SVO）顺序的语言（如英语）、主宾动（SOV）顺序的语言（如孟加拉语和土耳其语）、动主宾（VSO）顺序的语言（如塔加路语和柏柏尔语），甚至是动宾主（VOS...）顺序的语言（如马达加斯加语）。...同时，该模型也在斯瓦希里语和乌尔都语等低资源的语言上表现出色。最终，对于 14 种语言，LASER 在其中的 13 种语言上的零样本迁移表现，都超越了此前的所有方法。

1.5K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云