中国如今的主流译制模式是配音和字幕,后两种译制模式主要是在1940年代的上海以「译意风」的形式流行过。「译意风」是IBM公司发明的一种用于传译的设备,其实就是一个配备耳机的无线电收音机,让观众可以听到影院广播中心播出的翻译。当时从事好莱坞电影旁白、解说工作的姑娘被亲切地称呼为「译意风小姐」。
字幕的祖宗是「字幕卡」(intertitles)。早年的无声电影里,所有要用语言表达的内容都是印在硬纸板上然后拍下来,插在电影的序列之间来辅助讲故事。早期字幕卡上的文字已经具备现代字幕的一些特点,比如用标点符号来辅助阅读(这一点在中文影视圈还需加强),比如在字幕卡的结尾用三点省略号来表示这个句子尚未完结。字幕卡的最早应用是在1903年Edwin S. Porter导演的电影《汤姆叔叔的小屋》中。在无声电影时代,电影的翻译是一件相对轻松的工作。片源中的字幕卡可以剔除,再翻译,再印在硬纸板上拍摄下来填回到电影里。
中国的公司感觉风水不好,就换一下大门。而国外的公司觉得风水不好,就改名称。算是各有特色吧。
很多人每天花费大量时间使用移动设备键盘:撰写电子邮件,发短信,参与社交媒体等。 然而,移动键盘仍然在处理速度方面处于劣势。 用户平均在移动设备上的打字速度比在物理键盘上慢35%。 为了改变这一点,最近谷歌团队为Gboard for Android提供了许多改进,致力于创建一个智能机制的 键盘,能够为用户以任何选择的语言提供建议和纠正错误,从而实现更快更高质量的输入。 事实上,移动键盘将触摸输入转换为文本的方式类似于语音识别系统将语音输入转换为文本的方式,雷锋网了解到,该团队将利用语音识别的经验来实现触摸输入
Black Hat 2015召开在即,现在随小编一起瞅瞅下个月将在Black Hat USA公布的一些Android安全威胁吧。 64位Android Root 最近有很多关于智能手机Root是否会导致手机更危险的争论。 不过我们希望网络犯罪分子不会恶意利用由Keen Team的实习研究员徐闻(音译)将在BlackHat黑客大会上公布的0day漏洞。这个漏洞会给攻击者提供入侵的便利,可以让他们控制任何Android 4.3版或更新版本的设备(大约30.3%的全球手机/平板电脑使用的操作系统)。 隐藏在And
我仔细看了一下,原来Rstudio新建的脚本,默认的是R脚本,如果想要运行Python,需要新建Python脚本。
亚马逊已经创建并开源了一个数据集,用于训练AI模型以识别不同语言和脚本类型的名称,因此Alexa可以例如在英语发音者发音时理解日本艺术家或人的名字,反之亦然。
陈桦 编译整理 量子位 报道 | 公众号 QbitAI 现在,大部分人的日常生活,都离不开手机上的虚拟键盘,而这其中的大部分人都会觉得虚拟键盘不好用。数据显示,相对于实体键盘,用户用虚拟键盘打字的速度要慢35%。 于是,谷歌又看到了人工智能技术的用武之地。他们优化了Android系统的Gboard输入法,目标是建立智能化机制,无论你选择什么语言都能带来更快的输入速度,并提供拼写建议和错误更正功能。 Google Research官方博客昨天发布文章,介绍了他们对Gboard的优化,量子位编译如下: 我们注意
这一方法极大的简化了肉质检测的流程和方法。 日常生活中,商家总是在牛肉、羊肉等产量低的肉中兑一定浓度的其他动物的肉来增加肉的产量。针对这一问题,哥伦比亚大学的陆晓楠(音译)教授领导研究团队推出一种新的简易测试方法,该方法在五分钟就可以检测出结果。 目前,食品机构的官方人员都是采用DNA鉴定的方法来对肉质品进行质量检测,虽然这种方法是高效的且准确度很高,但是DNA测试无法将同一物种的肉类混合肉(如杂碎、肝脏、肾脏和肠胃混合在一起的肉)分辨出。 而陆及其研究团队只利用光谱仪和数据软件分析,就可以达到在检测混合肉
【小编注】从这一篇开始,小编将发一些与“结构化学”课程相关的小短文,来自自己在教学过程中的一些思考。另一方面,也由于本人所在学校“结构化学”课程为48课时,且包含晶体结构,所以会有一些内容无法在课堂上讲授,就在本公众号中作扩展介绍。
近些年来,随着自动语音识别(ASR)技术的发展,识别准确率有了很大的提升。但是,在 ASR 转写结果中,仍然存在一些对人类来说非常明显的错误。我们并不需要听音频,仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识,甚至推理的能力。得益于最近无监督预训练语言模型技术的发展,基于纯文本特征的纠错模型可以有效地解决这类问题。
近些年来,随着自动语音识别(ASR)技术的发展,识别准确率有了很大的提升。但是,在ASR转写结果中,仍然存在一些对人类来说非常明显的错误。我们并不需要听音频,仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识,甚至推理的能力。
这篇论文的作者是来自于Google Research的Telmo Pires,Eva Schlinger和Dan Garrette。既然BERT能够在每一层都学习到特殊的表层、句法以及语义特征表示,那么多语言BERT(M-BERT)在上面学到了什么呢?多语言BERT在零样本迁移学习上又表现如何呢?
目前零成本搭建博客的方式也有很多;比如:GitHub Pages,先说一下缺点吧,由于是国外的开源代码托管平台,访问的时候不太稳定;优点就是可以免费,而且没有第三方博客的广告链接。那有没有访问相对稳定又免费的呢,答案是:有的!那就是Gitee Pages.
1、位(bit) 来自英文bit,音译为“比特”,表示二进制位。位是计算机内部数据储存的最小单位。
大数据文摘授权转载自AI前线 作者:凌敏、核子可乐 据路透社报道,美国司法部当地时间周二声称,前苹果软件工程师王伟宝(音译:Weibao Wang)盗窃苹果公司的机密自动驾驶技术数千份文件并已逃往中国。 据称,王伟宝于 2016 年受聘担任苹果公司软件工程师,负责该公司的机密自动驾驶项目,又名“泰坦计划”。但 18 个月后,王伟宝接受了另一家总部位于中国的公司提供的自动驾驶研发岗位。起诉书称,他在接洽新东家的 4 个月后才告知苹果自己打算跳槽。 司法部认为,在王伟宝于 2018 年为苹果公司完成最后一天工作
1、计算机存储信息的最小单位,称之为位(bit),音译为比特,二进制的一个“0”或一个“1”叫一位。 2、计算机存储容量基本单位是字节(Byte),音译为拜特,8个二进制位组成1个字节。一般而言:一个标准英文字母占一个字节位置,一个标准汉字占二个字节位置。 3、计算机存储容量大小以字节数来度量,1024进位制: 1024B=1K(千)B 1024KB=1M(兆)B 1024MB=1G(吉)B 1024GB=1T(太)B 以下还有PB、EB、ZB、YB 、NB、DB,一般人不常使用了。 4、字符是一种符号,同以上说的存储单位不是一回事。
与字幕译制的形式相比,配音的主要劣势在于丧失了原片的原汁原味,使观众无法欣赏到原片的声音艺术,无法领略原演员的台词艺术。对于一个电影迷来说,如果电影是字幕译制而非配音译制,至少,在于第二次、第三次重温影片的时候,因为已经熟悉了情节,不再需要时时留意字幕,便能更好地理解影片的艺术价值,这是配音译制片无法提供的。但字幕并非原片内容的完美转达,在字幕译制过程中,有很多客观条件限制了非母语观众对原片内容的了解,使翻译人员有很多力不能及的地方。
HanLP 词性标注列表 字母 描述 a 形容词 f 方位词 mq 数量词 nn 工作相关名词 ad 副形词 g 学术词汇 n 名词 nnd 职业 ag 形容词性语素 gb 生物相关词汇 nb 生物名 nnt 职务职称 al 形容词性惯用语 gbc 生物类别 nba 动物名 nr 人名 an 名形词 gc 化学相关词汇 nbc 动物纲目 nr1 复姓 b 区别词 gg 地理地质相关词汇 nbp 植物名 nr2 蒙古姓名 begin 仅用于始##始 gi 计算机相关词汇 nf 食品,比如“
这些年做技术接触了很多行业,很多从业者,对此也有些感触。你是否也有同样的困惑或者理解:找来找去,试来试去,始终还是这么几个利基最坚挺,最有利可图。
蝙蝠使用生物声呐,为夜晚在丛林中飞行导航。他们的超声波脉冲,可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力,IBM 学院奖获得者 Rolf Müller 教授协同他在弗吉尼亚理工学院(Virginia Tech)的团队,设计了一种人造蝙蝠耳。 Rolf Müller 的研究引起了 IBM 的注意。IBM 专家韩金萍(音译)的神经计算团队,和 IBM Watson 语音专家崔晓东(音译)和他的同事, 看到了 Müller 教授人造“动态外耳”(dynamic peripheral,蝙蝠可转
如果不深入追究下的话,开始的时候经常是一头雾水,其实这个所谓的散列就是我们常说的 Hash。
Zilliz AI 初创计划是面向 AI 初创企业推出的一项扶持计划,预计提供总计 1000 万元的 Zilliz Cloud 抵扣金,致力于帮助 AI 开发者构建高效的非结构化数据管理系统,助力打造高质量 AI 服务与运用,加速产业落地。文末点击[阅读原文]了解更多。
周俊凯(Junkai Zhou,音译)的办公室坐落在东沙河的边缘,这是一条静谧的河,它把将位于中国中部河南省的31.8万人的小县城民权县新旧两个部分区分开来。在这里,19岁的周俊凯和他26岁的堂兄今年夏天一起创办了他们的小型数据贴标工厂。
假设原网盘网址是http://pan.baidu.com/share/linkshareid=76297&uk=3033397054
第一步: 判断数据中是否存在重复数据 创建python文件– 代码框架 ''' author: kzb time: 2018-12-10 ''' import pandas as pd import os,csv dataPath = os.path.join("音译原始数据.csv") def import_data(dataPath): ''' 导入文件中的数据 return:dataFrame ''' pass def find_En_Cn_excess(dataFrame
不,我这是在扮演Apache Server(阿帕奇服务器,Apache 又有印第安阿帕切族的意思)
近年来,机器学习和人工智能迅速出现,为提高商业效率带来了希望。与此同时,研究人员几乎没有发现任何证据支持劳动生产率和经济活动因此取得的进展。
Mac 更新了一下系统,finder 翻译成了 访达,v2ex上对此的评论也是褒贬不一,刚上来看到这个“访达”的时候是这个表情。
据彭博社北京时间4月10日报道,大疆创新科技公司正在改进针对农业喷药、工业测量以及高端电影拍摄领域的无人机。为了扩大自身在民用无人机领域的主导地位,大疆投入了25%的员工进行研发。 大疆MG-1农业植
Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。
抱脸:https://huggingface.co/sd-concepts-library
分析结果表明,就性价比而言,该钠基电池优于锂基电池;而单就性能来看,该新型钠基电池优于市面上80%的锂基电池。 锂电池的成本问题 无论是推出最新超级电池的东芝,还是一直在电池技术上处于霸主地位的特斯拉,他们采用的电池都是基于锂,也就是大家常说的锂电池。 锂电池是一类由锂金属或锂合金为负极材料、使用非水电解质溶液的电池。1912年锂金属电池最早由Gilbert N. Lewis提出并研究,20世纪70年代时,M. S. Whittingham提出并开始研究锂离子电池。 由于锂的化学性质非常活泼,使得在锂的加工
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概览。选取的参考文献与资料都侧重于最新的深度学习研究成果。这些资源能为想要深入钻研一个NLP任务的人们提供一个良好的开端。 指代消解 https://github.com/Kyubyong/nlp_tasks#coreference-resolution 论文自动评分 论文:Automatic Text Scoring Using Neural Net
我爬取的是 https://myingwenming.911cha.com 网站,采集的是网站中的中文音译、名字性别、来源语种、名字寓意、名字印象、名字含义6个数据。我分别设置namesChineseTransliteration、namesGender、namesFromLanguage、namesMoral、namesImpression、namesMeaning等6个字段来存放相应的数据。
该研究团队对现代芯片中发现的内存管理系统略有修改,从而避免元数据繁杂传输过程。 传统的计算机上,微处理芯片是封装在主板上的,其底部装有杜邦线,数据通过线路在微处理器和主存之间传输。 后来,随着晶体管数的增加,微处理器和主存之间的传输速度成为提升计算机性能的主要障碍,因此,近年来,芯片制造商已经开始将动态随机存取存储器(DRAM)作为主存储器的存储器类型。 虽然DRAM可以实现高容量缓存且可以快速得将常用数据存储到本地,但是DRAM与通常用于片上高速缓存的内存类型截然不同,现有的缓存管理方案不能有效的使用它,
不知道大家刚开始学习计算机的时候有没有被某些概念折磨的经历,可能会有很长一段时间无法理解某一个概念。有没有这么一种可能,不是我们的水平问题,而是这些概念本身翻译地就非常有毛病!
ReNamer 是一个非常强大和灵活的文件重命名工具,它提供所有标准的重命名过程,
异步处理是提升系统性能的神器,但需要分清同步流程和异步流程的边界,同时消息存在丢失的风险,我们需要考虑如何确保消息一定到达。
不知道大家有没有过这样的体验,当逢年过节和三姑六婆介绍自己的职业以及工作内容时,他们总会说:“哦,就是修电脑的。”如果年轻一点会说你是程序员,而喜欢刨根问底的会问,为啥叫Python,这不是蟒蛇的意思吗?
写书的缘由是,前一段时间自己在做人名音译的项目学习性研究,发现网上在pandas这一块中文文档还是是比较欠缺,大多都是对其中部分知识的讲解,缺乏系统性的介绍讲解,这对许多新人甚至是做过类似工作的人都或多或少造成过困扰。尝试着写一写关于这方面的书籍、教程以供大家相互学习交流,同时也希望通过这个来赚取自己的研究生入学费用。
内容提要:韩国一名围棋棋手在今年的一场定段比赛中,利用人工智能程序作弊被举报。日前,首尔地方法院对该事件作出宣判,作弊者被判处一年有期徒刑。
接触编程这么久了,一直会遇到某些高频词,例如,哈希。hashtable,hashmap,hashset等等等。都有hash一次。那什么是哈希值呢?百度本科解释是,Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。 那是怎么把输入转换成固定长度的散列值呢?我也很好奇。 所以特地找了一下string的hashcode源码。
近段时间海外域名交易热潮不减,之前就有曝出JB.com、DXB.com等域名数百万易主,Mike Mann百万售出“加密货币”域名CryptoWorld.com。
该系统未来还可用于预测分析。 近日,密歇根大学的研究团队设计出一种由记忆电阻制成的新型神经网络硬件系统(储备池计算系统),相较于现有的硬件系统,它的效率有了明显的提升,并且它能在对话之前预测词汇并预测下一步输出。 储备池计算系统是一种有效改进传统神经网络训练困难的计算系统,此前,有科学家曾用光学元件制作了储备池计算系统,不过,此次电气工程和计算机科学教授卢伟(音译)及其团队使用记忆电阻构造的新系统所需空间更小,也更容易集成到现有的硅基电子设备。 记忆电阻,又称忆阻器,与普通的电阻不同,它的电阻值由流经它的电
Apache(音译为阿帕奇)是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的API扩充,将Perl/Python等解释器编译到服务器中。
最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。
领取专属 10元无门槛券
手把手带您无忧上云