首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

瞎想八想:当甲骨文遇到机器学习,那Oracle会不会收购我的想法?

手中的事终于先告一段落,忙里偷闲的看了会儿一席·万象的洛阳铲下的商王朝1:龟甲上的文字(视频已经贴在文末,如果有兴趣的可以看一下)。看着这龟甲兽上灵动的文字, 恍惚间,我好像看到了机器学习遇到了甲骨文的场景。

根据古代文字学学者唐兰的讲法,造字还是主要以象形,会意,形声,别的假借,转注都是用字的方法。通常来说,一些实体都是用象形来构字的,就很像图像分类里的object。就上是简笔画的简笔画一样。下图中第三列为甲骨文。

不难看出,古代人画画的功底还是很不错的,画出来虽然抽象,但是不失重点和特征。从甲骨文中的“人”字的写法,还能看出几分有礼和正直的感觉。

讲道理我觉得现在的简体文字把我们的大长腿给缩短了,而且也不是站立的了。怎么看都像是在做猫伸展功…怪不得撸猫的多了,大概回家可以一比高下。

扯远了。所以总的来说象形字部分还是很好识别的。微软亚研[1]也在2005年的时候就结合了不同层次语义的视觉特征(visual feature)以及结合卷积神经网络特征(CNN feature)通过比对简笔画的线条特征来识别甲骨文,成绩斐然。(Reference 列在最后了,有兴趣的可以自己查看实施细节)。

但其实我更加中意的其实是会意字。因为会意实际上是将几样实体放在一起以后进行的看图说话环节,就会很有意思。大家都以有自己的解读,但也不会太大相径庭。由于有不同实体的堆放,所以也产生了中文的上下、左右、里外、左中右、上中下的结构。这里可以看一些会意字的意思和写法。

简单的有比如 羊圈里面一头羊,视为画地为牢。

也可以写作是牛圈里有一头牛。不过,反正圈里面一个人就是囚嘛,大家其实也都一样。

再比如这个逐字也很形象,猪和鹿后面有个脚丫爪印,那就是在追逐了。有没有很形象?更有意向一点的,比如房里有个女人就很安全,毕竟母婴关系是最早的安全感来源之一,只要有妈在的地方就有安全感,所以为安。(当然这条解释出自于《唐子干·说文解字》)。

那如果房子里有牌位呢,那就是宗了,认祖归宗嘛。

如果是一个人对着牌位下跪呢?(别往下翻,猜猜看呢?)

那就是祝了,因为在古代祝是古代掌管祭祀的官员来沟通天人之间的意义的。《原版·说文解字》中祝是祭主赞词者。说道祝就顺便说一下福了。古代人向天祝酒以希望能够生活富裕。所以福字有以下几种写法,但是都是福的意思,都是对着神主牌拿着盛酒杯。

当然讲到祭祀祭也得说一说,用手持肉向天祭祀。

脑中不知道为什么飘过了,大秦帝国要称王时候的情景。当时他们需要周天子受肉称王,但是其他六国都完全不屑,还把他的肉给扔到了地上。但最后不也一样吞并六国,统一称皇。

这其实可以考虑将已经能识别的单个象形字的实体部分的特征运用到会意字的结构上,然后再进行语义库的比配进行语义描述,再找到近义词来确定这个字,最后还可以跟繁体字进行比对交叉验证。这样不仅可以省去微软亚研2万多个甲骨文的文字收集,也可以成功配对不同写法的同一个字。而且还能扩展未收集到的文字,说不定能复原更多的甲骨文,或者创造新的文字呢?

至于形声字,就稍微有点难,因为会借用一些实体的一部分,然后由于是发出的声音,就很难在文字中体现,则需要进一步的意向推测。不过这个问题依然可以考虑构字规律中如何体现形声字的视觉形式来进行推测,专业术语好像称之为“声符形化字”。比如视频中提到的彭字嘭嘭嘭,就是鼓的声音。首先鼓字如下,

当中是用一个木头鼓架子托着圆形鼓面然后上面是一些鼓架子的装饰,左右两边有两只握着鼓槌的手爪子。在形声字的嘭是借用了象形字当中的鼓,然后用了3条声波线来表示发出的声音。所以能知道这是发出的声音。

如果是这样,我们是不是能够进行模型的拓展,找到通用的表示声音的图形部分,然后重新进行语义库的配对,将形声字更好的被分类呢?

其实文字本身就是被人构造出来的,如果将其结构应该比实体物件本身更容易,也就比object提特征更简单了吧?想到这已经将甲骨文中的主要构字法的问题都解决了,那么如果模型真的能成功。是不是我就能获得N个十万了呢?毕竟中国文字博物馆可是说了,如果能够解读一个没被认识过的字,就有十万的奖金啊!那根据机器学习的计算和扩展能力,我是不是就要一夜暴富了呢?

哈哈哈哈,是吗?老板问你空间映射有哪些条件你造吗?啊?什么空间映射?

-----一席·洛阳铲下的商王朝1:龟甲上的文字 分割线-----

---------------------------------------

Reference

[1] Jun Guo, Changhu Wang, Edgar Roman-Rangel, Hongyang Chao, and Yong Rui. Building Hierarchical Representations for Oracle Character and Sketch Recognition. IEEE Transactions on Image Processing, vol. 25, no. 1, pp. 104-118, January 2016.

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180512G0B8T800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券