什么是MNIST?
MNIST数据集来自美国国家标准与技术研究所,由令人尊敬的Yann LeCun教授主导建立,训练集由来自250个不同人手写的数字构成,共包含70000张数字图像,其中训练集60000张,测试集10000张。
自MNIST数据集建立以来,被广泛地应用于检验各种机器学习算法,测试各种模型,为机器学习的发展做出了不可磨灭的贡献,其当之无愧为历史上最伟大的数据集之一。
我们用它做些什么?
大家应该都用过触屏板的手写功能,每个人都有自己的数字书写风格,那么当我们写下数字之后,如何让计算机成功地识别呢?接下来就要有请机器学习算法登场了,通过建立一个卷积神经网络模型来解决这个问题,模型的结构如下所示:
通过输入MNIST数据对模型进行训练,最终我们会获得一个可识别手写体数字的网络模型,这就为计算机识别手写体数字提供了一种很棒的方法!
MNIST数据集的生命力极其旺盛,自其建立以来,在其基础上衍生出了更多的变式,如FashionMNIST等,它们都给出了不俗的表现。
将民族文化融入机器学习
作为中央民族大学的创业团队,巨神人工智能科技积极探索民族文化与机器学习相互融合的途径,在这样的初衷驱使下,TibetanMNIST应运而生!藏文作为我国的少数民族文字之一,具有十分悠久的文化历史,而藏文文字独特的书写方式和构造,使得其极具美感。藏文主要有楷体和行体两种文字,而他们本次制作的TibetanMNIST正是行体藏文中的数字,如下图所示:
将近15人的制作团队,历时1个月,超过300次反复筛选,最终得到17768张高清藏文手写体数字图像,形成了TibetanMNIST数据集。
使用TibentanMNIST进行模型训练
光说不练假把式,现在,跟官微君一起来使用TibentanMNIST数据进行训练,基于Keras,我们建立一个4层,含有1818个神经元节点的BP网络:
对网络结构进行可视化,如下所示:
经过10个世代,近170000次的训练,模型精度稳定在94%左右。
他们是谁?
是谁将民族文化与机器学习相结合?原来,TibetanMNIST背后是中央民族大学新生的创业团队——巨神人工智能科技。他们专注人工智能研究和数据分析,拥有创业实践项目一项,国家级大学生创新训练计划多项,并在2018年6月被评为“北京地区高校优秀大学生创业团队”。
他们是怀揣着人工智能梦想的有志青年
他们的日常是这样的:
他们画的画是这样的:
他们的玩具是这样的:
当民族文化遇上机器学习,
会碰撞出怎样的火花?
有着这样那样奇思妙想的你,
不妨亲自闯一闯试一试,
民大助你
将梦想照进现实!
封面|丁梦瑶
编辑|彭 瑶
责编|李 琳
主编|李红亮
领取专属 10元无门槛券
私享最新 技术干货