今天大年初一,新年新气象,我把去年丢下的没写完的人工智能基础重新拾起来。
说是写,其实是我个人的读书总结笔记。不论你是做投资,还是未来择业,因为人工智能是颠覆了社会生态,所以任何人都必须了解。产生这样的认识来源于央视的《机智过人》节目,节目中在千万人中识别人脸,机器用毛笔展现书法作品,电脑做绘画设计等等,未来有很多职业会消失,也会产生新的职业,所以我要继续学习,努力用假期整完。
前面学习三章,今天学习第四章耳听八方:析音赏乐。
1,人耳听声:
声波是由物体震动产生的,经过媒介传播。声波通过耳郭收集,传到耳蜗,耳蜗内有丰富的听觉感受器,将声波传导到听神经,最后引起听觉。
2,频率:频率是声音的重要特征,它代表着单位时间内振动次数。
上世纪哈勃太空望远镜上天,为了解决把照片传到地面,美国科学家发明了数码相机,把图像转换成数字,通过电波传回地球,数码相机的诞生造成上千亿市值的柯达倒闭了!一个产业没落了!
哈勃拍的创生之柱
3,声音的数字化。像图像一样,我们需要把声音数字化,声波是连续的,所以需要把声波离散,变成一个个点,用数字表示。
声波——横轴为时间轴,纵轴为振幅。
通过话筒收集把声波转换为电压波,纵轴为电压。
分割时间轴,离散电压波。
离散,量化为点的坐标。
以MP3格式存放。
4,乐音的三要素:响度,音调,音色。
响度:代表声音的强弱,在波形上表现为振幅。
音调:声音调子的高低,频率高,调子就高。
音色:是一种复杂的特征,既是响度,音调都相同,但不同乐器,不同人发出的声音,听起来也不同,它是一种频率上的有一些高频成分,称为泛音。等一会,我在波形图上展示。
5,声音的图形表示。
(1)波形图:横轴是时间轴,纵轴是振幅。
(2)频谱:横轴是频率,纵轴是振幅,其含义是相应频率对应声音的振动幅度。
由于不同频率的声音强度相差很大,不容易表示在同一张图中,所以我们用的是对数坐标,所以大家看到的纵轴是负数。
频谱反应了不同频率的声音所占能量的大小。
以下是吉他和钢琴的波形和频谱图。
大家看到频谱图上的频率上的高频部分(毛刺)就是音色的表现。
今天就学到这里。
领取专属 10元无门槛券
私享最新 技术干货