为什么大脑能够识别不同的调式和调性? 2026-03-31

在学习音乐理论时, 我们就会碰到大调, 小调, 调式, 调性等词语, 如果我们有尝试谱写旋律, 就会发现, 有些音符加入乐句后, 感觉就不一样, 但另外一些音符加入后, 则感觉它们就和前面的音符组成一体, 为什么会这样? 我们的大脑是如何识别哪些音符组合在一起会构成一体, 哪些音符组合在一起后则不是一体的呢?

还有另外一些现象, 同样是一组音符, 按照不同的排列会得到不同的感觉, 有些排列是感觉到它们是一体的, 但有些则感觉不是.

这就是今天我们要讨论的话题: 大脑是如何识别音调调性和调式的?

根据音乐理论, 调性是什么? 是以某个音为主音, 并以该主音为中心参照点, 以特定的调式音程结构为依据, 来构建出其他音, 由此形成的具有功能从属关系, 有稳定和不稳定倾向的音高体系.

这么说不容易理解, 我们一一来解释.
1 主音是什么意思? 我们知道, 是频率构成了音高, 以某个频率为起始点, 并不断以2倍数关系来构建的频率, 所对应的音, 就是主音, 比如以 100Hz 为起始点, 由此, 100Hz, 200Hz, 400Hz, 800Hz …, 所对应的音高, 都是主音. 因此, 主音是根据功能来定义的, 是一些列音的总称, 其他的属音和下属音也是一样.

2 什么是音程结构? 我们知道, C 大调就是 Do, Re, Mi, Fa, Sol, La, Ti, Do 它们之间的音程关系是: “全全半全全全半”, 这种 “全全半全全全半” 就是我们所说的音程结构.

以上面 100Hz 为例子, 由此构建出来的大调, C,D,E,F,G,A,B 对应的频率是:

音名	频率(基频)	高八度	再高八度	再高八度	再高八度
C	100.000000	200.000000	400.000000	800.000000	1600.000000
D	112.246205	224.492409	448.984818	897.969636	1795.939272
E	125.992105	251.984210	503.968420	1007.936840	2015.873680
F	133.483985	266.967970	533.935940	1067.871880	2135.743760
G	149.830708	299.661415	599.322830	1198.645660	2397.291320
A	168.179283	336.358566	672.717132	1345.434264	2690.868528
B	188.774863	377.549726	755.099452	1510.198904	3020.397808

看到吗?
在每一行中, 右边高八度的音都是左边的频率的2倍, 换句话说, 音程关系, 对应到频率中, 其实就是数学中的一个比例, 每高出半个音, 高出的音, 就是前面音高的 1.05946‌ 倍, 即倍数是 2 的 1/12 次方, 因为遵循十二平均律.

那么, 这跟大脑识别调性有什么关系呢?
大脑在识别音色和音程关系是使用同一机制, 即, 使用相同的模式来识别音色和音与音之间的音程关系.

这一个识别机制是什么?

我们先来看看大脑是如何识别不同的音色的?

我们知道, 物体在发出声音时, 它不仅仅是发出只有一个频率的声音, 而是同时发出多个不同频率的声音, 作为人, 想要准确的发出特定频率的声音是很难的, 因此, 从时间角度来讲, 发出不同的频率的声音是在所难免的, 因为控制声带的能力不可能这么精确, 所以肯定会发生偏差, 会发出不同频率的声音.

但我们采用乐器等非生物来发音, 它也会在同一时间点发出不同频率的声音, 最低频率的声音, 我们称之为基音, 剩下的频率所对应的声音称之为泛音, 泛音的频率是基音频率的整倍数, 1倍, 2倍, 3倍,…, 每一种物体发出的声音, 包含的泛音的数量不同, 正因为泛音的数量不同, 大脑才得以识别不同的音色, 即, 是哪个物体发出的声音.

那么, 大脑是如何识别哪个是基音的频率, 哪个是泛音的频率呢?

因为泛音的频率是基音频率的整倍数, 所以, 大脑想要寻找基音的频率, 只需要把多个频率放到一起, 然后寻找数学中的最大公约数即可, 这样就找到了基音的频率.

这一过程是如何实现的呢?

我们知道, 声音的频率, 就是声波在1秒钟之内出现的波浪的数量, 就好比是, 水波在一秒钟之内出现的波浪的数量一样, 我们把时间精确到毫秒级别, 这种声浪, 不断的, 持续的拍打着我们的耳膜, 每一股声波(声浪), 代表着不同的频率的声音, 它们同时, 而且持续不断的拍打着我们的耳膜, 如果两股声波(声浪), 它们的频率是倍数关系, 必然会在某个时间点(毫米级别)同时拍打着我们的耳膜, 这种在时间上的同时性, 能够让大脑识别得出来, 不同声波(声浪), 同时拍打的动作, 出现的次数越多, 就表明它们存在的比例关系越简单, 举个例子来讲, 1Hz 跟 2Hz, 在一秒钟的时间内, 1Hz拍打一次, 2Hz拍打两次, 但由于有一次是跟 1hz同时发生, 所以大脑可以解析为拍打2次只有一次同时发生, 但如果是2Hz跟3Hz, 大脑就感受到6次才有1次同时发生, 随着时间的推移, 1:2 同时拍打的动作肯定要比2:3的多, 但数学的比例关系越简单.

我们举这些例子是有问题的, 因为大多数的人, 大脑对20Hz以内的声波是没有感觉的, 我们只是方便理解才这么说.
我们举这些例子还有另外一个问题, 两股声波同时发生, 它们不是是简单的按照各自原有的方式和路径来拍打耳膜, 它们组合在一块后会发生变形, 但即便如此, 大脑也能够识别出有多少股声波, 每股声波对应的频率是多少, 大脑是能够识别的.

回到我们本文的主题, 大脑如何识别不同的调性?

基音和泛音之间是整倍数的关系, 调性中的主音和属音, 下属音, 以及其他音之间的关系是 1.x 的关系, 虽然不同, 但根据同一机制, 大脑是能够识别出主音的频率的, 主音的频率找到后, 在根据时间上音符出现的先后顺序, 就能够确定音和音之间的音程结构关系, 当音程结构关系确定后, 后面加入进来的音, 是否属于该调性的音, 就得以确定了!

分享到:

如果您觉得这篇文章对您的学习很有帮助, 请您也分享它, 让它能再次帮助到更多的需要学习的人. 您的支持将鼓励我继续创作 !

本文基于署名4.0国际许可协议发布，转载请保留本文署名和文章链接。如您有任何授权方面的协商，请邮件联系我。