国产自产一线在线视频,清纯唯美欧美激情亚洲综合,美女视频在线观看你懂的

聲音基礎(chǔ)小知識

一、聲音的三要素

1.音調(diào)

人耳對聲音高低的感覺稱為音調(diào)(也叫音頻)。音調(diào)主要與聲波的頻率有關(guān)。聲波的頻率高，則音調(diào)也高。當(dāng)我們分別敲擊一個小鼓和一個大鼓時，會感覺它們所發(fā)出的聲音不同。小鼓被敲擊后振動頻率快，發(fā)出的聲音比較清脆，即音調(diào)較高；而大鼓被敲擊后振動頻率較慢，發(fā)出的聲音比較低沉，即音調(diào)較低。一般音頻兒童>女生>男生。

人耳聽覺音頻范圍是20Hz-20000Hz(做音頻壓縮時不在這個范圍內(nèi)的數(shù)據(jù)就可以砍掉)。

音調(diào)波形圖

2.音強(qiáng)

也就是響度。人耳對聲音強(qiáng)弱的主觀感覺稱為響度。響度和聲波振動的幅度有關(guān)。一般說來，聲波振動幅度越大則響度也越大。當(dāng)我們用較大的力量敲鼓時，鼓膜振動的幅度大，發(fā)出的聲音響；輕輕敲鼓時，鼓膜振動的幅度小，發(fā)出的聲音弱。

另外，人們對響度的感覺還和聲波的頻率有關(guān)，同樣強(qiáng)度的聲波，如果其頻率不同，人耳感覺到的響度也不同。

音量波形圖

3.音色

也就是音品。音色是人們區(qū)別具有同樣響度、同樣音調(diào)的兩個聲音之所以不同的特性，或者說是人耳對各種頻率、各種強(qiáng)度的聲波的綜合反應(yīng)。音色與聲波的振動波形有關(guān)，或者說與聲音的頻譜結(jié)構(gòu)有關(guān)。

音叉可產(chǎn)生一個單一頻率的聲波，其波形為正弦波。但實際上人們在自然界中聽到的絕大部分聲音都具有非常復(fù)雜的波形，這些波形由基波和多種諧波構(gòu)成。諧波的多少和強(qiáng)弱構(gòu)成了不同的音色。各種發(fā)聲物體在發(fā) 出同一音調(diào)聲音時，其基波成分相同。但由于諧波的多少不同，并且各諧波的幅度各異，因而產(chǎn)生了不同的音色。

基波與諧波

二、音頻的量化與編碼

音頻的量化過程

現(xiàn)實生活中，我們聽到的聲音都是時間連續(xù)的，我們把這種信號叫模擬信號。模擬信號(連續(xù)信號)需要量化成數(shù)字信號(離散的、不連續(xù)的信號)以后才能在計算機(jī)中使用。如下圖所示量化過程分為5個步驟：

1.1 模擬信號

現(xiàn)實生活中的聲音表現(xiàn)為連續(xù)的、平滑的波形，其橫坐標(biāo)為時間軸，縱坐標(biāo)表示聲音的強(qiáng)弱。

1.2 采樣

按照一定的時間間隔在連續(xù)的波上進(jìn)行采樣取值，如下圖所示取了10個樣。

1.3 量化

將采樣得到的值進(jìn)行量化處理，也就是給縱坐標(biāo)定一個刻度，記錄下每個采樣的縱坐標(biāo)的值。

1.4 編碼

將每個量化后的樣本值轉(zhuǎn)換成二進(jìn)制編碼。

1.5 數(shù)字信號

將所有樣本二進(jìn)制編碼連起來存儲在計算機(jī)上就形成了數(shù)字信號。

音頻的量化過程

量化的基本概念

2.1 采樣大小

一個采樣用多少個bit存放，常用的是16bit(這就意味著上述的量化過程中，縱坐標(biāo)的取值范圍是0-65535，聲音是沒有負(fù)值的)。

2.2 采樣率

也就是采樣頻率(1秒采樣次數(shù))，一般采樣率有8kHz、16kHz、32kHz、44.1kHz、48kHz等，采樣頻率越高，聲音的還原就越真實越自然，當(dāng)然數(shù)據(jù)量就越大。

模擬信號中，人類聽覺范圍是20-20000Hz，如果按照44.1kHz的頻率進(jìn)行采樣，對20HZ音頻進(jìn)行采樣，一個正玄波采樣2200次；對20000HZ音頻進(jìn)行采樣，平均一個正玄波采樣2.2次。

2.3 聲道數(shù)

為了播放聲音時能夠還原真實的聲場，在錄制聲音時在前后左右?guī)讉€不同的方位同時獲取聲音，每個方位的聲音就是一個聲道。聲道數(shù)是聲音錄制時的音源數(shù)量或回放時相應(yīng)的揚聲器數(shù)量，有單聲道、雙聲道、多聲道。

2.4 碼率
也叫比特率，是指每秒傳送的bit數(shù)。單位為 bps(Bit Per Second)，比特率越高，每秒傳送數(shù)據(jù)就越多，音質(zhì)就越好。

碼率計算公式：

碼率 = 采樣率 * 采樣大小 * 聲道數(shù)

比如采樣率44.1kHz，采樣大小為16bit，雙聲道PCM編碼的WAV文件：

碼率=44.1hHz*16bit*2=1411.2kbit/s。

那么錄制1分鐘的音樂的大小為(1411.2 * 1000 * 60) / 8 / 1024 / 1024 = 10.09M。

三、音頻壓縮技術(shù)

音頻壓縮主要包括2種方法：

3.1 消除冗余數(shù)據(jù)

這種壓縮的主要方法是去除采集到的音頻冗余信息，這些被刪除掉的音頻信號是沒法恢復(fù)的，所以稱為有損壓縮。

冗余信息包括人類聽覺范圍之外的音頻信號和被掩蔽掉的音頻信號。什么是被掩蔽的信號呢？信號的掩蔽分為頻域掩蔽和時域掩蔽。

3.1.1 頻域掩蔽效應(yīng)

人類聽覺范圍是20-20000Hz，但這并不意味著只要是這個頻率范圍內(nèi)的聲音都可以聽到，能否聽到還與聲音的分貝大小有關(guān)，有個分貝臨界值，高于這個臨界值的聲音才能聽到，低于這個臨界值的聲音就聽不到，在不同的頻率下這個臨界值是不一樣的。如下圖所示，橫坐標(biāo)為頻率，縱坐標(biāo)為分貝值，圖中的黑色曲線就是這個臨界值曲線，所以位于曲線下方的聲音是聽不到的。

還有一種情況，比如2個音調(diào)差不多的人同時說話，一個聲音很大，一個聲音很小，聲音小的會受到聲音大的影響，導(dǎo)致聲音小的無法被聽到。如下圖所示，紅色的柱子是一個很大分貝的聲音，它會產(chǎn)生掩蔽效應(yīng)將與它頻率相近的小分貝的聲音掩蔽掉，紅柱子兩邊的藍(lán)色曲線就是它的掩蔽范圍曲線，紫色柱子都在它的掩蔽曲線覆蓋的范圍內(nèi)，所以紫色柱子代表的聲音是聽不到的；而綠色柱子不在其范圍內(nèi)，所以是可以聽到的。

頻域掩蔽效應(yīng)

3.1.2 時域掩蔽效應(yīng)

除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外，在時間上相鄰的聲音之間也有掩蔽現(xiàn)象，稱為時域掩蔽。時域掩蔽又分為超前掩蔽和滯后掩蔽，如下圖所示。產(chǎn)生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間。一般來說，超前掩蔽很短，只有大約5～20ms，而滯后掩蔽可以持續(xù)50～200ms。

時域掩蔽效應(yīng)

3.2 哈夫曼無損編碼

將人類無法識別的聲音信號刪除掉后，對剩余的聲音信號繼續(xù)進(jìn)行壓縮編碼，經(jīng)過這種壓縮后再還原時是可以復(fù)原到和原來一樣的數(shù)據(jù)的(當(dāng)然，復(fù)原也只是復(fù)原到壓縮前的狀態(tài)，那些刪除的人類無法識別的部分是不能復(fù)原的)，所以稱為無損壓縮。

四、音頻編解碼器

4.1 常見音頻編解碼器

常見的音頻編解碼器包括OPUS、AAC、Vorbis、Speex、iLBC、AMR、G.711等。目前泛娛樂化直播系統(tǒng)采用rtmp協(xié)議，支持AAC和Speex。
性能上來看，OPUS > AAC > Vorbis，其它的逐漸被淘汰。

下圖為音頻編解碼器性能對比，橫坐標(biāo)是碼率，縱坐標(biāo)是音頻的采樣大小等級劃分(比如采樣大小為8bit是窄帶音頻，采樣大小為16bit是寬帶音頻)。

音頻編解碼器性能對比(綠色的為免費開源，藍(lán)色為不開源，紅色為收費。)

4.2 AAC編解碼器介紹

AAC(Advanced Audio Coding)編解碼器應(yīng)用范圍特別廣，編解碼的音頻質(zhì)量高保真，它出現(xiàn)的目的是取代mp3格式，因為mp3是有損壓縮，對音頻質(zhì)量有一定損耗，而AAC對于原始數(shù)據(jù)的損耗就會小很多，而且壓縮率很高。目前市面上90%以上的直播系統(tǒng)都是用的AAC(雖然OPUS性能最好，但是rtmp協(xié)議不支持OPUS)。

AAC常用規(guī)格
AAC目前常用的規(guī)格有 AAC LC、AAC HE V1、AAC HE V2。

AAC LC
AAC LC (Low Complexity) 是低復(fù)雜度，一般碼率128kbt/s。

AAC HE V1
AAC HE V1是在AAC LC基礎(chǔ)上加入了SBR(Spectral Band Replication)技術(shù)，也就是分頻復(fù)用，加入這種技術(shù)后使碼流變得更低，而且音質(zhì)更好。比如按照44.1kHz采樣率，20Hz頻段一個正玄波采樣2200個，這太浪費了，而在20000Hz頻段一個正玄波采樣2.2次，采樣次數(shù)太少導(dǎo)致音質(zhì)較差。采用SBR進(jìn)行分頻處理，在低頻段降低采樣率，在高頻段提高采樣率，這樣既能降低碼率又能提高音質(zhì)。AAC HE V1一般碼率為64kbt/s左右。

AAC HE V2
AAC HE V2在AAC HE V1的基礎(chǔ)上又增加了PS(Parametric Stereo)技術(shù)。也就是將立體聲雙聲道分別保存，一個聲道的數(shù)據(jù)完整保存，另一個聲道只存儲一些差異性的參數(shù)信息，因為兩個聲道信息相關(guān)性非常強(qiáng)，可以通過那些差異性參數(shù)來還原這個聲道的信息。AAC HE V1一般碼率為32kbt/s左右。

AAC規(guī)格

AAC規(guī)格

AAC格式
AAC的格式有ADIF和ADTS兩種

AAC ADIF(Audio Data Interchange Format)
這種格式的AAC文件只在最開始的地方存有一個頭，頭里面包括采樣率、采樣大小、聲道數(shù)等信息。每拿出一個音頻幀都用這個頭信息來進(jìn)行解析。它只能從開頭位置開始解碼，一般用于磁盤文件中。

AAC ADTS(Audio Data Transport Stream)
這種格式的AAC文件在每一個音頻幀的前面都有一個同步字，也就是加一個小的頭(7-9個字節(jié))，所以它可以從任何位置開始解碼。它的優(yōu)點就是進(jìn)行流傳輸時每拿到一個音頻幀直接就可以進(jìn)行解碼播放，缺點就是每個音頻幀都多出一個頭，所以相對于ADIF格式它會多出一些數(shù)據(jù)量。

上一篇：沒有你看不到的只有你想不到的！干貨分享

下一篇：話筒使用的注意事項