MOS vs PSQM vs PAMS vs PESQ
清晰度與語音訊號可接受的程度有關,舉例來說,收訊者是否能聽得懂對方所說的話,由聲音辨別發話者是誰或是由聲音感受發話者的感覺。
由於清晰度的因果關係並非線性,因此在許多與語音壓縮有關的數位技術中(例如MPEG-2),清晰度會有所謂的臨界效應(cliff effect);所謂臨界效應是指隨著訊號損失的增加,清晰度會逐漸變差,當清晰度變差到一個程度之後,收訊者便完全無法聽清楚,"cliff"的實際位置通常得靠實驗決定。
傳統上,是以平均意見指標(mean opinion score, MOS)來衡量清晰度;平均意見指標是將收訊的語音樣本,由一群收訊者依收聽到的通話品質分成5個等級:1代表最差、5代表最佳,4則是一般公眾電話網路系統的通話品質。由於MOS很難建立一個客觀標準,而且有實際執行上的困難,因此MOS無法作為長期評估的標準。
為了改善MOS的這些缺點,陸續有人希望藉由電腦輔助的方式,提出各種具有重複客觀性通話品質的評量方法。大部分的方式都是由收訊者的觀點,來比較以人類自然語音訊號作為語音樣本經過傳輸之後,接受訊號和原始訊號之間的差異。
目前,常用的清晰度評量方法有兩種,一種是由荷蘭KPN Research所發展的知覺通話質量測量(Perceptual Speech Quality Measurement, PSQM),現已成為ITU-T P.861標準;另一種是由大英國協的英國電訊所發展的知覺分析/測量系統(Perceptual Analysis/Measurement System, PAMS)。
PSQM和PAMS都使用自然語音(natural speech)或類語音樣本作為輸入訊號,通常選擇的語音樣本(speech sample)會經由語音傳輸路經傳送,語音傳輸路經在經過編碼、封包化(packetization)、傳輸和解碼的過程中,會造成各種不同程度的訊號損失。評量的方法是以接收的語音樣本訊號,和原本的訊號作為清晰度演算法的輸入訊號。典型測試所採用的語音樣本會包括,具有各種代表性的男性和女性聲音。
PSQM演算法是以0到6.5的數字來評量清晰度,數字越低代表通話品質越好。PSQM原本是設計用來評估和比較各種語音編碼(speech codecs)技術的優劣,而非點對點的(end-to-end)網路通話品質。但是,加強許多功能之後(稱為PSQM+)便可用來作為網路通話品質測試,在比較PSQM和MOS的時候必須特別注意,PSQM與傳統MOS聽音品質間的關係並非線性。
經驗顯示,如果系統可以提供更多的其他服務,使用者可接受比目前公眾電話網路略差的通話品質。
PAMS會產生聽音品質指標(listening quality score)(Ylq)和聽音效應指標(listening effort )(Yle)兩種指標,它們都是由0~15編排,數字越高代表品質越好。和PSQM清晰度指標一樣,聽音品質指標主要是評量收訊者接收的語音訊號,與原本訊號之間的相似度。至於聽音效應指標則是不同的評量方式。
聽音效應指標主要是針對嚴重失真無法以聲音品質評估的訊號,因此聽音效應指標評估的是,收訊者必須花費多少心力才能聽懂嚴重失真的語音訊號所傳遞的訊息。
至於評估PSQM和PAMS這類客觀語音品質評量演算法是否有效的方法,則是比對PSQM和PAMS指標與MOS測試結果間,是否具有明顯的相關性。通常這些客觀演算法與主觀MOS評量法之間的相關性高達r>0.9。至於其他傳統的客觀評量方法,如噪訊比(signal-to-noise ratio)與MOS之間的相關性則很差,所以即使噪訊比很高也無法保證具有良好的通話品質。
PSQM和PAMS的開發者KPN Research與英國電訊最近共同合作提出新的客觀語音品質評量ITU-T標準,稱為語音質量感知評估(Perceptual Evaluation of Speech quality, PESQ),這項技術結合PSQM和PAMS兩種方法的優點—PSQM的聽覺模型(perceptual model)和PAMS的時間對位法(time-alignment routine),所以PESQ指標與MOS指標g之間的相關性將更高。PESQ分數範圍從1(最差)到4.5(最好),3.8代表一般傳統付費電話的可接受語音品質。
由於清晰度的因果關係並非線性,因此在許多與語音壓縮有關的數位技術中(例如MPEG-2),清晰度會有所謂的臨界效應(cliff effect);所謂臨界效應是指隨著訊號損失的增加,清晰度會逐漸變差,當清晰度變差到一個程度之後,收訊者便完全無法聽清楚,"cliff"的實際位置通常得靠實驗決定。
傳統上,是以平均意見指標(mean opinion score, MOS)來衡量清晰度;平均意見指標是將收訊的語音樣本,由一群收訊者依收聽到的通話品質分成5個等級:1代表最差、5代表最佳,4則是一般公眾電話網路系統的通話品質。由於MOS很難建立一個客觀標準,而且有實際執行上的困難,因此MOS無法作為長期評估的標準。
為了改善MOS的這些缺點,陸續有人希望藉由電腦輔助的方式,提出各種具有重複客觀性通話品質的評量方法。大部分的方式都是由收訊者的觀點,來比較以人類自然語音訊號作為語音樣本經過傳輸之後,接受訊號和原始訊號之間的差異。
目前,常用的清晰度評量方法有兩種,一種是由荷蘭KPN Research所發展的知覺通話質量測量(Perceptual Speech Quality Measurement, PSQM),現已成為ITU-T P.861標準;另一種是由大英國協的英國電訊所發展的知覺分析/測量系統(Perceptual Analysis/Measurement System, PAMS)。
PSQM和PAMS都使用自然語音(natural speech)或類語音樣本作為輸入訊號,通常選擇的語音樣本(speech sample)會經由語音傳輸路經傳送,語音傳輸路經在經過編碼、封包化(packetization)、傳輸和解碼的過程中,會造成各種不同程度的訊號損失。評量的方法是以接收的語音樣本訊號,和原本的訊號作為清晰度演算法的輸入訊號。典型測試所採用的語音樣本會包括,具有各種代表性的男性和女性聲音。
PSQM演算法是以0到6.5的數字來評量清晰度,數字越低代表通話品質越好。PSQM原本是設計用來評估和比較各種語音編碼(speech codecs)技術的優劣,而非點對點的(end-to-end)網路通話品質。但是,加強許多功能之後(稱為PSQM+)便可用來作為網路通話品質測試,在比較PSQM和MOS的時候必須特別注意,PSQM與傳統MOS聽音品質間的關係並非線性。
經驗顯示,如果系統可以提供更多的其他服務,使用者可接受比目前公眾電話網路略差的通話品質。
PAMS會產生聽音品質指標(listening quality score)(Ylq)和聽音效應指標(listening effort )(Yle)兩種指標,它們都是由0~15編排,數字越高代表品質越好。和PSQM清晰度指標一樣,聽音品質指標主要是評量收訊者接收的語音訊號,與原本訊號之間的相似度。至於聽音效應指標則是不同的評量方式。
聽音效應指標主要是針對嚴重失真無法以聲音品質評估的訊號,因此聽音效應指標評估的是,收訊者必須花費多少心力才能聽懂嚴重失真的語音訊號所傳遞的訊息。
至於評估PSQM和PAMS這類客觀語音品質評量演算法是否有效的方法,則是比對PSQM和PAMS指標與MOS測試結果間,是否具有明顯的相關性。通常這些客觀演算法與主觀MOS評量法之間的相關性高達r>0.9。至於其他傳統的客觀評量方法,如噪訊比(signal-to-noise ratio)與MOS之間的相關性則很差,所以即使噪訊比很高也無法保證具有良好的通話品質。
PSQM和PAMS的開發者KPN Research與英國電訊最近共同合作提出新的客觀語音品質評量ITU-T標準,稱為語音質量感知評估(Perceptual Evaluation of Speech quality, PESQ),這項技術結合PSQM和PAMS兩種方法的優點—PSQM的聽覺模型(perceptual model)和PAMS的時間對位法(time-alignment routine),所以PESQ指標與MOS指標g之間的相關性將更高。PESQ分數範圍從1(最差)到4.5(最好),3.8代表一般傳統付費電話的可接受語音品質。
Comments