login
Thu 09 of Sep, 2010 (16:46 UTC)

[root@madeira.eng.br ~]#

Linux - It is now safe to turn on your computer

imprimir

Qualidade de Voz e MOS

Criada por: Frederico Madeira, última modificação em: Thu 24 of Jan, 2008 (20:17 UTC)

Introdução


A percepção da qualidade de voz, por parte do usuário é uma característica subjetiva. Se você conhecer bem o originador e entender os padrões de sua fala, mesmo em conexões de baixa qualidade, podem proporcionar uma chamada em que ambas as partes possam se compreender. Agora imagine que você tenha a mesma conexão de baixa qualidade, mas agora com uma pessoa que você não conhece o sotaque ou que fale rápido. A compreensão da conversação torna-se muito mais difícil.

Outro ponto que afeta a percepção da qualidade é característica do serviço prestado. Comumente usuários do serviço de telefonia celular ou pro satélite, toleram ou ignoram problemas com qualidade de chamadas, em função da utilidade que essa tecnologia oferece.

A satisfação do usuário ao fazer uma ligação e a percepção da qualidade de voz são os maiores fatores que o levam a fazer uma chamada telefônica. Os usuários atribuem adjetivos para descrever a qualidade da voz.
São Eles:

- Muito Bom;
- Bom;
- Normal;
- Ruim;
- Muito ruim.

Os elementos que definem a qualidade da chamada são:

Qualidade do Som

É a forma primária de descrição de uma chamada de voz. O som deve possuir as características de clareza, fidelidade, intelegibilidade e sem distorção. Os seguintes 5 componentes definem os elementos da qualidade do som para uma direção da chamada:

- Nível do Sinal (Loudness)
O Volume da fala não pode ser muito baixo (sussurro) ou muito alto (grito).

- Distorção (Distortion)
Toda a fala é distorcida, mesmo na conversão da fala na tecnologia PSTN, de analógico para digital. Essa distorção é perceptível para quem está escutando ? Quanto maior for a distorção, pior será a compreensão da chamada. Pode ser que não seja nem possível reconhecer quem está falando.

- Ruído (Noise)
Ruídos de fundo existem nas chamadas na forma de estática e zumbidos. Isso é conhecido como nível de ruído. No entanto, o ruído pode ser em um nível baixo de forma que quem esteja escutando nem o perceba.

- Fading
O nível do sinal (loudness) pode sofrer variações durante a chamada. Seja aumentando o diminuindo seu nível.

-Chamada Cruzada (Crosstalk)
Essa é uma situação onde outra conversação, em uma chamada separada, possa ser ouvida na chamada do usuário.

Qualidade da Voz

Os próximos quatro elementos sinalizam a lista dos fatores que devem ser considerados na medida da qualidade da voz . Os primeiros 5 elementos da qualidade de som combinados com os próximos 4, são chamados de Qualidade da Conversação:

-Echo
Echo é o som da voz do originador retornando para, e começando a ser ouvido, pelo originador. Pense no echo como um problema de delay em função da distância de ida e volta da voz. O usuário que estará recebendo a chamada pode não perceber pequenos delays de echo. Quanto mais longo for o delay na ida e volta da voz, mais difícil será, para o originador, ignorá-lo. O Originador, provavelmente irá fazer pausas durante sua fala, dessa forma o echo não interferirá na conversação.

-Latência (delay de fim-a-fim)
É o tempo que leva para a voz sair da boca do originador e chegar até os ouvidos dos destinatário. Nos EUA, a PSTN normalmente possui um delay de 30 ms ou menos. Para VoIP, o objetivo é manter a latência, de uma única via, em 100ms ou menos, podendo chegar a um limite máximo de 150ms. Latências muito longas farão com que o originador tenha que fazer pausas durante sua fala, caso contrário, ele não saberá quando o outro lado da chamada tiver terminado de falar, ou eles podem sobrepor a fala um do outro.

-Supressão de Silêncio/Voice Activity Detection (VAD)
Supressão de Silêncio é usado no VoIP para reduzir o consumo de banda. Quando essa tecnologia é usada, o inicio e o fim das palavras tendem a ser cortadas, especialmente os sons "T" e "S" ao final das palavras.

-Cancelamento de Echo
Quanto maior for a latência, maior é a necessidade de eliminação do echo. O echo pode ocorrer em apenas uma direção ou em ambas. O cancelamento de echo pode não funcionar, ou e ele pode não ser capaz de compensar efetivamente, quando existe um significante jitter durante a chamada VoIP.

A combinação desses nove elementos irão contribuir com a clareza da voz na chamada. Um excelente tutorial para esses fatores, pode ser encontrado no site do IEC (2).

Mean Opinion Score (MOS)

Mean Opinion Score (MOS) é um padrão numérico usado para mensurar e reportar a qualidade da voz após a compressão e/ou transmissão. Os valores de MOS vão de uma faixa máxima de 5 pontos, que é considerado o mesmo que estar falando pessoalmente próximo ao ouvido de uma pessoa, até o valor de 1, que é considerado como qualidade inaceitável para todos os usuários.
O MOS pontua apenas qualidade da voz e do som.

Um MOS de 4.4 a 4.5 é considerado equivalente a qualidade obtida em uma chamada PSTN. Os usuários que participarem de chamadas com MOS de 4.5, ficarão bastante satisfeitos.
Um MOS de 4.0 ainda é considerado aceitável para a maioria dos usuários.
Quando o MOS diminui para 3.5, alguns usuários podem achar a qualidade de voz inaceitável. A maioria das chamadas de celular possuem um MOS de 3.8 a 4.0, onde a voz do originador e o reconhecimento de palavras pode ser afetado.
Quando o MOS fica abaixo de 3,5, os usuários ficarão insatisfeitos e desligarão a chamada.
Um MOS abaixo de 2,6 caracteriza uma péssima chamada. Os usuários com MOS de 2.6 precisarão procurar uma outra rede para realização da chamada. Como exemplo, imagine quando uma chamada, através de celular, é terminada e o usuário usa a PSTN para refazê-la.

O padrão P.800 (4) do ITU (International Telecomunication Union (ITU) define as técnicas de medição do MOS. Teve sua última atualizado em meados de 1990 e continua a ser um exercício subjetivo.

Aproximadamente 30 pessoas ou mais são submetidas a 8 ou 10 segundos de fala, em condições controladas. É solicitado a eles que opinem sobre as chamadas , com sendo muito boa até terrível, pontuando-as de 5 a 1.

Abaixo está listado o MOS relacionado com alguns codecs comumente utilizados em chamadas VoIP (3).

Codec (data rate)
Mean Opinion Score (MOS)
G.711 (ISDN)(64 kbit/s)
4.3
iLBC (15.2 kbit/s)
4.14
AMR (12.2 kbit/s)
4.14
G.729 (8 kbit/s)
3.92
G.723.1 (6.3 kbit/s)
3.9
GSM EFR (12.2 kbit/s)
3.8
G.726 ADPCM (32 kbit/s)
3.8
G.729a (8 kbit/s)
3.7
G.723.1 (5.3 kbit/s)
3.65
GSM FR (12.2 kbit/s)
3.5


Com o advento das redes de telefonia celular, a vários anos atrás, a indústria iniciou um movimento que objetiva o mensuramento da qualidade de voz através de máquinas. Existem algoritmos para calcular e prever o MOS para as comunicações através de VoIP.

Referências:


(1) Voice quality and MOS
(2) Voice Quality (VQ) in Converging Telephony and Internet Protocol (IP) Networks
(3) Mean Opinion Score
(4) Recommendation P.800 (08/96)


Artigos Relacionados


- A Tecnologia VoIP


Comentários

Páginas aleatórias

Profile no Linkedin

View Frederico Madeira's profile on LinkedIn

My Shared Feeds

Del.ici.ous