Compresso de udio Digital Joaquim Macedo Departamento de

  • Slides: 44
Download presentation
Compressão de Áudio Digital Joaquim Macedo Departamento de Informática da Universidade do Minho

Compressão de Áudio Digital Joaquim Macedo Departamento de Informática da Universidade do Minho

Sumário n n n n n Princípios de Compressão Áudio Redundância Estatística Redundância Temporal

Sumário n n n n n Princípios de Compressão Áudio Redundância Estatística Redundância Temporal Codificação perceptual áudio Normas de compressão áudio Norma de Compressão Áudio MPEG-1 Norma de Compressão Áudio MPEG-2 Normas de Compressão Áudio AC Comparação de Algoritmos de Compressão Formatos Áudio

Exemplo 7. 1 n Queremos transmitir áudio estéreo em tempo real num canal de

Exemplo 7. 1 n Queremos transmitir áudio estéreo em tempo real num canal de 56 Kbps. Considere os seguintes cenários a) b) c) Usamos uma frequência de amostragem de 44. 1 KHz. Quantos bits podemos usar para cada amostra áudio? Usamos 16 bits/amostra/canal. Qual a máxima frequência de amostragem? O que podemos fazer para evitar o aliasing Queremos usar uma frequência de amostragem de 44. 1 Khz e 16 bits/amostra/canal. Qual a razão mínima de compressão para transmitir o sinal áudio?

Princípios de Compressão Áudio § Redundância Estatística § § Redundância Temporal § § §

Princípios de Compressão Áudio § Redundância Estatística § § Redundância Temporal § § § Correlação entre valores de amostras vizinhas Redundância inter-amostra Redundância do Conhecimento § § § Mais bits para valores de amostra mais comuns Explorar conhecimento partilhado entre codificador e descodificador Ficheiros MIDI Propriedades do Sistema Humano de Audição § Aumentar a qualidade subjectiva do sinal áudio

Função Taxa de Distorção § Teorema de Shannon para codificação da fonte sem erros

Função Taxa de Distorção § Teorema de Shannon para codificação da fonte sem erros § § Limite na compressão sem erros Fontes áudio naturais § § Compressão sem perdas máxima 2: 1 Compressão com perdas usada na prática § Obtenção de maior razão de compressão.

Função Taxa de Distorção Débito D(dm) Codificador simples Codificador complexo Limite da teoria da

Função Taxa de Distorção Débito D(dm) Codificador simples Codificador complexo Limite da teoria da informação distorção dm

Redundância Estatística n Compressão de Texto n n Métodos de compressão eficientes baseados na

Redundância Estatística n Compressão de Texto n n Métodos de compressão eficientes baseados na entropia Pode-se usar a mesma abordagem na compressão de áudio

Exemplo 7. 2 n Considere um sistema de aquisição áudio que tem 10000 amostras

Exemplo 7. 2 n Considere um sistema de aquisição áudio que tem 10000 amostras de áudio mono com resolução de 3 bits com níveis entre 0 e 7. O número de ocorrências para os oito níveis foram [700, 900, 1500, 3000, 1700, 1100, 800, 300] n n Calcule e desenhe a função densidade de probabilidade para cada símbolo Calcule a entropia da fonte

Solução p[0] = 700/10000 = 0. 07 p[1] = 900/10000 = 0. 09 p[2]

Solução p[0] = 700/10000 = 0. 07 p[1] = 900/10000 = 0. 09 p[2] = 1500/10000 = 0. 15 p[3] = 3000/10000 = 0. 30 p[4] = 1700/10000 = 0. 17 p[5] = 1100/10000 = 0. 11 p[6] = 800/10000 = 0. 08 p[7] = 300/10000 = 0. 03

Sinal chord. wav Fig. 4. 14(a) Fig. 7. 3, pag. 149

Sinal chord. wav Fig. 4. 14(a) Fig. 7. 3, pag. 149

Redundância Estatística n O método de codificação baseado na entropia n n Não consegue

Redundância Estatística n O método de codificação baseado na entropia n n Não consegue altos níveis de compressão para a maioria dos sinais áudio Mas disponibiliza bom desempenho quando aplicado a coeficientes de transformada n Norma MPEG-1 utiliza codificação baseada na entropia

Codificação MU-LAW g h Quantificador Uniforme h* g*

Codificação MU-LAW g h Quantificador Uniforme h* g*

Codificação MU-LAW Caratcterísticas de E/S com

Codificação MU-LAW Caratcterísticas de E/S com

Exemplo 7. 3 n Considere o sinal áudio chord. Quantifique o sinal uniformemente com

Exemplo 7. 3 n Considere o sinal áudio chord. Quantifique o sinal uniformemente com 8 bits, utilizando a compressão com mu=255. Expanda o sinal e calcule a relação sinalruído (SNR). Compare a SNR com a obtida com o exemplo 4. 6

Redundância Temporal

Redundância Temporal

DPCM Differential Pulse Code Modulation n No DPCM n n n Uma amostra áudio

DPCM Differential Pulse Code Modulation n No DPCM n n n Uma amostra áudio é prevista com base nas amostras anteriores O valor previsto é aproximado mas diferente do valor da amostra Fórmula usada pela técnica LPC(Linear Preditive Coding)

Codificador DPCM Esquema simplificado Áudio original Quantificador Codificador Áudio Compactado Previsor

Codificador DPCM Esquema simplificado Áudio original Quantificador Codificador Áudio Compactado Previsor

Descodificador DPCM Esquema simplificado Áudio Reconstruído Descodificador Áudio Compactado Previsor

Descodificador DPCM Esquema simplificado Áudio Reconstruído Descodificador Áudio Compactado Previsor

DPCM

DPCM

Exemplo 7. 4 n Considere o sinal áudio chord. Determine o conjunto óptimo de

Exemplo 7. 4 n Considere o sinal áudio chord. Determine o conjunto óptimo de coeficientes de previsão de 1ª, 2ª e 3ª ordem.

Erros de previsão

Erros de previsão

DPCM n Depois de obtida o erro da sequência en n n É codificado

DPCM n Depois de obtida o erro da sequência en n n É codificado para reconstruir o sinal perfeitamente Na codificação com perdas uma qualidade de reconstrução razoável é aceitável n A quantificação é a única operação na codificação DPCM que introduz ruído

Exemplo 7. 5 n As 4 primeiras amostras duma sequência digital áudio são [70,

Exemplo 7. 5 n As 4 primeiras amostras duma sequência digital áudio são [70, 75, 80, 82, . . . ]. São necessários no mínimo 7 bits para codificar cada uma das amostras. As amostras áudio são codificadas usando o DPCM usando o previsor de primeira ordem. Os coeficientes de erro de predição são quantificados por 2 e arredondados para o próximo inteiro e armazenados sem perdas. Determine o número aproximado de bits necessários para representar cada amostra e o erro reconstruído em cada instância de amostra.

Codificação DPCM vários passos para a sequência [70, 75, 80, 82, . . .

Codificação DPCM vários passos para a sequência [70, 75, 80, 82, . . . ] Instâncias de amostras 0 1 2 3 Sinal original 70 75 80 82 Erro do sinal 0 75 -67. 9=6. 4 80 -73. 6 =6. 4 82 -77. 2 =4. 8 Erro do sinal quantificado 0 7. 1/2=4 6. 4/2=3 4. 8/2=2 Erro reconstruído 0 4*2=8 3*2=6 2*2=4 Sinal reconstruído 70 67. 9+8=75. 9 73. 6+6= 79. 6 77. 2+4= 81. 2 Sinal previsto para próxima amostra 70*0. 97=6 75. 9*0. 97=73. 6 7. 9 79. 6*0. 97= 77. 2 81. 2*0. 97 =78. 8 Erro de reconstrução 0 -0. 9 0. 4 0. 8 Nº de bits necessários 7 3 2 2

Codificação do Áudio Perceptível

Codificação do Áudio Perceptível

Codificação do Áudio Perceptível

Codificação do Áudio Perceptível

Normas de Compressão Áudio n Codificadores áudio de baixo débito n n Para telefone

Normas de Compressão Áudio n Codificadores áudio de baixo débito n n Para telefone ITU-G. 711 n n ITU-G. 722 n n n Defeito para ISDN 8000 amostras/seg, 8 bits/amostra Usam u-law e A-law companding Áudio de maior fidelidade Codifica 7 KHz em 64 Kbit/seg ITU-G. 729 n n Voz a 8 KHz Usa uma estrutura conjugada n Algebraic-Code-excited, Linear Prediction Agorithm

Normas de Compressão Áudio Codificadores áudio genéricos MPEG-1 n n n Adoptada em 1992

Normas de Compressão Áudio Codificadores áudio genéricos MPEG-1 n n n Adoptada em 1992 Para áudio digital de alta fidelidade Norma de compressão genérica n n MPEG-2 n n Pode compactar sinais áudio provenientes duma larga diversidade de fontes Baseada na MPEG-1 com alguns melhoramentos MPEG-4 n Compacta tanto som natural (música, voz) como sintetizado n O som sintetizado pode ser representado por texto ou pela descripção de intrumentos musicais com diferentes efeitos

Normas de Compressão Áudio Codificadores áudio genéricos n AC-2 e AC-3 n n Desenvolvidos

Normas de Compressão Áudio Codificadores áudio genéricos n AC-2 e AC-3 n n Desenvolvidos pela Dolby Digital Laboratories Para codificação de áudio de alata fidelidade multi-canal

Norma MPEG-1 Áudio n Explora as propriedades psico-acústicas do ouvido humano n n n

Norma MPEG-1 Áudio n Explora as propriedades psico-acústicas do ouvido humano n n n Taxa de amostragem áudio: 32, 44. 1 ou 48 KHz pode compactar: mono ou estéreo (2 canais) 3 camadas independentes de compressão n n Compromisso entre complexidade, relação de compressão, qualidade Camada 1 : mais simples, débitos acima de 128 kbps/canal Camada 2: complexidade moderada, débito à volta de 128 bits/canal Camada 3 (mp 3): maior complexidade, débitos à volta de 64 kbps/canal e oferece a melhor qualidade áudio n Adequada para transmissão áudio em ISDN

Codificador Áudio MPEG-1 Modelo Psico. Acústico Entrada Áudio Banco de Filtros de Análise Alocação,

Codificador Áudio MPEG-1 Modelo Psico. Acústico Entrada Áudio Banco de Filtros de Análise Alocação, Quantificação e Codificação de bits Dados auxiliares (opcional) Formatação da sequência de bits Sequência de bits codificada

Descodificador Áudio MPEG-1 Sequência de bits codificada Desempacotamento da sequência de bits Reconstrução da

Descodificador Áudio MPEG-1 Sequência de bits codificada Desempacotamento da sequência de bits Reconstrução da frequência de amostragem Dados auxiliares Banco de Filtros de Síntese Áudio Reconstruído

Áudio MPEG-1 Banco de Filtros n Para conseguir melhor desempenho n As larguras de

Áudio MPEG-1 Banco de Filtros n Para conseguir melhor desempenho n As larguras de banda dos filtros no banco de filtros devem unificar com as sub-bandas críticas n n Mais pequenas na gama inferior de frequências Maiores na gama superior Para simplificar o desenho do codificador n Existem 32 sub-bandas de igual largura Os filtros são relativamente simples n n Boa resolução no tempo e uma resolução razoável na frequência O banco de filtros não é reversível n Mesmo que os coeficientes de sub-banda não sejam quantificados, o sinal de áudio reconstruído não é igual ao original

MPEG camada 1, 2 e 3 Codificação de camada 12 Amostras 12 Amostras Filtro

MPEG camada 1, 2 e 3 Codificação de camada 12 Amostras 12 Amostras Filtro sub-banda 1 Filtro sub-banda 2 12 Amostras Agrupadas Filtro sub-banda 3 Amostras Áudio . . . 12 Amostras Filtro sub-banda 32 Quadro da camada 1 Quadro da camada 2 e 3

Codificação do MPEG-1 camada 3 1 Janela MDCT Banco de Redução Janela MDCT Filtros

Codificação do MPEG-1 camada 3 1 Janela MDCT Banco de Redução Janela MDCT Filtros da Entrada Áudio PCM . . . Camada 1 e da Camada 2 32 Janela MDCT . . . MDCT do Aliasing, Quantificação Áudio Compactado e codificação

Norma MPEG-2 n Define duas normas n MPEG-2 BC n n BC (Backward Compatible)

Norma MPEG-2 n Define duas normas n MPEG-2 BC n n BC (Backward Compatible) Extensão da norma MPEG-1 n n n Inclui codificação multi-canal e multilingue É permitida codificação a frequências abaixo de 32 KHz MPEG-2 AAC n ACC (Advanced Audio Coding) n Codificador áudio altamente avançado com um desempenho de compressão superior

MPEG-2 AAC n 3 Perfis ou Modos n Modo Low Complexity (LC) n n

MPEG-2 AAC n 3 Perfis ou Modos n Modo Low Complexity (LC) n n Modo Main n n Aplicações em que o gargalo é a velocidade de processamento e a memória Quando há capacidade de computação e memória disponíveis Mode SSR (Scalable Sample Rate) n Quando as aplicações precisam de descodificação escaláveis.

Codificador MPEG-2 AAC Esquema simplificado Entrada do Sinal Áudio Modelo Perceptual Banco de Filtros

Codificador MPEG-2 AAC Esquema simplificado Entrada do Sinal Áudio Modelo Perceptual Banco de Filtros Calibragem do ruído temporal Previsão Processo de Controlo da Taxa de Distorção Factores de Escala Quantizador Codificação sem ruído Multiplexador da Sequência de bits Sequência codificada de bits áudio

Normas de Compressão Áudio AC Áudio Digital Áudio O codificador AC-3 é largamente utilizado

Normas de Compressão Áudio AC Áudio Digital Áudio O codificador AC-3 é largamente utilizado para transportar Áudio multi-canal em aplicações como Vídeo DVD TV Digital TV de alta definição (HDTV) Aplicações de éstudio O codificador AC-3 foi precedido por AC-1 e AC-2. AC-1: Utiliza modulação delta adaptativa combinada companding analógica. Não é um codificador perceptual. AC-2: Um codificador perceptual que usa uma transformada de baixa Complexidade TDAC (Time domain alias cancellation) transform. Usa MDCT, MDST. Àudio de alta qualidade a um débito de 256 kbps por canal. AC-3: Superior ao AC-2. Alta qualidade a 384 kbps/seis-canais

Codificador AC-3 Esquema simplificado Mantissas Qunatificador da mantissa, Mantissas Quantificadas Alocação de bits Amostras

Codificador AC-3 Esquema simplificado Mantissas Qunatificador da mantissa, Mantissas Quantificadas Alocação de bits Amostras Áudio Transformação TDAC Vírgula flutuante em bloco Expoentes Coeficientes de transformada Áudio Codificado Empacotador do sequência de bits

Codificação de Expoente § Os expoentes são valores de 5 bits que indicam o

Codificação de Expoente § Os expoentes são valores de 5 bits que indicam o número de zeros da frente § Os valores dos expoentes variam de 0 a 24 § São codificados de forma diferencial § Os diferentes expoentes são combinados em grupos no bloco áudio § A Estratégia do expoente define como os diferentes expoentes são codificados

Descodificador AC-3 Esquema simplificado Sequência de bits codificada Desempacotador do expoente Ponto flutuante para

Descodificador AC-3 Esquema simplificado Sequência de bits codificada Desempacotador do expoente Ponto flutuante para fixo Alocação de bits Transformação inversa TDAC Desempacotador da mantissa, Normalização Canais 5. 1 de saída

Comparação de algoritmos Débito (em Kb/seg) Qualidade Aplicação Disponível desde MPEG Camada 1 32

Comparação de algoritmos Débito (em Kb/seg) Qualidade Aplicação Disponível desde MPEG Camada 1 32 -448 Boa a 192 Kbps/canal DCC 1991 MPEG Camada 2 32 -384 Boa a 256 Kbps/canal Difusão de Áudio Digital, CD-I, DVD 1991 MPEG Camada 3 32 -320 Boa a 96 Kbps/canal AC-3 Dolby 32 -640 Boa a 384 Kbps/5. 1 canais 1993 HDTV, Cabo, DVD 1991

Formatos Áudio típicos para armazenamento de som Extensão/ tipo de ficheiro Comentários aiff Áudio

Formatos Áudio típicos para armazenamento de som Extensão/ tipo de ficheiro Comentários aiff Áudio não compactado, tipicamente 16 bits/amostra. Pode ter outra resolução, tipicamente usado em Mac/Unix au Usa compressão mu-law. Usado em plataformas Sun mov Vídeo Quick. Time mpa/mp 2 Formato MPEG áudio. São usadas várias camadas para compromisso entre a complexidade e o desempenho mp 3 Camada 3 do MPEG áudio qt Formato Quick. Time. Proprietário da Apple Ra, ram Formato Real Áudio. Proprietário da Real Networks. Suporta áudio ao vivo na Internet wav Áudio não compactado, tipicamente 16 bits/amostra wma Áudio usado no Windows Media. Proprietário da Microsoft Formatos usados para cadeias de áudio na Internet