Voicebox Speech processing toolbox for MATLAB Andr Palhares
Voicebox Speech processing toolbox for MATLAB André Palhares
Vector Distance - disteusq • Calcula a distância euclidiana, quadrado da euclidiana ou de mahanalobis entre matrizes • D=disteusq(X, Y, MODE, W) • X, Y são matrizes com mesmo número de colunas • MODE é uma string – ‘x’: distância entre cada uma das linhas de X e Y – ‘d’: distância entre linhas correspondentes – ‘s‘: tira a raiz quadrada de modo a obter a distância euclidiana • W é opcional e utilizado como peso pra distância • Se MODE = ‘x’, retorna uma matriz com as distâncias • Se MODE = ‘d’, o retorno é um vetor coluna
Speech Analysis - enframe • Divide o sinal em frames, um por linha da matriz de saída • F = ENFRAME(X, LEN) – Cada frame fica com tamanho LEN e ocupa uma linha de F • F = ENFRAME(X, LEN, INC) – Cada frame começa a distancia INC do inicio do frame anterior
Speech Analysis – fram 2 wav • Converte frames em waveforms contínuos, usando algum método de interpolação • [w, s]=fram 2 wav(x, tt, mode) • Entradas – x(nf, p) – sinal de entrada, um frame por linha – tt(nf, 3) – serve para específicar quais frames exatamente se quer interpolar – mode – l pra interpolação linear, z para zero-order hold interpolation • Saídas – w(n, p) – s(ns, 2)
Speech Analysis – ewgrpdel • Calcula a energy weighted group delay waveform – para cada sample de entrada, essa rotina calcula o delay entre tal amostra e o centro de gravidade de uma janela centrada na amostra • [y, mm]=ewgrpdel(x, w, m) – x – sinal de entrada – w – a janela ou o tamanho da janela – m – onde fica o centro da janela (no meio, como default) – y – o waveform gerado – mm – o m utilizado no cálculo
Speech Analysis – activlev • • • Mede o level ativo do sinal, de acordo com a recomendação P. 56 da ITU-T [lev, af, fso]=activlev(sp, fs, mode) sp – sinal de entrada fs – frequencia de amostragem mode: – – – – • ‘r’ – omitir todos os filtros (padrao é 200 Hz até 5. 5 k. Hz) ‘ 0’ – não usar filtro passa alta (inclui DC) ‘ 4’ – usa filtro passa alta em 40 Hz ‘ 1’ – usa filtro de chebyschev de ordem 1 ‘ 2’ – usa filtro de chebyschev de ordem 2 (default) ‘e’ – usa filtro elíptico ‘h’ – omitir filtro passa baixa em 5. 5 k. Hz ‘d’ – saída e d. B Saídas – level do sinal – af – duty cycle do sinal – fso – vetor com informações adicionais do sinal
Speech Analysis – spgrambw • Exibe o spectrograma do sinal em escala de cinza • [tt, f, b]=spgrambw(data, fs, bw, fmax)
Speech Analysis – txalign • Encontra o melhor alinhamento entre dois conjuntos de marcadores de tempo • [kx, ky, nxy, mxy, sxy]=txalign(X, Y, MAXT) • X e Y são vetores de tempo. O alinhamento tenta minimizar (X-Y)^2 com uma penalidade de MAXT^2 para cada par de entradas que não alinhem • Saídas: nxy – número de alinhamentos obtidos mxy – média das distancias do alinhamento sxy – desvio padrão das distancias do alinhamento kx – vetor do mesmo tamanho de X. kx(i) = j se X(i) alinhou com Y(j). Se não, kx(i) = 0. – Ky – idem em relação a Y – –
Speech Analysis – soundspeed • Retorna a velocidade do som no ar, em função da temperatura • v=soundspeed(t, m, g) • t – temperatura do ar em celsius • m – peso molecular médio do ar • g – constante adiabática do ar • v – velocidade do som
Voicebox Parameters and System Interface - voicebox Usado para setar parâmetros globais do voicebox y=voicebox(f, v) f é o nome de algum campo a ser setado v é o novo valor que tal campo vai assumir y é o valor do campo atualmente, se nenhum valor novo for passado como parâmetro. Se f e v forem ambos passados ou não, y recebe a estrutura dos parâmetros atual • Entre os campos que podem ser setados, temos: • • • – – – PP. dir_temp - localização de dados temporários PP. dir_data - localizaçao de dados PP. shorten - localização do executavel shorten PP. sfsbin – localizaçao dos executaveis sfs PP. sfssuffix – sufixo dos executaveis sfs
- Slides: 10