l An IndustrialStrength Audio Search Algorithm l Robust
相關研究 l “An Industrial-Strength Audio Search Algorithm” Ø l Robust Landmark-Based Audio Fingerprinting Ø l Y. Ke, D. Hoiem, and R. Sukthankar, CVPR, 2005 “Content Fingerprinting Using Wavelets” Ø l Dan Ellis, http: //labrosa. ee. columbia. edu/matlab/fingerprint/ “Computer Vision for Music Identification” Ø l Avery Wang, ISMIR, 2003 Baluja, Covell. , Proc. CVMP , 2006 “Survey and Evaluation of Audio Fingerprinting Schemes for Mobile Query-by-Example Applications” Ø Vijay Chandrasekhar, Matt Sharifi, David A. Ross, ISMIR, 2011 4/34
尋找landmark Pair peaks in target zone to form landmarks Spectrogram • Landmark: [t 1, f 2, Δt] • Hash key (24 bits): f 1: 9 bits Δf = f 2 -f 1: 8 bits Δt = t 2 -t 1: 7 bits • Hash value: Song ID & start time of landmark Salient peaks (Source: Avery 6/34
如何尋找threshold與salient peaks l 目的:尋找peaks,必須事先定義一個能量的門檻值。 l 當power spectrum > threshold,且差值位於前十名才 認定為salient peak。 7/34
Threshold於時域上的變化 8/34
Landmark儲存方法 9/34
還原歌曲編號及時間偏移量 歌曲 編號 2046 時間偏 雜湊� 移量 (frame) 6925 485890 2286 555 485890 2286 795 485890 2286 1035 485890 2286 2715 485890 2286 556 485890 … … … Matched landmark count 時間偏移量 重複次數 18 1 1 1 … … 12/34
排名結果 l Matched landmark count Ø查詢片段與資料庫歌曲的相似程度 歌曲編號 Matched landmark count 2286 18 2746 13 2255 9 2033 5 2019 4 … … 時間偏移量 … 13/34
模型訓練 分類器 片段長度 片段數 片段的正確/錯 誤比 選取特徵 SVM 10秒 1412 1223: 189 1. mean volume 2. standard deviation of volume 3. standard deviation of absolute sum of high-order difference 17/34
實驗結果二:Detection Error Tradeoff Curve Matched landmark count 允許誤差範 圍 (frame) 全在資 料庫的 測試片 段之 AFP辨 識率 79. 19% 79. 66% 79. 57% 24/34
如何減少選取的peaks與landmarks l觀察Delta T 查詢片段數: 1412個10秒片段 28/34
資料庫歌曲數的增加問題 �原先hash value機制 ◊ Hash value為uint 32 ◊ Song ID: 18 bits (約26萬首歌曲) ◊ Landmark start time: 14 bits (約16分鐘) �若想讓資料庫有百萬首歌曲 ◊ 調整Max time及Song ID bit數 �Song ID: 20 bits (約104萬首歌) �Landmark start time: 12 bits (約240秒) 33/34
Thank You! 34/34
- Slides: 34