Mining Data Records in Web Pages BING LIU
Mining Data Records in Web Pages BING LIU, ROBERT GROSSMAN, YANHONG ZHAI SIGKDD 2003 SITOW
背景 Data. Record Display List +α �Webページからの情報抽出 New Service
関連研究 �パターン抽出 Chang, C-H. , Lui, S-L. “IEPAD: Information extraction based on pattern discovery”, WWW-10, 2001 パトリシア木 �クラスタリング Lerman, K. Knoblock, C. , and Minton, S. “Automatic data extraction from lists and tables in web sources. ” IJCAI-01 Workshop on Adaptive Text Extraction and Mining, 2001 �etc…
関連研究 Object 1 Object 2 Object 3 Object 4 … <table> <tr> <td>Object 1</td> <td>Object 2</td> </tr> <td>Object 3</td> <td>Object 4</td> </tr> </table> … Data. Record �既存の方法: 隣接セグメントのみ考慮
データ領域: 編集距離による比較 TBODY 1 2 TR TD 3 TR TD STRONG TD A 4 TR TD STRONG TR TD TD TD IMG STRONG 1: <TR TD> 2: <TR TD STRONG A TD> 3: <TR TD STRONG IMG TD> 4: <TR TD STRONG TD> O(|s 1||s 2|)
- Slides: 21