根據上次的進度報告,所設定的目標是完成以下:
1.XML 轉換成 XML Schema (XSD)
2.把所有Terminal Value分給一個basic id
這次報告的研究進度為:
- XML轉換成XML Schema
- 利用XML相關類別完成轉換XML變成XML schema
- 分配basic id給Dom Tree上所有葉結點的值
- 利用XML A( new web page) 的所有葉結點路徑去比較XML B(pattern tree)中的路徑,以找出相對應的候選路徑以及相對應的候選basic id。
- 以 XML A的葉結點值與已分群的擷取資料作相關比較,並且分配最相關的basic id給此葉結點值。
- 利用以下的特徵值:
- 字母密度
- 標點符號密度
- 數字密度
- 平均字長度
- 每筆資料的平均Token數目
- Measure:Cosine Similarity
- Wrapper Verification:
- XSD確實可以去檢查XML的Schema是否有改變,所以相對的是他只能檢查此網站的html tag組成是否有大幅改變。
- XSD無法針對html中的語意改變。
- 因此XSD可以作為第一個檢查步驟,則在進一步確認語意上是否有改變。
- Assign basic id:
- 如果在Pattern Tree中找出的路徑不只一條時,會造成一對多的問題。
- 會變成Schema matching的問題。
- 另外,擷取後的資料中,原本在某一個欄位的資料,有可能會分佈於不同的basic id群中,而對新網頁在作assign basic id時,因為路徑相同而且在已存在屬於這些basic id中的數值,彼此間的相似度都很高,就目視而言,也無法判斷出他是屬於哪一類。
- 如果在Pattern Tree中找出的路徑不只一條時,會造成一對多的問題。
- 增加一個特徵值為路徑的編號,例如:1.2.1.3,希望可以準確的Reject部分不具有意義的值。
- 收集測試資料,一個搜尋引擎,蒐集不同類的10個key word以及N個回傳結果頁面。
- 以精確的XML path去比較path時,可能會造成一些missing。
- 原因是Web page與Pattern Tree中的路徑有一些gap,所以利用partial path可能會減少這些missing。
- Survey paper:
- Automatically maintaining wrappers for semi-structured web sources. (Focus on generating a new training set.)
- Juan Raposo, Alberto Pan, Manuel Álvarez, Justo Hidalgo
- Wrapper Maintenance: A Machine Learning Approach
- Kristina Lerman, Steven N. Minton, Craig A. Knoblock
- Kristina Lerman, Steven N. Minton, Craig A. Knoblock
- Automatically maintaining wrappers for semi-structured web sources. (Focus on generating a new training set.)
No comments:
Post a Comment