克莉貓我去學校了喔!不過精神與你同在。

Tuesday, November 24, 2009

2009.11.24 Progress Report



根據上次的進度報告,所設定的目標是完成以下:
1.XML 轉換成 XML Schema (XSD)
2.把所有Terminal Value分給一個basic id

這次報告的研究進度為:
  1. XML轉換成XML Schema
    • 利用XML相關類別完成轉換XML變成XML schema

  2. 分配basic id給Dom Tree上所有葉結點的值
    • 利用XML A( new web page) 的所有葉結點路徑去比較XML B(pattern tree)中的路徑,以找出相對應的候選路徑以及相對應的候選basic id。
    • 以 XML A的葉結點值與已分群的擷取資料作相關比較,並且分配最相關的basic id給此葉結點值。
    • 利用以下的特徵值:
      • 字母密度
      • 標點符號密度
      • 數字密度
      • 平均字長度
      • 每筆資料的平均Token數目
    • Measure:Cosine Similarity
問題:
  1. Wrapper Verification:
    • XSD確實可以去檢查XML的Schema是否有改變,所以相對的是他只能檢查此網站的html tag組成是否有大幅改變。
    • XSD無法針對html中的語意改變。
    • 因此XSD可以作為第一個檢查步驟,則在進一步確認語意上是否有改變。

  2. Assign basic id:
    • 如果在Pattern Tree中找出的路徑不只一條時,會造成一對多的問題。
      • 會變成Schema matching的問題。
    • 另外,擷取後的資料中,原本在某一個欄位的資料,有可能會分佈於不同的basic id群中,而對新網頁在作assign basic id時,因為路徑相同而且在已存在屬於這些basic id中的數值,彼此間的相似度都很高,就目視而言,也無法判斷出他是屬於哪一類。
未來的工作將為:
  1. 增加一個特徵值為路徑的編號,例如:1.2.1.3,希望可以準確的Reject部分不具有意義的值。
  2. 收集測試資料,一個搜尋引擎,蒐集不同類的10個key word以及N個回傳結果頁面。
  3. 以精確的XML path去比較path時,可能會造成一些missing。
    • 原因是Web page與Pattern Tree中的路徑有一些gap,所以利用partial path可能會減少這些missing。
  4. Survey paper:
    • Automatically maintaining wrappers for semi-structured web sources. (Focus on generating a new training set.)
      • Juan Raposo, Alberto Pan, Manuel Álvarez, Justo Hidalgo
    • Wrapper Maintenance: A Machine Learning Approach
      • Kristina Lerman, Steven N. Minton, Craig A. Knoblock


No comments: