克莉貓我去學校了喔!不過精神與你同在。

Tuesday, November 24, 2009

2009.11.24 Progress Report



根據上次的進度報告,所設定的目標是完成以下:
1.XML 轉換成 XML Schema (XSD)
2.把所有Terminal Value分給一個basic id

這次報告的研究進度為:
  1. XML轉換成XML Schema
    • 利用XML相關類別完成轉換XML變成XML schema

  2. 分配basic id給Dom Tree上所有葉結點的值
    • 利用XML A( new web page) 的所有葉結點路徑去比較XML B(pattern tree)中的路徑,以找出相對應的候選路徑以及相對應的候選basic id。
    • 以 XML A的葉結點值與已分群的擷取資料作相關比較,並且分配最相關的basic id給此葉結點值。
    • 利用以下的特徵值:
      • 字母密度
      • 標點符號密度
      • 數字密度
      • 平均字長度
      • 每筆資料的平均Token數目
    • Measure:Cosine Similarity
問題:
  1. Wrapper Verification:
    • XSD確實可以去檢查XML的Schema是否有改變,所以相對的是他只能檢查此網站的html tag組成是否有大幅改變。
    • XSD無法針對html中的語意改變。
    • 因此XSD可以作為第一個檢查步驟,則在進一步確認語意上是否有改變。

  2. Assign basic id:
    • 如果在Pattern Tree中找出的路徑不只一條時,會造成一對多的問題。
      • 會變成Schema matching的問題。
    • 另外,擷取後的資料中,原本在某一個欄位的資料,有可能會分佈於不同的basic id群中,而對新網頁在作assign basic id時,因為路徑相同而且在已存在屬於這些basic id中的數值,彼此間的相似度都很高,就目視而言,也無法判斷出他是屬於哪一類。
未來的工作將為:
  1. 增加一個特徵值為路徑的編號,例如:1.2.1.3,希望可以準確的Reject部分不具有意義的值。
  2. 收集測試資料,一個搜尋引擎,蒐集不同類的10個key word以及N個回傳結果頁面。
  3. 以精確的XML path去比較path時,可能會造成一些missing。
    • 原因是Web page與Pattern Tree中的路徑有一些gap,所以利用partial path可能會減少這些missing。
  4. Survey paper:
    • Automatically maintaining wrappers for semi-structured web sources. (Focus on generating a new training set.)
      • Juan Raposo, Alberto Pan, Manuel Álvarez, Justo Hidalgo
    • Wrapper Maintenance: A Machine Learning Approach
      • Kristina Lerman, Steven N. Minton, Craig A. Knoblock


Monday, July 13, 2009

2009.07.13 報告記錄

   1. Gadget on Demand
  • 簡介
  • Gadget:擁有特殊功能的小工具,通常可以嵌入在網頁上,大部分為部落格,最近幾年掀起了把gadget應用在電子產品上,例如:iphone。
  • On Demand:可以依照使用者所感興趣的網頁內容當作輸入。
  • Gadget On Demand:是以web為基礎的一個系統,讓使用者可以選擇所要擷取資料的網頁當作輸入,讓系統自動地擷取所輸入頁面中的資料,並且在資料擷取出之後,可以讓使用者選擇有感興趣的欄位,作為關鍵欄位作為進一步搜尋或是作為最後輸出的欄位,在經過幾個簡單步驟後,最後,使用者可以選擇適當的顯示模組,讓資料在此模組中呈現,最後生成的gadget,使用者可以選擇嵌入於自己部落格中或是安裝於iGoogle個人首頁上。
  • Tom's vs. Emily's
  • Websit - web application
  • Websit:A website (or web site) is a collection of related web pages, images, videos or other digital assets that are addressed with a common domain name or IP address in an Internet Protocol-based network.
  • Web application:a web application or webapp is an application that is accessed via web browser over a network such as the Internet or an intranet.
  • Reduce the times of I/O
  • 設計一個資料結構來儲存資料,方便程式存取以減少對伺服器硬碟的存取次數。
  • Improve the User Interface
  • 針對Tom's的使用者介面不良之處去設計並改善使用不方便之處。
  • Increase the flexibility of system
  • 不只在使用介面上做改善,對於修改刪除的功能也改成較為彈性的操作方式。
2. FiVaTech's Extractor ( under contruction)