。開始兩年的研究生生活。: 2009

Tuesday, November 24, 2009

2009.11.24 Progress Report

Progress Report

View more presentations from xoanon.

根據上次的進度報告，所設定的目標是完成以下：
1.XML 轉換成 XML Schema (XSD)
2.把所有Terminal Value分給一個basic id

這次報告的研究進度為：

XML轉換成XML Schema

利用XML相關類別完成轉換XML變成XML schema

分配basic id給Dom Tree上所有葉結點的值
- 利用XML A( new web page) 的所有葉結點路徑去比較XML B(pattern tree)中的路徑，以找出相對應的候選路徑以及相對應的候選basic id。
- 以 XML A的葉結點值與已分群的擷取資料作相關比較，並且分配最相關的basic id給此葉結點值。
- 利用以下的特徵值：
  - 字母密度
  - 標點符號密度
  - 數字密度
  - 平均字長度
  - 每筆資料的平均Token數目
- Measure:Cosine Similarity

問題：

Wrapper Verification:

XSD確實可以去檢查XML的Schema是否有改變，所以相對的是他只能檢查此網站的html tag組成是否有大幅改變。
XSD無法針對html中的語意改變。
因此XSD可以作為第一個檢查步驟，則在進一步確認語意上是否有改變。

Assign basic id:
- 如果在Pattern Tree中找出的路徑不只一條時，會造成一對多的問題。
  - 會變成Schema matching的問題。
- 另外，擷取後的資料中，原本在某一個欄位的資料，有可能會分佈於不同的basic id群中，而對新網頁在作assign basic id時，因為路徑相同而且在已存在屬於這些basic id中的數值，彼此間的相似度都很高，就目視而言，也無法判斷出他是屬於哪一類。

未來的工作將為：

增加一個特徵值為路徑的編號，例如：1.2.1.3，希望可以準確的Reject部分不具有意義的值。
收集測試資料，一個搜尋引擎，蒐集不同類的10個key word以及N個回傳結果頁面。
以精確的XML path去比較path時，可能會造成一些missing。
- 原因是Web page與Pattern Tree中的路徑有一些gap，所以利用partial path可能會減少這些missing。
Survey paper:
- Automatically maintaining wrappers for semi-structured web sources. (Focus on generating a new training set.)
  - Juan Raposo, Alberto Pan, Manuel Álvarez, Justo Hidalgo
- Wrapper Maintenance: A Machine Learning Approach
  - Kristina Lerman, Steven N. Minton, Craig A. Knoblock

Friday, August 28, 2009

BigSan's Blog: WCF 錯誤: 此集合已包含具有配置 http 的位址。此集合中，每一配置最多只能有一個位址。

Monday, July 13, 2009

2009.07.13 報告記錄

1. Gadget on Demand

簡介
Gadget：擁有特殊功能的小工具，通常可以嵌入在網頁上，大部分為部落格，最近幾年掀起了把gadget應用在電子產品上，例如：iphone。
On Demand:可以依照使用者所感興趣的網頁內容當作輸入。
Gadget On Demand：是以web為基礎的一個系統，讓使用者可以選擇所要擷取資料的網頁當作輸入，讓系統自動地擷取所輸入頁面中的資料，並且在資料擷取出之後，可以讓使用者選擇有感興趣的欄位，作為關鍵欄位作為進一步搜尋或是作為最後輸出的欄位，在經過幾個簡單步驟後，最後，使用者可以選擇適當的顯示模組，讓資料在此模組中呈現，最後生成的gadget，使用者可以選擇嵌入於自己部落格中或是安裝於iGoogle個人首頁上。
Tom's vs. Emily's
Websit - web application
Websit:A website (or web site) is a collection of related web pages, images, videos or other digital assets that are addressed with a common domain name or IP address in an Internet Protocol-based network.
Web application:a web application or webapp is an application that is accessed via web browser over a network such as the Internet or an intranet.
Reduce the times of I/O
設計一個資料結構來儲存資料，方便程式存取以減少對伺服器硬碟的存取次數。
Improve the User Interface
針對Tom's的使用者介面不良之處去設計並改善使用不方便之處。
Increase the flexibility of system
不只在使用介面上做改善，對於修改刪除的功能也改成較為彈性的操作方式。

2. FiVaTech's Extractor ( under contruction)

Tuesday, April 14, 2009

2009.04.13 Integrating Web Query Results: Holistic Schema Matching

Integrating web query results: holistic schema matching
Full text Pdf Pdf (368 KB)
Source Conference on Information and Knowledge Management

這次報告的主題是schema matching，而這篇的主題不是提出一個新的方法而是在現有的方法作效能的改善別且希望可以多到多來源網站的schema matching。

Approach:

1.兩個網站中產生Query Result的資料格式呈現方法皆不同，某兩個屬性值雖然不同，但是可能是屬於同一類，卻因為可能沒有包含語意的Label，所以可能無法match，此時，可以利用第三方網站的資料格式去做一個連結。

譬如：
A：有一個A1欄位值是「Paperback」 C:有一個C1欄位值是「Format: Handcover」這兩個字串值如果比較的話，相似度理論上是很低的，但是他們確是屬於同一種欄位，因此此時若有第三方來當一個中間Link的話，B:有一個B1欄位值是「Handcover」，這樣A1跟C1這兩個資料欄位就可以對應到了。

2.資料格式的全部欄位中，可以觀察出一些Constraint，譬如說：作者欄位大都跟隨在書名後面，而特價永遠小於等於原價，另外到達時間晚於起飛時間，這些Contraints對schema matching的準確率是非常有幫助的。

所以他們主要是以欄位作為matching的一個基本單位

the content of a field
the kinds of fields
the constraints of fields

接著他們把instace-based matching轉換成domain schema discovery的問題，接著他們把問題變成一個最佳化的問題，接下來就是他們的演算法。

最後的實驗結果，可以明顯看出他們的方法的確贏過其他方法（ClusMatch, ChainMatch, ProgMatch, InitMatch) ，在Source只有兩個的時後，平均的準確率還可以到達九成五左右。

不過數學式子的部分還要多看幾次之後，再補上我自己的解釋方法。

以下是我這次的簡報，建議演算法式子的部分參考原始論文：

20090411

View more presentations from xoanon.

Tuesday, January 20, 2009

2009.01.20 一個結束代表另一個開始

到昨天為止，總算是切切實實把這學期給告一個段落，雖然不是優等生，不過總算是把所有事情都作完了，不過好像還差一樣就是統整上學期報的paper，現在就當偷偷呼吸新鮮空氣，目標就是連寒假要看的三篇一起統整吧！

說到這學期，修的三門課都有期末project，其中統計學習更是下重手，包含了期末project以及期末考，真是非常宅心仁厚啊！不過因為統計學習的Project，我選擇作新聞分類，本來打算猛一點作郵件伺服器端，不過有勇無謀，所以就打消念頭，改用RSS訂閱新聞，在自行分類，而且在分類的時候也可以知道在最近哪些字眼的新聞特別多，可以讓他們變成Tagging，不過事實是殘酷的，因為數據是重點，功能是附加，我還是乖乖的把生出不同類型數據加以比較，這樣的方式比較符合這門課的需求吧！

時間不短不長的四個月，學習了很多新的知識，在統計學習的課上面，老師就介紹了超多種的分類法，以及怎麼從過多feature選取某部分的feature來代表全部的資訊，這些都是有關於Data mining方面，不過只是都瞭解表面層了，下學期如果上了Data mining的課程就會有更深的瞭解吧！而在程式方面，要加強的是web方面，一定練到跟windows application一樣，可以瞭解怎樣程式在OS上是可以被接受的，畢竟他是吃飯工具，也是系統分析的重要一環，所以能力一定要提升。

下學期開始前，一定得先把一些事前作業準備好，以防到時亂了陣腳，不過記得你自己身體健康要顧好，要不然會變回藥罐子。哈哈！！給自己加油一下。

。開始兩年的研究生生活。