克莉貓我去學校了喔!不過精神與你同在。

Monday, July 13, 2009

2009.07.13 報告記錄

   1. Gadget on Demand
  • 簡介
  • Gadget:擁有特殊功能的小工具,通常可以嵌入在網頁上,大部分為部落格,最近幾年掀起了把gadget應用在電子產品上,例如:iphone。
  • On Demand:可以依照使用者所感興趣的網頁內容當作輸入。
  • Gadget On Demand:是以web為基礎的一個系統,讓使用者可以選擇所要擷取資料的網頁當作輸入,讓系統自動地擷取所輸入頁面中的資料,並且在資料擷取出之後,可以讓使用者選擇有感興趣的欄位,作為關鍵欄位作為進一步搜尋或是作為最後輸出的欄位,在經過幾個簡單步驟後,最後,使用者可以選擇適當的顯示模組,讓資料在此模組中呈現,最後生成的gadget,使用者可以選擇嵌入於自己部落格中或是安裝於iGoogle個人首頁上。
  • Tom's vs. Emily's
  • Websit - web application
  • Websit:A website (or web site) is a collection of related web pages, images, videos or other digital assets that are addressed with a common domain name or IP address in an Internet Protocol-based network.
  • Web application:a web application or webapp is an application that is accessed via web browser over a network such as the Internet or an intranet.
  • Reduce the times of I/O
  • 設計一個資料結構來儲存資料,方便程式存取以減少對伺服器硬碟的存取次數。
  • Improve the User Interface
  • 針對Tom's的使用者介面不良之處去設計並改善使用不方便之處。
  • Increase the flexibility of system
  • 不只在使用介面上做改善,對於修改刪除的功能也改成較為彈性的操作方式。
2. FiVaTech's Extractor ( under contruction)

Tuesday, April 14, 2009

2009.04.13 Integrating Web Query Results: Holistic Schema Matching

Integrating web query results: holistic schema matching
Full text PdfPdf (368 KB)
Source Conference on Information and Knowledge Management

這次報告的主題是schema matching,而這篇的主題不是提出一個新的方法而是在現有的方法作效能的改善別且希望可以多到多來源網站的schema matching。

Approach:

1.兩個網站中產生Query Result的資料格式呈現方法皆不同,某兩個屬性值雖然不同,但是可能是屬於同一類,卻因為可能沒有包含語意的Label,所以可能無法match,此時,可以利用第三方網站的資料格式去做一個連結。

譬如:
A:有一個A1欄位值是「Paperback」 C:有一個C1欄位值是「Format: Handcover」這兩個字串值如果比較的話,相似度理論上是很低的,但是他們確是屬於同一種欄位,因此此時若有第三方來當一個中間Link的話,B:有一個B1欄位值是「Handcover」,這樣A1跟C1這兩個資料欄位就可以對應到了。

2.資料格式的全部欄位中,可以觀察出一些Constraint,譬如說:作者欄位大都跟隨在書名後面,而特價永遠小於等於原價,另外到達時間晚於起飛時間,這些Contraints對schema matching的準確率是非常有幫助的。

所以他們主要是以欄位作為matching的一個基本單位

  1. the content of a field
  2. the kinds of fields
  3. the constraints of fields
接著他們把instace-based matching轉換成domain schema discovery的問題,接著他們把問題變成一個最佳化的問題,接下來就是他們的演算法。

最後的實驗結果,可以明顯看出他們的方法的確贏過其他方法(ClusMatch, ChainMatch, ProgMatch, InitMatch) ,在Source只有兩個的時後,平均的準確率還可以到達九成五左右。

不過數學式子的部分還要多看幾次之後,再補上我自己的解釋方法。

以下是我這次的簡報,建議演算法式子的部分參考原始論文: