。開始兩年的研究生生活。

Tuesday, April 14, 2009

2009.04.13 Integrating Web Query Results: Holistic Schema Matching

Integrating web query results: holistic schema matching
Full text Pdf Pdf (368 KB)
Source Conference on Information and Knowledge Management

這次報告的主題是schema matching，而這篇的主題不是提出一個新的方法而是在現有的方法作效能的改善別且希望可以多到多來源網站的schema matching。

Approach:

1.兩個網站中產生Query Result的資料格式呈現方法皆不同，某兩個屬性值雖然不同，但是可能是屬於同一類，卻因為可能沒有包含語意的Label，所以可能無法match，此時，可以利用第三方網站的資料格式去做一個連結。

譬如：
A：有一個A1欄位值是「Paperback」 C:有一個C1欄位值是「Format: Handcover」這兩個字串值如果比較的話，相似度理論上是很低的，但是他們確是屬於同一種欄位，因此此時若有第三方來當一個中間Link的話，B:有一個B1欄位值是「Handcover」，這樣A1跟C1這兩個資料欄位就可以對應到了。

2.資料格式的全部欄位中，可以觀察出一些Constraint，譬如說：作者欄位大都跟隨在書名後面，而特價永遠小於等於原價，另外到達時間晚於起飛時間，這些Contraints對schema matching的準確率是非常有幫助的。

所以他們主要是以欄位作為matching的一個基本單位

the content of a field
the kinds of fields
the constraints of fields

接著他們把instace-based matching轉換成domain schema discovery的問題，接著他們把問題變成一個最佳化的問題，接下來就是他們的演算法。

最後的實驗結果，可以明顯看出他們的方法的確贏過其他方法（ClusMatch, ChainMatch, ProgMatch, InitMatch) ，在Source只有兩個的時後，平均的準確率還可以到達九成五左右。

不過數學式子的部分還要多看幾次之後，再補上我自己的解釋方法。

以下是我這次的簡報，建議演算法式子的部分參考原始論文：

20090411

View more presentations from xoanon.

Tuesday, January 20, 2009

2009.01.20 一個結束代表另一個開始

到昨天為止，總算是切切實實把這學期給告一個段落，雖然不是優等生，不過總算是把所有事情都作完了，不過好像還差一樣就是統整上學期報的paper，現在就當偷偷呼吸新鮮空氣，目標就是連寒假要看的三篇一起統整吧！

說到這學期，修的三門課都有期末project，其中統計學習更是下重手，包含了期末project以及期末考，真是非常宅心仁厚啊！不過因為統計學習的Project，我選擇作新聞分類，本來打算猛一點作郵件伺服器端，不過有勇無謀，所以就打消念頭，改用RSS訂閱新聞，在自行分類，而且在分類的時候也可以知道在最近哪些字眼的新聞特別多，可以讓他們變成Tagging，不過事實是殘酷的，因為數據是重點，功能是附加，我還是乖乖的把生出不同類型數據加以比較，這樣的方式比較符合這門課的需求吧！

時間不短不長的四個月，學習了很多新的知識，在統計學習的課上面，老師就介紹了超多種的分類法，以及怎麼從過多feature選取某部分的feature來代表全部的資訊，這些都是有關於Data mining方面，不過只是都瞭解表面層了，下學期如果上了Data mining的課程就會有更深的瞭解吧！而在程式方面，要加強的是web方面，一定練到跟windows application一樣，可以瞭解怎樣程式在OS上是可以被接受的，畢竟他是吃飯工具，也是系統分析的重要一環，所以能力一定要提升。

下學期開始前，一定得先把一些事前作業準備好，以防到時亂了陣腳，不過記得你自己身體健康要顧好，要不然會變回藥罐子。哈哈！！給自己加油一下。

Friday, December 19, 2008

2008.12.09 Web 2.0 Paper Reading

Damia: data mashups for intranet applications

Source: SIGMOD '08: Proceedings of the 2008 ACM SIGMOD international conference on Management of data

Authors

David E. Simmen	IBM Almaden Research Center, San Jose, CA, USA
Mehmet Altinel	IBM Almaden Research Center, San Jose, CA, USA
Volker Markl	IBM Almaden Research Center, San Jose, CA, USA
Sriram Padmanabhan	Almaden Research Center, San Jose, CA, USA
Ashutosh Singh	IBM Almaden Research Center, San Jose, CA, USA

Summary:
在眾多企業公司中，不管是內部亦或是外部都存在許多尚待開發利用的資訊，而這些資訊通常是leader最為關切注意的，如何有效率的讓使用這去整合這些資訊然後最為方便使用者瀏覽的方式呈現，而此篇論文的研究方向就是在開發一個方便使用者去整合多資料來源的工具，並且可以用RSS、XML、ATOM取回整合完的結果，同時也可以Feed Hub去分享有價值的Feed。

2008.12.09

View SlideShare presentation or Upload your own. (tags: damia)