克莉貓我去學校了喔!不過精神與你同在。

Friday, December 19, 2008

2008.12.09 Web 2.0 Paper Reading

Damia: data mashups for intranet applications

Source: SIGMOD '08: Proceedings of the 2008 ACM SIGMOD international conference on Management of data

Authors

David E. Simmen IBM Almaden Research Center, San Jose, CA, USA
Mehmet Altinel IBM Almaden Research Center, San Jose, CA, USA
Volker Markl IBM Almaden Research Center, San Jose, CA, USA
Sriram Padmanabhan Almaden Research Center, San Jose, CA, USA
Ashutosh Singh IBM Almaden Research Center, San Jose, CA, USA

Summary:
在 眾多企業公司中,不管是內部亦或是外部都存在許多尚待開發利用的資訊,而這些資訊通常是leader最為關切注意的,如何有效率的讓使用這去整合這些資訊 然後最為方便使用者瀏覽的方式呈現,而此篇論文的研究方向就是在開發一個方便使用者去整合多資料來源的工具,並且可以用RSS、XML、ATOM取回整合 完的結果, 同時也可以Feed Hub去分享有價值的Feed。

2008.12.09
View SlideShare presentation or Upload your own. (tags: damia)

Thursday, November 6, 2008

2008.11.05 Progress Report

真是可惡昨天寫到一半,宿舍大停電,然後OVER
最近已完成的進度:
   1.study HTTPS
   2.study spidermonkey and V8
     build two libraries but it is failure.
     可能哪還沒設定好吧!
   3.write the https auto-login application,and it is successful.

心得:
       從study HTTPS wiki開始,然後我的習慣通常是看到有link就按下去,然後就看到越來越多的資訊,直到我看到Black Hat 2008之後,發現我飄太遠了。不過蠻喜歡這樣的尋找答案過程,因為可能會在中間遇到你意想不到的驚喜。
   
       看了很多資訊後,決定來實作吧!利用好朋友google去尋找相關資訊,不斷的換keywords,後來發現唷!.NET framework有一個object叫WebClient,它提供從 URI 識別的資源處傳送和接收資料的通用方法,在配合其他的object,就可以完成我以為可能會很複雜的code,真是要感謝微軟了。

      之後,老師說希望可以改善此系統的UI,之前玩的都是單機應用程式,沒試過Web的UI說,不過也是值得嘗試。

Thursday, October 16, 2008

2008.10.16

這幾天把LAB電腦重灌成windows server 2003,不是我龜毛,是我習慣在2003上開發程式了,所以花了一下午重灌完,為什麼要花到一下午,因為就放著讓他RUN,然後跑去上課,所以才拖那麼久,陸續也把一堆service pack安裝完畢,可惡的微軟真是找碴。然後把VS2005在安裝上去,更詭異的是我以前安裝2003的時候,IIS通常是內建安裝的,他這個2003版本竟然沒預設安裝,害我想說怎麼跑不出來,好險我跟2003當好朋友好幾年了,有錯誤也比較知道發生甚麼事。

另外,最近從小丁學長那邊拿了士鋒學長跟小丁學長的各一份CODE,讓CODE都在我電腦正確WORK起來,然後順便從看一次DEMO的影片,看完之後,不小心笑了出來,心想這個不是一般使用者有辦法操作的介面吧!~"~若是以前的客戶一定又跟我說怎麼那麼不人性化之類的,不過士鋒學長是從無到有完成這樣的系統,已經很厲害,因為難的是核心,不過使用者通常才不管你那麼多呢!:(

下禮拜要交三份作業,要循序快點KO它們,不然沒時間做其他事,不過statistical learning真是硬,要寫出方法然後去跑training data,希望牆壁不要太多,並不想撞太多次。

Friday, October 10, 2008

2008.10.10 數學思考模組歸位

      統計學習理論與最佳化理論這兩門課充斥著數學的符號,他們都是以前學習過的數學加上一層應用。而我脫離唸書年代有一段時間,很多學過的數學變成一箱一箱的箱子,現在重新打開箱子把它們再歸位,說實在,一邊看以前課本一邊回想當初,不禁偷偷笑了一下,好險當初數學我沒有偷工減料,都努力看原文書去準備考試的,不然現在應該回想的記憶只剩下呼籠考試這件事吧!
      一邊看著現在的課本,有時候都想笑,原來這就是研究所的數學,哈!果然看起來很藝術,而我現在就在努力欣賞這些藝術,希望可以體會他藝術的精髓。

Thursday, October 2, 2008

2008.10.02

要報paper的關係,我沈迷於搜尋paper中,在這過程中,找了很多篇,後來研究了很久,選了這三篇
  1. New trends in information integration
  2. What do we "mashup" when we make mashups?
  3. Relations, cards, and search templates: user-guided web data integration and layout
第一篇論文他主要是著重在SCORE (Symbiotic Content Oriented information Retrieval) 與 EROCS (Entity Recognition in the Context of Structured data)的討論,幾乎整體著重在企業整合這部分,所以我決定以後在回來看他一次。

第二篇是有關於Mashup,介紹Mashup並且舉了很多例子去很詳細的比較,看完後會對Mashup有進一步瞭解。
第三篇是一個架構不會很複雜的系統,而他的內容讓人看完覺得很容易瞭解,並且有興趣去仔細看他,這個系統剛好又很類似學長們作的資訊整合,不過作者把這個系統解譯的很好,看完之後,覺得論文的名稱非常貼切。

之後可能研究學長那塊,所以會去尋找相關資訊來閱讀。而目前學長卡在登入那塊,所以會這塊優先研究。

Wednesday, October 1, 2008

080930 Rugular Meeting:Relations, Cards, and Search Templates:User-Guided Web Data Integration and Layout

     這次的題目是Relations, Cards, and Search Templates:User-Guided Web Data Integration and Layout,源自於UIST 2007 October,是由微軟、adobe及華盛頓大學所合作的一篇論文。

     對現在人們來說,WWW是一個很大的資訊來源,使用者可以透過網路作旅遊計畫、購物、學習新事物或者是看電視等等,但是資訊內容極多,使用者有時候要找到適當的資訊會變的越來越難,所以他們的研究是提出一個互動式介面來幫助使用者更方便更容易的去收集、管理、組織及分享他們的資料。

對於此研究,他們提出了三個技術,分別是:
1. an interaction technique:允許使用者去規劃網站之間的關係並且使用這些關係自動地從多個網站收集內容。
2. an interface:此介面是為了合併來自數個網站的內容並且以視覺化來呈現它們,此介面稱為card.
3.a novel search paradigm:利用 search template 來從網路收集內容。
以上三種技術是會建立在summaries framework[1]上面。

最後他們也請了學生來實際操作,大部分都覺得是一個不錯的系統,不過也同時針對relation、card及search template作了一些反映。

[1]M. Dontcheva, S.M. Drucker, G.Wade, D. Salesin, and M. F. Cohen. Summarizing personalWeb browsing sessions. In Proc. of UIST, pp. 115–124, 2006.

此為這次的報告投影片

20080930
View SlideShare presentation or Upload your own.

Wednesday, September 24, 2008

Workaround

最近看paper的同時,也認識了好多新單字,對這個單字特別有感興趣。

workaround 是指對bug來說,並沒有被fixed,但是有替代方案可解決。
no workaround 是指說bug沒有被fixed而且也無替代方案可以解決。
後者的嚴重性較高。

因為yahoo字典查不到,剛好有人做了解釋,才發現這個字從字面來看是大概可以運作>"<

Thursday, September 4, 2008

畢業論文Latex template

引用於此

源起 當年在準備碩士論文時, 最惱人的不是論文寫作, 而是排版問題, 還有不斷地處理頁碼, 圖表, theorem, lemma, reference等等的編號問題. 在論文初稿完成後, 我有時會改寫一個段落, 因為段落長度變了, 而頁碼也就跟著變了, 所以每次改完就回全去table of contents那裡檢查一下頁碼對不對(那時呆呆的, 不會用word的cross-reference). 這種事情多來幾次, 就覺得很無聊, 因為時間都被一些沒有實質義意的事情佔去了. 這還不打緊, 我的同學更慘, 他的的reference是用[1], [2]這種數字編號的, 而reference有上百個, 嘿嘿, 你可以想像新增或刪除reference有多痛苦.

後來我學會了word的cross-reference, 這一學會, 才知道word的cross-reference有多蠢. 原因是word的自動編號前一定會跟一個prefix. 像是參考文獻, 你要先設個左方括號[ 的prefix, 把參考文獻的資料加進去. 如果要引用第十四篇文獻的話, word會顯示像是[14這個字串, 然後我們手動再加個右方括號]就好了. 其他的theorem, lemma的編號也是如此. 然而, 它的功能就是顯示[14]而己, 如果你要排個[1, 5, 9], [2-5, 13]甚至是[Cole et al., 1997; Wang and Huang, 2003]這一類的reference, 那word就辦不到了. 當然, 你可以把[2-5,13] 排成[2], [3], [4], [5], [13]就好了. 但是在其他的情況, 這就會讓句子看起來不自然. 像是"According to lemmas 1, 3, and 5,..." 就必須變成"According to Lemma 1, Lemma 3 and Lemma 5,..."(排成"According to Lemmas 1, 3, and 5"的話更慘, refresh的時候所有的cross-reference的prefix會變回來, 所以要再重新排版一次).

word是很好用的工具, 但在需要大量cross-reference的文件上, 它並不太適用. 這也是我想用Latex弄個碩博士論文的template的原因. 這樣一來, 寫作的人可以把大部份心思放在內容寫作上, 而這也是Tex發展的初衷之一.

如果不知道Latex是什麼的話, 你可以先安裝miktex和cwtex, 然後在cwtex的安裝目錄(像是C:\Program Files\MiKTeX 2.5\cwtex)下找到doc\cxbook.pdf. 那是吳聰敏和吳聰慧兩位老師的大作. 稍微看一下你就知道Latex的文件怎麼寫, 還有它是怎麼變成ps或pdf檔的. 在我寫的template裡用到很多在cxbook.pdf裡的設定. 除此之外, 還有參考陳念波教授所設計的元智大學論文範本.


工具軟體 寫作的環境要能在最快時間內設定好, 所以我選擇以下的軟體:


軟體版本功用
miktex2.5Latex compile
cwtex17.5g處理中文的Latex compiler
vim (optional)7.0Latex文件的編輯器
Gsview4.6將ps圖檔轉成eps
Ghostscript8.13


接下來, 就是如何處理圖檔了. 因為最後上傳到圖書館的論文是加浮水印的pdf檔, 所以選擇用pdflatex來編譯文件(用latex指令和dvipdfm產生出來的pdf檔沒辦法正常顯示浮水印, 但pdflatex沒問題, 原因不明). 因為pdflatex不吃eps的圖檔, 所以要用epstopdf轉成pdf的格式. 生出eps圖檔的方式很多, 如果是純英文的話, 我會用Dia (有win32版本) 畫圖,再匯出成eps檔. 如果有中文的話, 就用visio畫, 然後用IBM 4079 這台File printer 印成ps檔, 然後用gsview的File -> PS to EPS轉成eps檔.

接下來就是論文格式了. 如果你去圖書館隨便下載幾個人的論文, 會發現每個人的格式都會多少會有些不同. 也就是說, 只要符合學校的要求, 其他的細節就可以由自己發揮.

Friday, August 29, 2008

Internet Explorer 8 beta

看了http://searchengineland.com/080827-224003.php之後,決定用用看,反正到時電腦要FORMAT給我媽用了。文章裡面提到多了一個功能就是右上角有一個web search engine,如果沒安裝其他的search engine的話,他單純就是用Live Search,用過之後,我偏愛用回原本的ToolBar,因為他沒有跟隨游標翻譯和記住你曾經搜尋過的key word。

我發現他也有翻譯功能,不知道7.0是否也有,相對的,功能越多,軟體越笨重~"~

Web 進化論

Web 從1.0進化到最近成熟的2.0,還沒摸熟2.0,3.0已經在蛋殼中等待了。

出自於Student BMJ
用醫學來形容web進化過程挺有趣
The development of the graphical web from its early days in 1995 to the social web of late 2007 is comparable to the developing brain.”
“Whereas web 1.0 and 2.0 were embryonic, formative technologies, web 3.0 promises to be a more mature web where better ‘pathways’ for information retrieval will be created, and a greater capacity for cognitive processing of information will be built.”




Tuesday, August 12, 2008

2008.08.12 中元普渡倒數2天

今天的Group meeting是碩二學長主講,題目是未知詞detection與extraction,因早上提早到了教室,所以有空把pp翻了一遍,發現這個跟中研院自然輸入法的斷詞引擎裡面某部分很相似,想不到離開IQ,還可以在遠處聽到這個熟悉的名詞「斷詞」,不過之前翻過中研院的資料,發現裡面的規則之多,還有詞的權重跟頻率問題,有夠複雜的,不過他今天講的未知詞聽起來好像是指有overlap關係,所以需要猜測詞的組合形式長怎樣?!今天主題聽懂,不過演算法真是有聽沒有懂一.一川

PS.今天真是睡過頭,按掉鬧鐘給他差點睡到火車跑掉,好險起床後刷牙洗臉穿衣拿包拿早餐坐火車一體成形,更好家在的是火車站就位於家門口,老天爺!您真是太可愛了。

Tuesday, August 5, 2008

2008.08.05 開工

今天去參加了第一次group meeting,老師一開始的循循善誘以及學長姐的自我介紹跟我們新生的自我介紹,感覺是一個親切的家。後來,學姐開始他的報告,是有關於「地址偵測」,聽完後發現還是難在怎麼去斷出每一塊,切的不好的話,結果就會變的不美麗。

meeting完後,博班學長帶我們去以後是我們窩的地方,如果是三個新生算是超寬鬆的實驗室吧!以後要好好弄一下座位,畢竟應該窩在實驗室機率比較大。
中午時間大家一起去宵夜街吃飯聊天,在學校附近的食物還是稍稍便宜一點。


之後在外唸書吃飯真是一個大問題,總不能以後叫老闆少油少鹽吧! 淑瑩學姐說女宿有共用冰箱,不過還是很麻煩,要貼標籤之類的,最多只能冰一個禮拜,真是糟糕。




PS.老師說新生八月就是拿這兩年畢業的碩士論文來看,然後順便想一下有興趣的題目,畢竟碩一上也是要交一個專題出來的,加油吧!

Friday, July 25, 2008

2008.07.25


炎熱酷夏,總讓我想變成夜行性動物
七月末,表示八月來到,快開學,要回復到唸書的心態
一起加油吧!