1031第二梯次暑期實習報告
實習主題:資料探勘
實習老師:袁鳳清
學生:巫峻霆
學號:1001748
1.蒐集資料
一開始是利用人工上網的方式來搜尋歷年來裕隆汽車的銷售量以及人口GDP等相關數據,因為有之前學長所留下來的資料和能夠查詢的網址,所以我在蒐集近兩年的資料時特別方便。
2.爬文程式學習
而在之後袁鳳清老師則是開始請林俊杰老師幫我們上課,利用大家有空的時間,一起到學校學期資料探勘的技術,其中包含C#程式撰寫以及SQL資料庫的連結,以及連接到中研院的斷詞斷字分析系統詳細介紹,林俊杰老師真的是非常盡心地指導我們,在之後也請了一位楊錦生老師碩班的學長加入我們的團隊,並指導我們,學長利用自己寫了一隻非常有用的程式,可以在MOBILE01順利地抓到資料,從中我們也學到了不少。
3.溝通討論
4.程式撰寫
5.斷詞斷字分析
在程式寫完之後,就要能夠順利的抓取該網站的資料,最後就是要做斷詞斷字的分 析,大家會把資料丟到一支斷詞斷字的程式,此程式是利用禹良志老師LAB的主機(連接到中研院或台科的資料庫),用裡面的詞庫來進行文章的解剖,會將名詞動詞形容詞細分出來,以便能快速的得知這一句講的是好是壞,以及重點是什麼。
從俊杰老師到碩班學長,以及小組的討論後,大概了解了探勘的方向及程式的基本架構,於是就開始寫程式了,我負責的網頁是卡提諾論壇的汽車版,在要寫好這支程式前還要先去了解網頁原始碼的TAG,查看自己所需要擷取的資料是屬於哪些TAG,以便程式能順利執行抓取資料的部分,另外C#也是我平旁比較少用到的程式語言,這些都是我之前很少接觸的,所以對我來說覺得滿困難的,很多程式的語法不熟悉,或是找不到自己所要的網頁TAG,所以一再的卡祝或是重寫,耽擱了不少時間。
在了解了探勘資料的一些基本概念後,我們和 禹良治老師的TEAM一起討論了我們要抓取資料的方向,主題是有關裕隆汽車的相關文章,而所要探勘的網頁大概有FB、PTT、MOBILE01、小老婆汽機車論壇、痞克邦、卡提諾......等比較具有知名度的大論壇或社群網頁,大家討論出各自所需要抓的網站,並設定好公用資料夾後,就要開始寫程式了。