top of page

巨量資料

  Big data,或稱大數據、海量資料、大資料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。在總資料量相同的情況下,與個別分析獨立的小型資料集(data set)相比,將各個小型資料集合併後進行分析可得出許多額外的資訊和資料關聯性,可用來察覺商業趨勢、判定研究品質、避免疾病擴散、打擊犯罪或測定即時交通路況等;這樣的用途正是大型資料集盛行的原因。

  由於巨量資料的數據龐大,以人工的方式難以去蒐集全部的資料加以進行分析,因此就需要資料探勘的技術。

資料探勘

  Data mining,又譯為數據挖掘、資料挖掘、資料採礦。它是資料庫知識發現(英文:Knowledge-Discovery in Databases,縮寫:KDD)中的一個步驟。資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性(屬於Association rule learning)的資訊的過程。資料挖掘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

  資料探勘有以下這些不同的定義:

「從資料中提取出隱含的過去未知的有價值的潛在資訊」

「一門從大量資料或者資料庫中提取有用資訊的科學。」

儘管通常資料挖掘應用於資料分析,但是像人工智慧一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD的關聯是:KDD是從資料中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD透過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。

  例子:資料探勘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時資料挖掘系統就在此客戶和真絲襯衣之間建立關聯。銷售部門就會看到此資訊,直接發送真絲襯衣的當前行情,以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過資料挖掘系統就發現了以前未知的關於客戶的新資訊,並且擴大經營範圍。

R語言(暑假額外學習)

  R語言是一種自由軟體程式語言與操作環境,主要用於統計分析、繪圖、資料探勘。R本來是由來自紐西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman開發(也因此稱為R),現在由「R開發核心團隊」負責開發。R是基於S語言的一個GNU計劃計畫,所以也可以當作S語言的一種實現,通常用S語言編寫的代碼都可以不作修改的在R環境下執行。R的語法是來自Scheme。

  R內建多種統計學及數字分析功能。R的功能也可以透過安裝套件(Packages,用戶撰寫的功能)增強。因為S的血緣,R比其他統計學或數學專用的編程語言有更強的物件導向(物件導向程式設計)功能。

  R的另一強項是繪圖功能,製圖具有印刷的素質,也可加入數學符號。

  雖然R主要用於統計分析或者開發統計相關的軟體,但也有人用作矩陣計算。其分析速度可媲美專用於矩陣計算的自由軟體GNU Octave和商業軟體MATLAB。

CALL FOR A FREE ESTIMATE  1-800-000-0000

© 2023 by Spick & Span. Proudly created with Wix.com

  • Twitter App Icon
  • Facebook App Icon
bottom of page