日韩一卡二卡三卡国产欧美,日韩精品一区二区三区外面 ,超碰国产一区,成人疯狂猛交xxx

黃石里諾軟件開發(fā)有限公司 點(diǎn)擊查看里諾合同管理系統(tǒng)簡(jiǎn)介...
里諾管理系統(tǒng)系列
里諾倉(cāng)庫(kù)管理軟件(單機(jī)版)
里諾倉(cāng)庫(kù)管理軟件(SQL網(wǎng)絡(luò)版)
里諾云倉(cāng)庫(kù)管理系統(tǒng)
里諾進(jìn)銷存管理軟件(單機(jī)版)
里諾進(jìn)銷存管理軟件(SQL網(wǎng)絡(luò)版)
里諾云進(jìn)銷存管理系統(tǒng)
里諾客戶管理系統(tǒng)(網(wǎng)絡(luò)版)
里諾云客戶管理系統(tǒng)
里諾合同管理軟件(單機(jī)版)
里諾合同管理軟件(SQL網(wǎng)絡(luò)版)
里諾云合同管理系統(tǒng)
里諾會(huì)員管理軟件(單機(jī)版)
里諾銷售管理軟件(單機(jī)版)
里諾銷售管理軟件(SQL網(wǎng)絡(luò)版)
里諾采購(gòu)管理軟件(單機(jī)版)
里諾采購(gòu)管理軟件(SQL網(wǎng)絡(luò)版)
里諾固定資產(chǎn)及折舊管理軟件
里諾固定資產(chǎn)及折舊軟件(SQL)
里諾工業(yè)進(jìn)銷存軟件(單機(jī)版)
里諾工業(yè)進(jìn)銷存軟件(SQL網(wǎng)絡(luò)版)
里諾進(jìn)銷存3000(單機(jī)版)
里諾倉(cāng)庫(kù)管理軟件(工程版)
里諾倉(cāng)庫(kù)管理軟件(SQL工程版)
里諾工業(yè)倉(cāng)庫(kù)管理軟件(單機(jī)版)
里諾工業(yè)倉(cāng)庫(kù)管理軟件(SQL版)
里諾鋼材倉(cāng)庫(kù)管理軟件
里諾人事工資軟件(單機(jī)版)
里諾戶口管理軟件(村居版)
里諾人口管理軟件(社區(qū)版)
里諾人事檔案管理系統(tǒng)
里諾云設(shè)備管理系統(tǒng)
里諾圖書租借管理系統(tǒng)

解決方案
 二維碼解決方案

倉(cāng)庫(kù)管理軟件下載

您現(xiàn)在的位置:里諾新聞 > 什么是數(shù)據(jù)挖掘?

什么是數(shù)據(jù)挖掘?

更新時(shí)間: 2009-09-21
數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量的數(shù)據(jù)中“挖掘”有趣知識(shí)的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)過程以下步驟組成:(1)數(shù)據(jù)清理,(2)數(shù)據(jù)集成,(3)數(shù)據(jù)選擇,(4)數(shù)據(jù)變換,(5)數(shù)據(jù)挖掘,(6)模式評(píng)估,(7)知識(shí)表示。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。
  并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫(kù)管理系統(tǒng)查找個(gè)別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁(yè)面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。

數(shù)據(jù)挖掘的起源

需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探索等。
  數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1) 來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),(2) 人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。

數(shù)據(jù)挖掘能做什么

1)數(shù)據(jù)挖掘能做以下六種不同事情(分析方法):
  · 分類 (Classification)
  · 估值(Estimation)
  · 預(yù)言(Prediction)
  · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
  · 聚集(Clustering)
  · 描述和可視化(Description and Visualization)
  · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
  2)數(shù)據(jù)挖掘分類
  以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘
  · 直接數(shù)據(jù)挖掘
  目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù),對(duì)一個(gè)特定的變量(可以理解成數(shù)據(jù)庫(kù)中表的屬性,即列)進(jìn)行描述。
  · 間接數(shù)據(jù)挖掘
  目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系 。
  · 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘
  3)各種分析方法的簡(jiǎn)介
  · 分類 (Classification)
  首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對(duì)于沒有分類的數(shù)據(jù)進(jìn)行分類。
  例子:
  a. 信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn)
  b. 分配客戶到預(yù)先定義的客戶分片
  注意: 類的個(gè)數(shù)是確定的,預(yù)先定義好的
  · 估值(Estimation)
  估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。
  例子:
  a. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)
  b. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的收入
  c. 估計(jì)real estate的價(jià)值
  一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級(jí)別分類。
  · 預(yù)言(Prediction)
  通常,預(yù)言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。
  · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
  決定哪些事情將一起發(fā)生。
  例子:
  a. 超市中客戶在購(gòu)買A的同時(shí),經(jīng)常會(huì)購(gòu)買B,即A => B(關(guān)聯(lián)規(guī)則)
  b. 客戶在購(gòu)買A后,隔一段時(shí)間,會(huì)購(gòu)買B (序列分析)
  · 聚集(Clustering)
  聚集是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
  例子:
  a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病
  b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
  聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對(duì)客戶響應(yīng)最好?",對(duì)于這一 類問題,首先對(duì)整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問題,可能效果更好。
  · 描述和可視化(Des cription and Visualization)
  是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。

數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則

1.什么是關(guān)聯(lián)規(guī)則
  在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個(gè)有趣的故事: "尿布與啤酒"的故事。
  在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購(gòu)買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。
  按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。
  數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。
  2.關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法
  2.1關(guān)聯(lián)規(guī)則挖掘的過程
  關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent Itemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。
  關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset),一般表示為L(zhǎng)arge k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無(wú)法再找到更長(zhǎng)的高頻項(xiàng)目組為止。
  關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。
  就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購(gòu)買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購(gòu)買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購(gòu)買尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購(gòu)買啤酒。這個(gè)商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購(gòu)買尿布的交易,會(huì)同時(shí)購(gòu)買啤酒”的消費(fèi)行為。
  從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫(kù)中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。
  2.2關(guān)聯(lián)規(guī)則的分類
  按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下:
  1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。
  布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。
  2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。
  在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如:IBM臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。
  3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。
  在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個(gè)維,如用戶購(gòu)買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。例如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購(gòu)買的物品;性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個(gè)字段的信息,是兩個(gè)維上的一條關(guān)聯(lián)規(guī)則。
  2.3關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法
  1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集
  Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。
  該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。
  可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù),是Apriori算法的兩大缺點(diǎn)。
  2.基于劃分的算法
  Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊,每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存,每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生全局的候選k-項(xiàng)集。通常這里的通信過程是算法執(zhí)行時(shí)間的主要瓶頸;而另一方面,每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。
  3.FP-樹頻集算法
  針對(duì)Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性,同時(shí)在效率上較之Apriori算法有巨大的提高。
  3.該領(lǐng)域在國(guó)內(nèi)外的應(yīng)用
  3.1關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)在國(guó)內(nèi)外的應(yīng)用
  就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營(yíng)銷。現(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。
  同時(shí),一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購(gòu)物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購(gòu)買的捆綁包。也有一些購(gòu)物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售,也就是購(gòu)買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。
  但是目前在我國(guó),“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫(kù)只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能,卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)。可以說,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。
  3.2近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究
  由于許多應(yīng)用問題往往比超市購(gòu)買問題更復(fù)雜,大量研究從不同的角度對(duì)關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。

數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)

在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
  ·數(shù)據(jù)的抽取
  數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。
  ·數(shù)據(jù)的存儲(chǔ)和管理
  數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。
  ·數(shù)據(jù)的展現(xiàn)
  在數(shù)據(jù)展現(xiàn)方面主要的方式有:
  查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。

數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面,可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。
  數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的,其學(xué)術(shù)研究?jī)r(jià)值和應(yīng)用研究前景將是令人振奮的。它是數(shù)據(jù)挖掘?qū)<摇?shù)據(jù)倉(cāng)庫(kù)技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫(kù)“奴隸”到數(shù)據(jù)庫(kù)“主人”轉(zhuǎn)變的企業(yè)最終用戶的通途。

統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘

統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實(shí)上,由于它們的目標(biāo)相似,一些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支。這是一個(gè)不切合實(shí)際的看法。因?yàn)閿?shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計(jì)算機(jī)學(xué)科,例如數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí),而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計(jì)學(xué)家所關(guān)注的有很大不同。
  
1.統(tǒng)計(jì)學(xué)的性質(zhì)

  
  試圖為統(tǒng)計(jì)學(xué)下一個(gè)太寬泛的定義是沒有意義的。盡管可能做到,但會(huì)引來很多異議。相反,我要關(guān)注統(tǒng)計(jì)學(xué)不同于數(shù)據(jù)挖掘的特性。
  差異之一同上節(jié)中最后一段提到的相關(guān),即統(tǒng)計(jì)學(xué)是一門比較保守的學(xué)科,目前有一種趨勢(shì)是越來越精確。當(dāng)然,這本身并不是壞事,只有越精確才能避免錯(cuò)誤,發(fā)現(xiàn)真理。但是如果過度的話則是有害的。這個(gè)保守的觀點(diǎn)源于統(tǒng)計(jì)學(xué)是數(shù)學(xué)的分支這樣一個(gè)看法,我是不同意這個(gè)觀點(diǎn)的,盡管統(tǒng)計(jì)學(xué)確實(shí)以數(shù)學(xué)為基礎(chǔ)(正如物理和工程也以數(shù)學(xué)為基礎(chǔ),但沒有被認(rèn)為是數(shù)學(xué)的分支),但它同其它學(xué)科還有緊密的聯(lián)系。
  數(shù)學(xué)背景和追求精確加強(qiáng)了這樣一個(gè)趨勢(shì):在采用一個(gè)方法之前先要證明,而不是象計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。這就意味著有時(shí)候和統(tǒng)計(jì)學(xué)家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個(gè)很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統(tǒng)計(jì)雜志傾向于發(fā)表經(jīng)過數(shù)學(xué)證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明如果方法不能產(chǎn)生結(jié)果的話就會(huì)被放棄。
  正是統(tǒng)計(jì)文獻(xiàn)顯示了(或夸大了)統(tǒng)計(jì)的數(shù)學(xué)精確性。同時(shí)還顯示了其對(duì)推理的側(cè)重。盡管統(tǒng)計(jì)學(xué)的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計(jì)論文的話就會(huì)發(fā)現(xiàn)這些文獻(xiàn)的核心問題就是在觀察了樣本的情況下如何去推斷總體。當(dāng)然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會(huì)提到數(shù)據(jù)挖掘的一個(gè)特定屬性就是要處理的是一個(gè)大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個(gè)樣本,但是需要描述樣本取自的那個(gè)大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常常可以得到數(shù)據(jù)總體,例如關(guān)于一個(gè)公司的所有職工數(shù)據(jù),數(shù)據(jù)庫(kù)中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價(jià)值了(例如,年度業(yè)務(wù)的平均值),因?yàn)橛^測(cè)到的值也就是估計(jì)參數(shù)。這就意味著,建立的統(tǒng)計(jì)模型可能會(huì)利用一系列概率表述(例如,一些參數(shù)接近于0,則會(huì)從模型中剔除掉),但當(dāng)總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無(wú)意義。在這里,我們可以很方便的應(yīng)用評(píng)估函數(shù):針對(duì)數(shù)據(jù)的足夠的表述。事實(shí)是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時(shí)常常會(huì)利用吻合度的單純特性(例如,應(yīng)用分支定理)。但當(dāng)我們應(yīng)用概率陳述時(shí)則不會(huì)得到這些特性。
  統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘部分交迭的第三個(gè)特性是在現(xiàn)代統(tǒng)計(jì)學(xué)中起核心作用的“模型”。或許“模型”這個(gè)術(shù)語(yǔ)更多的含義是變化。一方面,統(tǒng)計(jì)學(xué)模型是基于分析變量間的聯(lián)系,但另一方面這些模型關(guān)于數(shù)據(jù)的總體描述確實(shí)沒有道理的。關(guān)于信用卡業(yè)務(wù)的回歸模型可能會(huì)把收入作為一個(gè)獨(dú)立的變量,因?yàn)橐话阏J(rèn)為高收入會(huì)導(dǎo)致大的業(yè)務(wù)。這可能是一個(gè)理論模型(盡管基于一個(gè)不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進(jìn)行逐步的搜索,從而獲得一個(gè)有很大預(yù)測(cè)價(jià)值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個(gè)模型的時(shí)候,常常關(guān)注的就是后者)。
  還有其它方法可以區(qū)分統(tǒng)計(jì)模型,但在這里我將不作探討。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計(jì)學(xué)是以模型為主的。而計(jì)算,模型選擇條件是次要的,只是如何建立一個(gè)好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準(zhǔn)則起了核心的作用。(當(dāng)然在統(tǒng)計(jì)學(xué)中有一些以準(zhǔn)則為中心的獨(dú)立的特例。Gifi的關(guān)于學(xué)校的非線性多變量分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點(diǎn),給定一些最常用的MVA(多變量分析)問題,既可以從模型出發(fā)也可以技術(shù)出發(fā)。正如我們已經(jīng)在1.1節(jié)所看到的基于模型的經(jīng)典的多變量統(tǒng)計(jì)分析,……然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個(gè)合適的模型是不可能的,最合適的計(jì)算方法也是不可行的。在這種情形下,我們從另外一個(gè)角度出發(fā),應(yīng)用設(shè)計(jì)的一系列技術(shù)來回答MVA問題,暫不考慮模型和最優(yōu)判別的選擇。
  相對(duì)于統(tǒng)計(jì)學(xué)而言,準(zhǔn)則在數(shù)據(jù)挖掘中起著更為核心的作用并不奇怪,數(shù)據(jù)挖掘所繼承的學(xué)科如計(jì)算機(jī)科學(xué)及相關(guān)學(xué)科也是如此。數(shù)據(jù)集的規(guī)模常常意味著傳統(tǒng)的統(tǒng)計(jì)學(xué)準(zhǔn)則不適合數(shù)據(jù)挖掘問題,不得不重新設(shè)計(jì)。部分地,當(dāng)數(shù)據(jù)點(diǎn)被逐一應(yīng)用以更新估計(jì)量,適應(yīng)性和連續(xù)性的準(zhǔn)則常常是必須的。盡管一些統(tǒng)計(jì)學(xué)的準(zhǔn)則已經(jīng)得到發(fā)展,但更多的應(yīng)用是機(jī)器學(xué)習(xí)。(正如“學(xué)習(xí)”所示的那樣)
  
2.?dāng)?shù)據(jù)挖掘的性質(zhì)

  
  由于統(tǒng)計(jì)學(xué)基礎(chǔ)的建立在計(jì)算機(jī)的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計(jì)學(xué)工具包含很多可以手工實(shí)現(xiàn)的方法。因此,對(duì)于很多統(tǒng)計(jì)學(xué)家來說,1000個(gè)數(shù)據(jù)就已經(jīng)是很大的了。但這個(gè)“大”對(duì)于英國(guó)大的信用卡公司每年350,000,000筆業(yè)務(wù)或AT&T每天200,000,000個(gè)長(zhǎng)途呼叫來說相差太遠(yuǎn)了。很明顯,面對(duì)這么多的數(shù)據(jù),則需要設(shè)計(jì)不同于那些“原則上可以用手工實(shí)現(xiàn)”的方法。這意味這計(jì)算機(jī)(正是計(jì)算機(jī)使得大數(shù)據(jù)可能實(shí)現(xiàn))對(duì)于數(shù)據(jù)的分析和處理是關(guān)鍵的。分析者直接處理數(shù)據(jù)將變得不可行。相反,計(jì)算機(jī)在分析者和數(shù)據(jù)之間起到了必要的過濾的作用。這也是數(shù)據(jù)挖掘特別注重準(zhǔn)則的另一原因。盡管有必要,把分析者和數(shù)據(jù)分離開很明顯導(dǎo)致了一些關(guān)聯(lián)任務(wù)。這里就有一個(gè)真正的危險(xiǎn):非預(yù)期的模式可能會(huì)誤導(dǎo)分析者,這一點(diǎn)我下面會(huì)討論。
  我不認(rèn)為在現(xiàn)代統(tǒng)計(jì)中計(jì)算機(jī)不是一個(gè)重要的工具。它們確實(shí)是,并不是因?yàn)閿?shù)據(jù)的規(guī)模。對(duì)數(shù)據(jù)的精確分析方法如bootstrap方法、隨機(jī)測(cè)試,迭代估計(jì)方法以及比較適合的復(fù)雜的模型正是有了計(jì)算機(jī)才是可能的。計(jì)算機(jī)已經(jīng)使得傳統(tǒng)統(tǒng)計(jì)模型的視野大大的擴(kuò)展了,還促進(jìn)了新工具的飛速發(fā)展。
  下面來關(guān)注一下歪曲數(shù)據(jù)的非預(yù)期的模式出現(xiàn)的可能性。這和數(shù)據(jù)質(zhì)量相關(guān)。所有數(shù)據(jù)分析的結(jié)論依賴于數(shù)據(jù)質(zhì)量。GIGO的意思是垃圾進(jìn),垃圾出,它的引用到處可見。一個(gè)數(shù)據(jù)分析者,無(wú)論他多聰明,也不可能從垃圾中發(fā)現(xiàn)寶石。對(duì)于大的數(shù)據(jù)集,尤其是要發(fā)現(xiàn)精細(xì)的小型或偏離常規(guī)的模型的時(shí)候,這個(gè)問題尤其突出。當(dāng)一個(gè)人在尋找百萬(wàn)分之一的模型的時(shí)候,第二個(gè)小數(shù)位的偏離就會(huì)起作用。一個(gè)經(jīng)驗(yàn)豐富的人對(duì)于此類最常見的問題會(huì)比較警覺,但出錯(cuò)的可能性太多了。
  此類問題可能在兩個(gè)層次上產(chǎn)生。第一個(gè)是微觀層次,即個(gè)人記錄。例如,特殊的屬性可能丟失或輸錯(cuò)了。我知道一個(gè)案例,由于挖掘者不知道,丟失的數(shù)據(jù)被記錄為99而作為真實(shí)的數(shù)據(jù)處理。第二個(gè)是宏觀層次,整個(gè)數(shù)據(jù)集被一些選擇機(jī)制所歪曲。交通事故為此提供了一個(gè)好的示例。越嚴(yán)重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那么精確。事實(shí)上,很高比例的數(shù)據(jù)根本沒有記錄。這就造成了一個(gè)歪曲的映象-可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。
  統(tǒng)計(jì)學(xué)很少會(huì)關(guān)注實(shí)時(shí)分析,然而數(shù)據(jù)挖掘問題常常需要這些。例如,銀行事務(wù)每天都會(huì)發(fā)生,沒有人能等三個(gè)月得到一個(gè)可能的欺詐的分析。類似的問題發(fā)生在總體隨時(shí)間變化的情形。我的研究組有明確的例子顯示銀行債務(wù)的申請(qǐng)隨時(shí)間、競(jìng)爭(zhēng)環(huán)境、經(jīng)濟(jì)波動(dòng)而變化。
  
3.討論

  
  數(shù)據(jù)挖掘有時(shí)候是一次性的實(shí)驗(yàn)。這是一個(gè)誤解。它更應(yīng)該被看作是一個(gè)不斷的過程(盡
  管數(shù)據(jù)集時(shí)確定的)。從一個(gè)角度檢查數(shù)據(jù)可以解釋結(jié)果,以相關(guān)的觀點(diǎn)檢查可能會(huì)更接近等等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期的模式-同樣非預(yù)期的模式要以非預(yù)期的方法來發(fā)現(xiàn)。
  與把數(shù)據(jù)挖掘作為一個(gè)過程的觀點(diǎn)相關(guān)聯(lián)的是認(rèn)識(shí)到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的-可以回顧。然而,可以解釋這個(gè)事實(shí)并不能否定挖掘出它們的價(jià)值。沒有這些實(shí)驗(yàn),可能根本不會(huì)想到這些。實(shí)際上,只有那些可以依據(jù)過去經(jīng)驗(yàn)形成的合理的解釋的結(jié)構(gòu)才會(huì)是有價(jià)值的。
  顯然在數(shù)據(jù)挖掘存在著一個(gè)潛在的機(jī)會(huì)。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當(dāng)然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而,也不應(yīng)就此掩蓋危險(xiǎn)。所有真正的數(shù)據(jù)集(即使那些是以完全自動(dòng)方式搜集的數(shù)據(jù))都有產(chǎn)生錯(cuò)誤的可能。關(guān)于人的數(shù)據(jù)集(例如事務(wù)和行為數(shù)據(jù))尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的“非預(yù)期的結(jié)構(gòu)”本質(zhì)上是無(wú)意義的,而是因?yàn)槠x了理想的過程。(當(dāng)然,這樣的結(jié)構(gòu)可能會(huì)是有意義的:如果數(shù)據(jù)有問題,可能會(huì)干擾搜集數(shù)據(jù)的目的,最好還是了解它們)。與此相關(guān)聯(lián)的是如何確保(和至少為事實(shí)提供支持)任何所觀察到的模式是“真實(shí)的”,它們反應(yīng)了一些潛在的結(jié)構(gòu)和關(guān)聯(lián)而不僅僅是一個(gè)特殊的數(shù)據(jù)集,由于一個(gè)隨機(jī)的樣本碰巧發(fā)生。在這里,記分方法可能是相關(guān)的,但需要更多的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)挖掘工作者的研究。

相關(guān)文章
  • 安徽格林蘭生化設(shè)備有限公司攜手里諾軟件,打造智能化倉(cāng)儲(chǔ)管理新標(biāo)桿   (2025-06-14)
  • 2025里諾軟件端午節(jié)放假通知   (2025-05-30)
  • 申鵬塑業(yè)數(shù)字化升級(jí)新舉措:正式啟用里諾客戶管理軟件   (2025-05-24)
  • 仙游鼎峰財(cái)稅咨詢有限公司攜手里諾合同管理軟件,開啟財(cái)稅服務(wù)數(shù)字化新篇章   (2025-05-10)
  • 2025年里諾軟件五一勞動(dòng)節(jié)放假通知   (2025-04-30)
  • 里諾軟件2025年清明放假通知   (2025-04-03)
  • 沈陽(yáng)啟源工業(yè)泵制造有限公司實(shí)施里諾進(jìn)銷存管理軟件(SQL網(wǎng)絡(luò)版)   (2009-09-16)
  • 什么是BOM表?   (2009-09-16)
  • 我國(guó)服裝行業(yè)的特點(diǎn)   (2009-09-07)
  • 數(shù)據(jù)挖掘相關(guān)的10個(gè)問題   (2009-09-21)
  • 里諾進(jìn)銷存(SQL網(wǎng)絡(luò)版)助無(wú)錫市瑞杰電氣有限公司規(guī)范化管理   (2009-09-19)
  • 里諾餐飲管理軟件(單機(jī)版)   (2016-02-03)


  • 加速器之家 - 開游加速器 - 海豚軟件園 - 極速軟件園 - 考拉軟件站 - 番茄下載

    關(guān)于里諾 | 軟件著作權(quán) | 企業(yè)管理知識(shí) | 友情鏈接
    QQ咨詢:
    銷售電話: 0714-6252277, (0)18672215522   傳真: 0714-6252277(上班時(shí)間 9:00-17:30)
    Copyright 黃石里諾軟件開發(fā)有限公司 © 2005-2022 All Rights Reserved
    生成時(shí)間:2025-06-16 06:31:49
    主站蜘蛛池模板: 饶平县| 宁安市| 吴旗县| 商南县| 平山县| 淮南市| 莎车县| 屯门区| 永泰县| 河池市| 客服| 收藏| 斗六市| 镇赉县| 双桥区| 迁西县| 罗江县| 柳林县| 三原县| 百色市| 邵阳县| 澄迈县| 天津市| 玉田县| 横山县| 法库县| 县级市| 武城县| 澎湖县| 吉林省| 乌恰县| 威海市| 泸水县| 正定县| 长治市| 景宁| 玉溪市| 南江县| 凤山市| 浮梁县| 紫金县|