日韩一卡二卡三卡国产欧美,日韩精品一区二区三区外面 ,超碰国产一区,成人疯狂猛交xxx

黃石里諾軟件開發(fā)有限公司 點擊查看里諾合同管理系統(tǒng)簡介...
里諾管理系統(tǒng)系列
里諾倉庫管理軟件(單機版)
里諾倉庫管理軟件(SQL網(wǎng)絡(luò)版)
里諾云倉庫管理系統(tǒng)
里諾進銷存管理軟件(單機版)
里諾進銷存管理軟件(SQL網(wǎng)絡(luò)版)
里諾云進銷存管理系統(tǒng)
里諾客戶管理系統(tǒng)(網(wǎng)絡(luò)版)
里諾云客戶管理系統(tǒng)
里諾合同管理軟件(單機版)
里諾合同管理軟件(SQL網(wǎng)絡(luò)版)
里諾云合同管理系統(tǒng)
里諾會員管理軟件(單機版)
里諾銷售管理軟件(單機版)
里諾銷售管理軟件(SQL網(wǎng)絡(luò)版)
里諾采購管理軟件(單機版)
里諾采購管理軟件(SQL網(wǎng)絡(luò)版)
里諾固定資產(chǎn)及折舊管理軟件
里諾固定資產(chǎn)及折舊軟件(SQL)
里諾工業(yè)進銷存軟件(單機版)
里諾工業(yè)進銷存軟件(SQL網(wǎng)絡(luò)版)
里諾進銷存3000(單機版)
里諾倉庫管理軟件(工程版)
里諾倉庫管理軟件(SQL工程版)
里諾工業(yè)倉庫管理軟件(單機版)
里諾工業(yè)倉庫管理軟件(SQL版)
里諾鋼材倉庫管理軟件
里諾人事工資軟件(單機版)
里諾戶口管理軟件(村居版)
里諾人口管理軟件(社區(qū)版)
里諾人事檔案管理系統(tǒng)
里諾云設(shè)備管理系統(tǒng)
里諾圖書租借管理系統(tǒng)

解決方案
 二維碼解決方案

倉庫管理軟件下載

您現(xiàn)在的位置:里諾新聞 > 什么是數(shù)據(jù)挖掘?

什么是數(shù)據(jù)挖掘?

更新時間: 2009-09-21
數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下步驟組成:(1)數(shù)據(jù)清理,(2)數(shù)據(jù)集成,(3)數(shù)據(jù)選擇,(4)數(shù)據(jù)變換,(5)數(shù)據(jù)挖掘,(6)模式評估,(7)知識表示。數(shù)據(jù)挖掘可以與用戶或知識庫交互。
  并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科學技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強信息檢索系統(tǒng)的能力。

數(shù)據(jù)挖掘的起源

需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學探索等。
  數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1) 來自統(tǒng)計學的抽樣、估計和假設(shè)檢驗,(2) 人工智能、模式識別和機器學習的搜索算法、建模技術(shù)和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。

數(shù)據(jù)挖掘能做什么

1)數(shù)據(jù)挖掘能做以下六種不同事情(分析方法):
  · 分類 (Classification)
  · 估值(Estimation)
  · 預言(Prediction)
  · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
  · 聚集(Clustering)
  · 描述和可視化(Description and Visualization)
  · 復雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
  2)數(shù)據(jù)挖掘分類
  以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘
  · 直接數(shù)據(jù)挖掘
  目標是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進行描述。
  · 間接數(shù)據(jù)挖掘
  目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關(guān)系 。
  · 分類、估值、預言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘
  3)各種分析方法的簡介
  · 分類 (Classification)
  首先從數(shù)據(jù)中選出已經(jīng)分好類的訓練集,在該訓練集上運用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進行分類。
  例子:
  a. 信用卡申請者,分類為低、中、高風險
  b. 分配客戶到預先定義的客戶分片
  注意: 類的個數(shù)是確定的,預先定義好的
  · 估值(Estimation)
  估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。
  例子:
  a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù)
  b. 根據(jù)購買模式,估計一個家庭的收入
  c. 估計real estate的價值
  一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預先設(shè)定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務(wù),運用估值,給各個客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級別分類。
  · 預言(Prediction)
  通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預言準確性是多少。
  · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
  決定哪些事情將一起發(fā)生。
  例子:
  a. 超市中客戶在購買A的同時,經(jīng)常會購買B,即A => B(關(guān)聯(lián)規(guī)則)
  b. 客戶在購買A后,隔一段時間,會購買B (序列分析)
  · 聚集(Clustering)
  聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預先定義好的類,不需要訓練集。
  例子:
  a. 一些特定癥狀的聚集可能預示了一個特定的疾病
  b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
  聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應(yīng)最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
  · 描述和可視化(Des cription and Visualization)
  是對數(shù)據(jù)挖掘結(jié)果的表示方式。

數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則

1.什么是關(guān)聯(lián)規(guī)則
  在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細節(jié)之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。
  在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。
  按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。
  數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。
  2.關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法
  2.1關(guān)聯(lián)規(guī)則挖掘的過程
  關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。
  關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現(xiàn)的頻率相對于所有記錄而言,必須達到某一水平。一項目組出現(xiàn)的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項目組為止。
  關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。
  就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀錄進行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今后若有某消費者出現(xiàn)購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因為就該超市過去的交易紀錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費行為。
  從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始數(shù)據(jù)庫中的指標值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進行適當?shù)臄?shù)據(jù)離散化(實際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。
  2.2關(guān)聯(lián)規(guī)則的分類
  按照不同情況,關(guān)聯(lián)規(guī)則可以進行分類如下:
  1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。
  布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進行處理,將其進行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進行處理,當然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個數(shù)值型關(guān)聯(lián)規(guī)則。
  2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。
  在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實的數(shù)據(jù)是具有多個不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對數(shù)據(jù)的多層性已經(jīng)進行了充分的考慮。例如:IBM臺式機=>Sony打印機,是一個細節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺式機=>Sony打印機,是一個較高層次和細節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。
  3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。
  在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。例如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購買的物品;性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個字段的信息,是兩個維上的一條關(guān)聯(lián)規(guī)則。
  2.3關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法
  1.Apriori算法:使用候選項集找頻繁項集
  Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
  該算法的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。
  可能產(chǎn)生大量的候選集,以及可能需要重復掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點。
  2.基于劃分的算法
  Savasere等設(shè)計了一個基于劃分的算法。這個算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產(chǎn)生頻集的每一個循環(huán)結(jié)束后,處理器之間進行通信來產(chǎn)生全局的候選k-項集。通常這里的通信過程是算法執(zhí)行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。
  3.FP-樹頻集算法
  針對Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān),然后再對這些條件庫分別進行挖掘。當原始數(shù)據(jù)量很大的時候,也可以結(jié)合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,F(xiàn)P-growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori算法有巨大的提高。
  3.該領(lǐng)域在國內(nèi)外的應(yīng)用
  3.1關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)在國內(nèi)外的應(yīng)用
  就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。現(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產(chǎn)品感興趣。
  同時,一些知名的電子商務(wù)站點也從強大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。
  但是目前在我國,“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。目前金融業(yè)實施的大多數(shù)數(shù)據(jù)庫只能實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢。可以說,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國的研究與應(yīng)用并不是很廣泛深入。
  3.2近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究
  由于許多應(yīng)用問題往往比超市購買問題更復雜,大量研究從不同的角度對關(guān)聯(lián)規(guī)則做了擴展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。

數(shù)據(jù)挖掘技術(shù)實現(xiàn)

在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
  ·數(shù)據(jù)的抽取
  數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護。
  ·數(shù)據(jù)的存儲和管理
  數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴展關(guān)系型數(shù)據(jù)庫的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔當數(shù)據(jù)倉庫的服務(wù)器。
  ·數(shù)據(jù)的展現(xiàn)
  在數(shù)據(jù)展現(xiàn)方面主要的方式有:
  查詢:實現(xiàn)預定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術(shù)表現(xiàn)復雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識。

數(shù)據(jù)挖掘與數(shù)據(jù)倉庫融合發(fā)展

數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面,可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對獨立的方面和工具。
  數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是融合與互動發(fā)展的,其學術(shù)研究價值和應(yīng)用研究前景將是令人振奮的。它是數(shù)據(jù)挖掘?qū)<摇?shù)據(jù)倉庫技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫“奴隸”到數(shù)據(jù)庫“主人”轉(zhuǎn)變的企業(yè)最終用戶的通途。

統(tǒng)計學與數(shù)據(jù)挖掘

統(tǒng)計學和數(shù)據(jù)挖掘有著共同的目標:發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實上,由于它們的目標相似,一些人(尤其是統(tǒng)計學家)認為數(shù)據(jù)挖掘是統(tǒng)計學的分支。這是一個不切合實際的看法。因為數(shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計算機學科,例如數(shù)據(jù)庫技術(shù)和機器學習,而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計學家所關(guān)注的有很大不同。
  
1.統(tǒng)計學的性質(zhì)

  
  試圖為統(tǒng)計學下一個太寬泛的定義是沒有意義的。盡管可能做到,但會引來很多異議。相反,我要關(guān)注統(tǒng)計學不同于數(shù)據(jù)挖掘的特性。
  差異之一同上節(jié)中最后一段提到的相關(guān),即統(tǒng)計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身并不是壞事,只有越精確才能避免錯誤,發(fā)現(xiàn)真理。但是如果過度的話則是有害的。這個保守的觀點源于統(tǒng)計學是數(shù)學的分支這樣一個看法,我是不同意這個觀點的,盡管統(tǒng)計學確實以數(shù)學為基礎(chǔ)(正如物理和工程也以數(shù)學為基礎(chǔ),但沒有被認為是數(shù)學的分支),但它同其它學科還有緊密的聯(lián)系。
  數(shù)學背景和追求精確加強了這樣一個趨勢:在采用一個方法之前先要證明,而不是象計算機科學和機器學習那樣注重經(jīng)驗。這就意味著有時候和統(tǒng)計學家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統(tǒng)計雜志傾向于發(fā)表經(jīng)過數(shù)學證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學科的綜合,已經(jīng)從機器學習那里繼承了實驗的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明如果方法不能產(chǎn)生結(jié)果的話就會被放棄。
  正是統(tǒng)計文獻顯示了(或夸大了)統(tǒng)計的數(shù)學精確性。同時還顯示了其對推理的側(cè)重。盡管統(tǒng)計學的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計論文的話就會發(fā)現(xiàn)這些文獻的核心問題就是在觀察了樣本的情況下如何去推斷總體。當然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會提到數(shù)據(jù)挖掘的一個特定屬性就是要處理的是一個大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常常可以得到數(shù)據(jù)總體,例如關(guān)于一個公司的所有職工數(shù)據(jù),數(shù)據(jù)庫中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價值了(例如,年度業(yè)務(wù)的平均值),因為觀測到的值也就是估計參數(shù)。這就意味著,建立的統(tǒng)計模型可能會利用一系列概率表述(例如,一些參數(shù)接近于0,則會從模型中剔除掉),但當總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無意義。在這里,我們可以很方便的應(yīng)用評估函數(shù):針對數(shù)據(jù)的足夠的表述。事實是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時常常會利用吻合度的單純特性(例如,應(yīng)用分支定理)。但當我們應(yīng)用概率陳述時則不會得到這些特性。
  統(tǒng)計學和數(shù)據(jù)挖掘部分交迭的第三個特性是在現(xiàn)代統(tǒng)計學中起核心作用的“模型”。或許“模型”這個術(shù)語更多的含義是變化。一方面,統(tǒng)計學模型是基于分析變量間的聯(lián)系,但另一方面這些模型關(guān)于數(shù)據(jù)的總體描述確實沒有道理的。關(guān)于信用卡業(yè)務(wù)的回歸模型可能會把收入作為一個獨立的變量,因為一般認為高收入會導致大的業(yè)務(wù)。這可能是一個理論模型(盡管基于一個不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進行逐步的搜索,從而獲得一個有很大預測價值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個模型的時候,常常關(guān)注的就是后者)。
  還有其它方法可以區(qū)分統(tǒng)計模型,但在這里我將不作探討。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計學是以模型為主的。而計算,模型選擇條件是次要的,只是如何建立一個好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準則起了核心的作用。(當然在統(tǒng)計學中有一些以準則為中心的獨立的特例。Gifi的關(guān)于學校的非線性多變量分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點,給定一些最常用的MVA(多變量分析)問題,既可以從模型出發(fā)也可以技術(shù)出發(fā)。正如我們已經(jīng)在1.1節(jié)所看到的基于模型的經(jīng)典的多變量統(tǒng)計分析,……然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計算方法也是不可行的。在這種情形下,我們從另外一個角度出發(fā),應(yīng)用設(shè)計的一系列技術(shù)來回答MVA問題,暫不考慮模型和最優(yōu)判別的選擇。
  相對于統(tǒng)計學而言,準則在數(shù)據(jù)挖掘中起著更為核心的作用并不奇怪,數(shù)據(jù)挖掘所繼承的學科如計算機科學及相關(guān)學科也是如此。數(shù)據(jù)集的規(guī)模常常意味著傳統(tǒng)的統(tǒng)計學準則不適合數(shù)據(jù)挖掘問題,不得不重新設(shè)計。部分地,當數(shù)據(jù)點被逐一應(yīng)用以更新估計量,適應(yīng)性和連續(xù)性的準則常常是必須的。盡管一些統(tǒng)計學的準則已經(jīng)得到發(fā)展,但更多的應(yīng)用是機器學習。(正如“學習”所示的那樣)
  
2.數(shù)據(jù)挖掘的性質(zhì)

  
  由于統(tǒng)計學基礎(chǔ)的建立在計算機的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計學工具包含很多可以手工實現(xiàn)的方法。因此,對于很多統(tǒng)計學家來說,1000個數(shù)據(jù)就已經(jīng)是很大的了。但這個“大”對于英國大的信用卡公司每年350,000,000筆業(yè)務(wù)或AT&T每天200,000,000個長途呼叫來說相差太遠了。很明顯,面對這么多的數(shù)據(jù),則需要設(shè)計不同于那些“原則上可以用手工實現(xiàn)”的方法。這意味這計算機(正是計算機使得大數(shù)據(jù)可能實現(xiàn))對于數(shù)據(jù)的分析和處理是關(guān)鍵的。分析者直接處理數(shù)據(jù)將變得不可行。相反,計算機在分析者和數(shù)據(jù)之間起到了必要的過濾的作用。這也是數(shù)據(jù)挖掘特別注重準則的另一原因。盡管有必要,把分析者和數(shù)據(jù)分離開很明顯導致了一些關(guān)聯(lián)任務(wù)。這里就有一個真正的危險:非預期的模式可能會誤導分析者,這一點我下面會討論。
  我不認為在現(xiàn)代統(tǒng)計中計算機不是一個重要的工具。它們確實是,并不是因為數(shù)據(jù)的規(guī)模。對數(shù)據(jù)的精確分析方法如bootstrap方法、隨機測試,迭代估計方法以及比較適合的復雜的模型正是有了計算機才是可能的。計算機已經(jīng)使得傳統(tǒng)統(tǒng)計模型的視野大大的擴展了,還促進了新工具的飛速發(fā)展。
  下面來關(guān)注一下歪曲數(shù)據(jù)的非預期的模式出現(xiàn)的可能性。這和數(shù)據(jù)質(zhì)量相關(guān)。所有數(shù)據(jù)分析的結(jié)論依賴于數(shù)據(jù)質(zhì)量。GIGO的意思是垃圾進,垃圾出,它的引用到處可見。一個數(shù)據(jù)分析者,無論他多聰明,也不可能從垃圾中發(fā)現(xiàn)寶石。對于大的數(shù)據(jù)集,尤其是要發(fā)現(xiàn)精細的小型或偏離常規(guī)的模型的時候,這個問題尤其突出。當一個人在尋找百萬分之一的模型的時候,第二個小數(shù)位的偏離就會起作用。一個經(jīng)驗豐富的人對于此類最常見的問題會比較警覺,但出錯的可能性太多了。
  此類問題可能在兩個層次上產(chǎn)生。第一個是微觀層次,即個人記錄。例如,特殊的屬性可能丟失或輸錯了。我知道一個案例,由于挖掘者不知道,丟失的數(shù)據(jù)被記錄為99而作為真實的數(shù)據(jù)處理。第二個是宏觀層次,整個數(shù)據(jù)集被一些選擇機制所歪曲。交通事故為此提供了一個好的示例。越嚴重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那么精確。事實上,很高比例的數(shù)據(jù)根本沒有記錄。這就造成了一個歪曲的映象-可能會導致錯誤的結(jié)論。
  統(tǒng)計學很少會關(guān)注實時分析,然而數(shù)據(jù)挖掘問題常常需要這些。例如,銀行事務(wù)每天都會發(fā)生,沒有人能等三個月得到一個可能的欺詐的分析。類似的問題發(fā)生在總體隨時間變化的情形。我的研究組有明確的例子顯示銀行債務(wù)的申請隨時間、競爭環(huán)境、經(jīng)濟波動而變化。
  
3.討論

  
  數(shù)據(jù)挖掘有時候是一次性的實驗。這是一個誤解。它更應(yīng)該被看作是一個不斷的過程(盡
  管數(shù)據(jù)集時確定的)。從一個角度檢查數(shù)據(jù)可以解釋結(jié)果,以相關(guān)的觀點檢查可能會更接近等等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預期的模式-同樣非預期的模式要以非預期的方法來發(fā)現(xiàn)。
  與把數(shù)據(jù)挖掘作為一個過程的觀點相關(guān)聯(lián)的是認識到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的-可以回顧。然而,可以解釋這個事實并不能否定挖掘出它們的價值。沒有這些實驗,可能根本不會想到這些。實際上,只有那些可以依據(jù)過去經(jīng)驗形成的合理的解釋的結(jié)構(gòu)才會是有價值的。
  顯然在數(shù)據(jù)挖掘存在著一個潛在的機會。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而,也不應(yīng)就此掩蓋危險。所有真正的數(shù)據(jù)集(即使那些是以完全自動方式搜集的數(shù)據(jù))都有產(chǎn)生錯誤的可能。關(guān)于人的數(shù)據(jù)集(例如事務(wù)和行為數(shù)據(jù))尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的“非預期的結(jié)構(gòu)”本質(zhì)上是無意義的,而是因為偏離了理想的過程。(當然,這樣的結(jié)構(gòu)可能會是有意義的:如果數(shù)據(jù)有問題,可能會干擾搜集數(shù)據(jù)的目的,最好還是了解它們)。與此相關(guān)聯(lián)的是如何確保(和至少為事實提供支持)任何所觀察到的模式是“真實的”,它們反應(yīng)了一些潛在的結(jié)構(gòu)和關(guān)聯(lián)而不僅僅是一個特殊的數(shù)據(jù)集,由于一個隨機的樣本碰巧發(fā)生。在這里,記分方法可能是相關(guān)的,但需要更多的統(tǒng)計學家和數(shù)據(jù)挖掘工作者的研究。

相關(guān)文章
  • 仙游鼎峰財稅咨詢有限公司攜手里諾合同管理軟件,開啟財稅服務(wù)數(shù)字化新篇章   (2025-05-10)
  • 2025年里諾軟件五一勞動節(jié)放假通知   (2025-04-30)
  • 里諾軟件2025年清明放假通知   (2025-04-03)
  • 展鑫兆(上海)實業(yè)發(fā)展有限公司正式啟用里諾合同管理軟件,開啟智能化合同管理新時代   (2025-03-29)
  • 里諾合同管理軟件網(wǎng)絡(luò)版助力上海一拓建材有限公司   (2025-03-15)
  • 長春百盛勘測有限公司啟用里諾合同管理軟件   (2025-03-01)
  • 沈陽啟源工業(yè)泵制造有限公司實施里諾進銷存管理軟件(SQL網(wǎng)絡(luò)版)   (2009-09-16)
  • 什么是BOM表?   (2009-09-16)
  • 我國服裝行業(yè)的特點   (2009-09-07)
  • 數(shù)據(jù)挖掘相關(guān)的10個問題   (2009-09-21)
  • 里諾進銷存(SQL網(wǎng)絡(luò)版)助無錫市瑞杰電氣有限公司規(guī)范化管理   (2009-09-19)
  • 里諾餐飲管理軟件(單機版)   (2016-02-03)


  • 加速器之家 - 歐易 - 海豚軟件園 - 極速軟件園 - 考拉軟件站 - 番茄下載

    關(guān)于里諾 | 軟件著作權(quán) | 企業(yè)管理知識 | 友情鏈接
    QQ咨詢:
    銷售電話: 0714-6252277, (0)18672215522   傳真: 0714-6252277(上班時間 9:00-17:30)
    Copyright 黃石里諾軟件開發(fā)有限公司 © 2005-2022 All Rights Reserved
    生成時間:2025-05-15 06:29:21
    主站蜘蛛池模板: 泌阳县| 建始县| 永登县| 勃利县| 峨眉山市| 蒙自县| 三门峡市| 巴林右旗| 宝山区| 陇西县| 洛扎县| 新邵县| 和龙市| 北海市| 汤阴县| 潼关县| 北安市| 高州市| 开鲁县| 溧阳市| 苍溪县| 江源县| 昭苏县| 禄劝| 思南县| 舟曲县| 丰顺县| 云和县| 汽车| 同仁县| 柏乡县| 安溪县| 石渠县| 嵊泗县| 凤庆县| 凤冈县| 五台县| 沂水县| 黄梅县| 阳东县| 临颍县|