當前位置:首頁 » 網頁前端 » web挖掘和文本挖掘
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

web挖掘和文本挖掘

發布時間: 2022-09-24 00:01:05

① 末代沙皇的小女兒安娜斯塔西婭還在人世嗎

沒賞金的我就簡答了,一分價錢一分貨。當年都被槍斃了並毀容燒毀,在處理沙皇一家屍體時安娜和阿列克謝被單獨放不遠處坑裡,劊子手解釋為了未來有人尋找11人混淆視聽,所以沙皇夫妻三個女兒一個御醫三個仆從9人在一坑,這11人2005年和2008年俄羅斯政府用dna證實了所有人身份。

② 數據挖掘知識點有哪些

1.數據、信息和知識是廣義數據表現的不同形式。
2.主要知識模式類型有:廣義知識,關聯知識,類知識,預測型知識,特異型知識

3.web挖掘研究的主要流派有:Web結構挖掘、Web使用挖掘、Web內容挖掘

4.一般地說,KDD是一個多步驟的處理過程,一般分為問題定義、數據抽取、數據預處理、.數據挖掘以及模式評估等基本階段。

5.資料庫中的知識發現處理過程模型有:階梯處理過程模型,螺旋處理過程模型,以用戶為中心的處理結構模型,聯機KDD模型,支持多數據源多知識模式的KDD處理模型

6.粗略地說,知識發現軟體或工具的發展經歷了獨立的知識發現軟體、橫向的知識發現工具集和縱向的知識發現解決方案三個主要階段,其中後面兩種反映了目前知識發現軟體的兩個主要發展方向。

7.決策樹分類模型的建立通常分為兩個步驟:決策樹生成,決策樹修剪。

③ 信息檢索,web數據挖掘 文本數據挖掘的區別是什麼我是一個計算機碩士,我該怎麼確定方向,

信息檢索是一門學科,所有與信息搜索有關的都可以歸為信息檢索,比如你到圖書館找你想要的書也是信息檢索的一個方向;WEB數據挖掘一般現在分為兩大類,一類關系知識挖掘,就是發現網路連接的內在模式,一類是內容知識挖掘,內容知識挖掘可以劃分為結構型、半結構型以及非結構型挖掘,文本挖掘屬於非結構型挖掘。

④ 數據挖掘與文本挖掘的區別

本質不同,數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程,文本挖掘有時也被稱為文字探勘、文本數據挖掘等,大致相當於文字分析,一般指文本處理過程中產生高質量的信息

數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。文本挖掘,高質量的信息通常通過分類和預測來產生,如模式識別。文本挖掘通常涉及輸入文本的處理過程(通常進行分析,同時加上一些衍生語言特徵以及消除雜音,隨後插入到資料庫中) ,產生結構化數據,並最終評價和解釋輸出。

關於數據挖掘和文本挖掘的相關學習,推薦CDA數據師的相關課程,課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。真正理解商業思維,項目思維,能夠遇到問題解決問題。點擊預約免費試聽課

⑤ 數據挖掘的常用方法有哪些

1、決策樹法

決策樹在解決歸類與預測上有著極強的能力,它以法則的方式表達,而這些法則則以一連串的問題表示出來,經由不斷詢問問題最終能導出所需的結果。典型的決策樹頂端是一個樹根,底部有許多的樹葉,它將紀錄分解成不同的子集,每個子集中的欄位可能都包含一個簡單的法則。此外,決策樹可能有著不同的外型,例如二元樹、三元樹或混和的決策樹型態。


2、神經網路法


神經網路法是模擬生物神經系統的結構和功能,是一種通過訓練來學習的非線性預測模型,它將每一個連接看作一個處理單元,試圖模擬人腦神經元的功能,可完成分類、聚類、特徵挖掘等多種數據挖掘任務。神經網路的學習方法主要表現在權值的修改上。其優點是具有抗干擾、非線性學習、聯想記憶功能,對復雜情況能得到精確的預測結果;缺點首先是不適合處理高維變數,不能觀察中間的學習過程,具有“黑箱”性,輸出結果也難以解釋;其次是需較長的學習時間。神經網路法主要應用於數據挖掘的聚類技術中。


3、關聯規則法


關聯規則是描述資料庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。在客戶關系管理中,通過對企業的客戶資料庫里的大量數據進行挖掘,可以從大量的記錄中發現有趣的關聯關系,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定製客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據。


4、遺傳演算法


遺傳演算法模擬了自然選擇和遺傳中發生的繁殖、交配和基因突變現象,是一種採用遺傳結合、遺傳交叉變異及自然選擇等操作來生成實現規則的、基於進化理論的機器學習方法。它的基本觀點是“適者生存”原理,具有隱含並行性、易於和其他模型結合等性質。主要的優點是可以處理許多數據類型,同時可以並行處理各種數據;缺點是需要的參數太多,編碼困難,一般計算量比較大。遺傳演算法常用於優化神經元網路,能夠解決其他技術難以解決的問題。


5、聚類分析法


聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬於同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。根據定義可以把其分為四類:基於層次的聚類方法;分區聚類演算法;基於密度的聚類演算法;網格的聚類演算法。常用的經典聚類方法有K-mean,K-medoids,ISODATA等。


6、模糊集法


模糊集法是利用模糊集合理論對問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性。系統的復雜性越高,模糊性就越強。


7、web頁挖掘


通過對Web的挖掘,可以利用Web的海量數據進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息,並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。


8、邏輯回歸分析


反映的是事務資料庫中屬性值在時間上的特徵,產生一個將數據項映射到一個實值預測變數的函數,發現變數或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特徵、數據序列的預測以及數據間的相關關系等。


9、粗糙集法


是一種新的處理含糊、不精確、不完備問題的數學工具,可以處理數據約簡、數據相關性發現、數據意義的評估等問題。其優點是演算法簡單,在其處理過程中可以不需要關於數據的先驗知識,可以自動找出問題的內在規律;缺點是難以直接處理連續的屬性,須先進行屬性的離散化。因此,連續屬性的離散化問題是制約粗糙集理論實用化的難點。


10、連接分析


它是以關系為主體,由人與人、物與物或是人與物的關系發展出相當多的應用。例如電信服務業可藉連結分析收集到顧客使用電話的時間與頻率,進而推斷顧客使用偏好為何,提出有利於公司的方案。除了電信業之外,愈來愈多的營銷業者亦利用連結分析做有利於企業的研究。

⑥ 信息檢索,web數據挖掘 文本數據挖掘的區別是什麼我是一個計算機碩士,我該怎麼確定方向,嘀嗒網

問題描述:才能更容易的進入國家電網內部,比如電科院一類的單
位?是信息檢索還是數據挖掘
答案1:: 信息檢索是一門學科,所有與信息搜索有關的都可以歸為
信息檢索,比如你到圖書館找你想要的書也是信息檢索的一個方向;
WEB數據挖掘一般現在分為兩大類,一類關系知識挖掘,就是發現網路
連接的內在模式,一類是內容知識挖掘,內容知識挖掘可以劃分為結
構型、半結構型以及非結構型挖掘,文本挖掘屬於非結構型挖掘。
:::::::::::::::::::請參考以下相關問題::::::::::::::::::::
:::::::::::::::::::請參考以下相關問題::::::::::::::::::::
信息檢索與數據挖掘 論文
:::::::::::::::::::請參考以下相關問題::::::::::::::::::::
:::::::::::::::::::請參考以下相關問題::::::::::::::::::::
數據挖掘的web應用:::::::::::::::::::請參考以下相關問題::::::::::::::::::::

⑦ 如何進行文本挖掘,文本挖掘的目的,web挖掘和目的

一、文本挖掘定義
文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘演算法,後者是無監督的挖掘演算法。
二、文本挖掘步驟
1)讀取資料庫或本地外部文本文件
2)文本分詞
2.1)自定義字典
2.2)自定義停止詞
2.3)分詞
2.4)文字雲檢索哪些詞切的不準確、哪些詞沒有意義,需要循環2.1、2.2和 2.3步驟
3)構建文檔-詞條矩陣並轉換為數據框
4)對數據框建立統計、挖掘模型
5)結果反饋
三、文本挖掘所需工具

文本挖掘將使用R語言實現,除此還需載入幾個R包,它們是tm包、tmcn包、Rwordseg包和wordcloud包。
四、實戰
本文所用數據集來自於sougou實驗室數據。

⑧ 用戶行為分析系統建立所需步驟和所需軟體

Web日誌挖掘分析的方法

日誌文件的格式及其包含的信息
①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico
⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426
+Firefox/1.5.0.3。
訪問時間;②用戶IP地址;③訪問的URL,埠;④請求方法(「GET」、「POST」等);
⑤訪問模式;⑥agent,即用戶使用的操作系統類型和瀏覽器軟體。

一、日誌的簡單分析
1、注意那些被頻繁訪問的資源
2、注意那些你網站上不存在資源的請求。常見的掃描式攻擊還包括傳遞惡意參數等:
3、觀察搜索引擎蜘蛛的來訪情況
4、觀察訪客行為
應敵之策:
1、封殺某個IP
2、封殺某個瀏覽器類型(Agent)
3、封殺某個來源(Referer)
4、防盜鏈
5、文件重命名
作用:
1.對訪問時間進行統計,可以得到伺服器在某些時間段的訪問情況。
2.對IP進行統計,可以得到用戶的分布情況。
3.對請求URL的統計,可以得到網站頁面關注情況。
4.對錯誤請求的統計,可以更正有問題的頁面。

二、Web挖掘
根據所挖掘的Web 數據的類型,可以將Web 數據挖掘分為以下三類:Web 內容挖掘(Web Content Mining)、Web 結構挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也稱為Web日誌挖掘)。
①Web內容挖掘。Web內容挖掘是指從文檔的內容中提取知識。Web內容挖掘又分為文本挖掘和多媒體挖掘。目前多媒體數據的挖掘研究還處於探索階段,Web文本挖掘已經有了比較實用的功能。Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯分析,以及利用Web文檔進行趨勢預測等。Web文檔中的標記,例如<Title>和<Heading>等蘊含了額外的信息,可以利用這些信息來加強Web文本挖掘的作用。
②Web結構挖掘。Web結構挖掘是從Web的組織結構和鏈接關系中推導知識。它不僅僅局限於文檔之間的超鏈接結構,還包括文檔內部的結構。文檔中的URL目錄路徑的結構等。Web結構挖掘能夠利用網頁間的超鏈接信息對搜索引擎的檢索結果進行相關度排序,尋找個人主頁和相似網頁,提高Web搜索蜘蛛在網上的爬行效率,沿著超鏈接優先爬行。Web結構挖掘還可以用於對Web頁進行分類、預測用戶的Web鏈接使用及Web鏈接屬性的可視化。對各個商業搜索引擎索引用的頁數量進行統計分析等。
③Web使用記錄挖掘。Web使用記錄挖掘是指從Web的使用記錄中提取感興趣的模式,目前Web使用記錄挖掘方面的研究較多,WWW中的每個伺服器都保留了訪問日誌,記錄了關於用戶訪問和交互的信息,可以通過分析和研究Web日誌記錄中的規律,來識別網站的潛在用戶;可以用基於擴展有向樹模型來識別用戶瀏覽序列模式,從而進行Web日誌挖掘;可以根據用戶訪問的Web記錄挖掘用戶的興趣關聯規則,存放在興趣關聯知識庫中,作為對用戶行為進行預測的依據,從而為用戶預取一些Web頁面,加快用戶獲取頁面的速度,分析這些數據還可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。
通過對Web伺服器日誌中大量的用戶訪問記錄深入分析,發現用戶的訪問模式和興趣愛好等有趣、新穎、潛在有用的以及可理解的未知信息和知識,用於分析站點的使用情況,從而輔助管理和支持決策。當前,web日誌挖掘主要被用於個性化服務與定製、改進系統性能和結構、站點修改、商業智能以及web特徵描述等諸多領域。

三、Web日誌挖掘的方法
(一)首先,進行數據的預處理。
從學習者的訪問日誌中得到的原始日誌記錄並不適於挖掘,必須進行適當的處理才能進行挖掘。因此,需要通過日誌清理,去除無用的記錄;對於某些記錄,我們還需要通過站點結構信息,把URL路徑補充成完整的訪問序列;然後劃分學習者,並把學習者的會話劃分成多個事務。
(二)其次,進行模式發現
一旦學習者會話和事務識別完成,就可以採用下面的技術進行模式發現。模式發現, 是對預處理後的數據用數據挖掘演算法來分析數據。分有統計、分類、聚類、關等多種方法。
① 路徑分析。它可以被用於判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關路徑的信息通過路徑分析可以得出。路徑分析可以用來確定網站上的頻繁訪問路徑, 從而調整和優化網站結構, 使得用戶訪問所需網頁更加簡單快捷, 還可以根據用戶典型的瀏覽模式用於智能推薦和有針對性的電子商務活動。例如:70% 的學習者在訪問/ E-Business /M2時,是從/EB開始,經過/ E-Business /SimpleDescription,/ E-Business /M1;65%的學習者在瀏覽4個或更少的頁面內容後就離開了。利用這些信息就可以改進站點的設計結構。
② 關聯規則。 使用關聯規則發現方法,可以從Web的訪問事務中找到的相關性。關聯規則是尋找在同一個事件中出現的不同項的相關性,用數學模型來描述關聯規則發現的問題:x=>y的蘊含式,其中x,y為屬性——值對集(或稱為項目集),且X∩Y空集。在資料庫中若S%的包含屬性——值對集X的事務也包含屬性——值集Y,則關聯規則X=>Y的置信度為C%。
③ 序列模式。在時間戳有序的事務集中,序列模式的發現就是指那些如「一些項跟隨另一個項」這樣的內部事務模式。它能發現資料庫中如「在某一段時間內,客戶購買商品A,接著會購買商品B,爾後又購買商品C,即序列A→B→C出現的頻率高」之類的信息。序列模式描述的問題是:在給定的交易序列資料庫中,每個序列按照交易的時間排列的一組交易集,挖掘序列函數作用是返回該資料庫中高頻率出現有序列。
④ 分類分析。發現分類規則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用於分類學習者。分類包括的挖掘技術將找出定義了一個項或事件是否屬於數據中某特定子集或類的規則。該類技術是最廣泛應用於各類業務問題的一類挖掘技術。分類演算法最知名的是決策樹方法,此外還有神經元網路、Bayesian分類等。例如:在/ E-Business /M4學習過的學習者中有40%是20左右的女大學生。
⑤聚類分析。可以從Web訪問信息數據中聚類出具有相似特性的學習者。在Web事務日誌中,聚類學習者信息或數據項能夠便於開發和設計未來的教學模式和學習群體。聚類是將數據集劃分為多個類,使得在同一類中的數據之間有較高的相似度,而在不同類中的數據差別盡可能大。在聚類技術中,沒有預先定義好的類別和訓練樣本存在,所有記錄都根據彼此相似程度來加以歸類。主要演算法有k—means、DBSCAN等。聚類分析是把具有相似特徵的用戶或數據項歸類,在網站管理中通過聚類具有相似瀏覽行為的用戶。基於模糊理論的Web頁面聚類演算法與客戶群體聚類演算法的模糊聚類定義相同,客戶訪問情況可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客戶Ci和URL(Uj)間的關聯度:式中m為客戶的數量,hits(Ci)表示客戶Ci訪問URL(Uj)的次數。利用Suj和模糊理論中的相似度度量Sfij定義建立模糊相似矩陣,再根據相似類[Xi]R的定義構造相似類,合並相似類中的公共元素得到的等價類即為相關Web頁面。
⑥統計。統計方法是從Web 站點中抽取知識的最常用方法, 它通過分析會話文件, 對瀏覽時間、瀏覽路徑等進行頻度、平均值等統計分析。雖然缺乏深度, 但仍可用於改進網站結構, 增強系統安全性, 提高網站訪問的效率等。
⑦協同過濾。協同過濾技術採用最近鄰技術,利用客戶的歷史、喜好信息計算用戶之間的距離,目標客戶對特點商品的喜好程度由最近鄰居對商品的評價的加權平均值來計算。
(三)最後,進行模式分析。
模式分析。基於以上的所有過程,對原始數據進行進一步分析,找出用戶的瀏覽模式規律,即用戶的興趣愛好及習慣,並使其可視化,為網頁的規劃及網站建設的決策提供具體理論依據。其主要方法有:採用SQL查詢語句進行分析;將數據導入多維數據立方體中,用OLAP工具進行分析並給出可視化的結果輸出。(分類模式挖掘、聚類模式挖掘、時間序列模式挖掘、序列模式挖掘、關聯規則等)

四、關聯規則
(一)關聯規則
顧名思義,關聯規則(association rule)挖掘技術用於於發現資料庫中屬性之間的有趣聯系。一般使用支持度(support)和置信度(confidence)兩個參數來描述關聯規則的屬性。
1.支持度。規則 在資料庫 中的支持度 是交易集中同時包含 , 的事務數與所有事務數之比,記為 。支持度描述了 , 這兩個項集在所有事務中同時出現的概率。
2.置信度。規則 在事務集中的置信度(confidence)是指同時包含 , 的事務數與包含 的事務數之比,它用來衡量關聯規則的可信程度。記為

規則 A Þ C:支持度= support({A}È{C}) = 50%,置信度= support({A}È{C})/support({A}) = 66.6%

(二)Apriori方法簡介
Apriori演算法最先是由Agrawal等人於1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度項集,用頻繁的(k—1)-項集生成候選的頻繁k-項集;其次利用大項集產生所需的規則;任何頻繁項集的所有子集一定是頻繁項集是其核心。
Apriori演算法需要兩個步驟:第一個是生成條目集;第二個是使用生成的條目集創建一組關聯規則。當我們把最小置信度設為85%,通過關聯規則的形成以及對應置信度的計算,我們可以從中得到以下有用的信息:
1.置信度大於最小置信度時:我們可以這樣認為,用戶群體在瀏覽相關網頁時,所呈列的鏈接之間是有很大關聯的,他們是用戶群的共同愛好,通過網頁布局的調整,從某種意義上,可以帶來更高的點擊率及潛在客戶;
2.置信度小於最小置信度時:我們可以這樣認為,用戶群體對所呈列鏈接之間沒太多的關聯,亦或關聯規則中的鏈接在爭奪用戶。

五、網站中Web日誌挖掘內容
(1)網站的概要統計。網站的概要統計包括分析覆蓋的時間、總的頁面數、訪問數、會話數、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結果集。
(2)內容訪問分析。內容訪問分析包括最多及最少被訪問的頁面、最多訪問路徑、最多訪問的新聞、最高訪問的時間等。
(3)客戶信息分析。客戶信息分析包括訪問者的來源省份統計、訪問者使用的瀏覽器及操作系統分析、訪問來自的頁面或者網站、來自的IP地址以及訪問者使用的搜索引擎。
(4)訪問者活動周期行為分析。訪問者活動周期行為分析包括一周7天的訪問行為、一天24小時的訪問行為、每周的最多的訪問日、每天的最多訪問時段等。
(5)主要訪問錯誤分析。主要訪問錯誤分析包括服務端錯誤、頁面找不到錯誤等。
(6)網站欄目分析。網站欄目分析包括定製的頻道和欄目設定,統計出各個欄目的訪問情況,並進行分析。
(7)商務網站擴展分析。商務網站擴展分析是專門針對專題或多媒體文件或下載等內容的訪問分析。
(8)有4個方向可以選擇:①對用戶點擊行為的追蹤,click stream研究;②對網頁之間的關聯規則的研究;③對網站中各個頻道的瀏覽模式的研究;④根據用戶瀏覽行為,對用戶進行聚類,細分研究;(如果你能夠結合現有的互聯網產品和應用提出一些自己的建議和意見,那就更有價值了。)
(9)發現用戶訪問模式。通過分析和探究Web日誌記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,並改進Web伺服器系統的性能。
(10)反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。

六、相關軟體及演算法
(一)相關軟體:
1.數據挖掘的專用軟體wake。
2.用OLAP工具
3.已經有部分公司開發出了商用的網站用戶訪問分析系統,如WebTrends公司的CommerceTrends 3.0,它能夠讓電子商務網站更好地理解其網站訪問者的行為,幫助網站採取一些行動來將這些訪問者變為顧客。CommerceTrends主要由3部分組成:Report Generation Server、Campain Analyzer和Webhouse Builder。
4.Accrue公司的Accrue Insight,它是一個綜合性的Web分析工具,它能夠對網站的運行狀況有個深入、細致和准確的分析,通過分析顧客的行為模式,幫助網站採取措施來提高顧客對於網站的忠誠度,從而建立長期的顧客關系。
(二)相關演算法:
1.運用各種演算法進行數據挖掘:GSP演算法, Prefixspana演算法,
2.關聯規則分析:Apriori、FP-growth演算法等。
3.Apriori演算法及其變種演算法
4.基於資料庫投影的序列模式生長技術(database project based sequential pattern growth)
5. Wake演算法、MLC++等
6. PageRank演算法和HITS演算法利用Web頁面間的超鏈接信息計算「權威型」(Authorities)網頁和「目錄型」(Hubs)網頁的權值。Web結構挖掘通常需要整個Web的全局數據,因此在個性化搜索引擎或主題搜索引擎研究領域得到了廣泛的應用。
7.參考檢索引擎的挖掘演算法,比如Apache的lucene等。

⑨ web挖掘怎麼實現

截止到今天為止,我尚不知道有什麼有價值的web挖掘系統存在,不過您可以參考檢索引擎的挖掘演算法,比如Apache的lucene等

http://lucene.apache.org/java/docs/index.html

-------------
並為您附錄以下信息:

近年來,隨著 Internet/Web技術的快速普及和迅猛發展,使各種信息可以以非常低的成本在網路上獲得,由於Internet/WWW在全球互連互通,可以從中取得的數據量難以計算,而且Internet/WWW的發展趨勢繼續看好,特別是電子商務的蓬勃發展為網路應用提供了強大支持,如何在WWW這個全球最大的數據集合中發現有用信息無疑將成為數據挖掘研究的熱點。
Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括資料庫技術、信息獲取技術、統計學、人工智慧中的機器學習和神經網路等。
2.Web挖掘流程
與傳統數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態的、並且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。典型Web挖掘的處理流程如下[3]:
1.查找資源:任務是從目標Web文檔中得到數據,值得注意的是有時信息資源不僅限於在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日誌數據甚至是通過Web形成的交易資料庫中的數據。
2.信息選擇和預處理:任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多餘格式標記、自動識別段落或者欄位並將數據組織成規整的邏輯形式甚至是關系表。
3.模式發現:自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。
4.模式分析:驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。
Web挖掘作為一個完整的技術體系,在進行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當重要。信息獲得(IR)的目的在於找到相關Web文檔,它只是把文檔中的數據看成未經排序的片語的集合,而信息抽取(IE)的目的在於從文檔中找到需要的數據項目,它對文檔的結構合表達的含義感興趣,它得一個重要任務就是對數據進行組織整理並適當建立索引。
信息獲得(IR)和信息抽取(IE)技術的研究已近有很長時間,隨著Web技術的發展,基於Web技術的IR、 IE得到了更多的重視。由於Web 數據量非常大,而且可能動態變化,用原來手工方式進行信息收集早已經力不從心,目前的研究方向是用自動化、半自動化的方法在Web上進行IR和IE。在 Web環境下既要處理非結構化文檔,又要處理半結構化的數據,最近幾年在這兩方面都有相應的研究成果和具體應用,特別是在大型搜索引擎中得到了很好的應用。
3.Web挖掘分類及各自的研究現狀及發展
根據對Web數據的感興趣程度不同,Web挖掘一般可以分為三類:Web內容挖掘(Web Content mining)、 Web結構挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
3.1、Web內容挖掘:
指從Web內容/數據/文檔中發現有用信息,Web上的信息五花八門,傳統的Internet由各種類型的服務和數據源組成,包括WWW、FTP、Telnet等,現在有更多的數據和埠可以使用,比如政府信息服務、數字圖書館、電子商務數據,以及其他各種通過 Web可以訪問的資料庫。Web內容挖掘的對象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數據。其中針對無結構化文本進行的Web挖掘被歸類到基於文本的知識發現(KDT)領域,也稱文本數據挖掘或文本挖掘,是Web挖掘中比較重要的技術領域,也引起了許多研究者的關注。最近在Web多媒體數據挖掘方面的研究成為另一個熱點。
Web內容挖掘一般從兩個不同的觀點來進行研究。從資源查找(IR)的觀點來看,Web內容挖掘的任務是從用戶的角度出發,怎樣提高信息質量和幫助用戶過濾信息。而從DB的角度講Web內容挖掘的任務主要是試圖對Web上的數據進行集成、建模,以支持對Web數據的復雜查詢。
3.1.1從資源查找(Information Retrival)的觀點挖掘非結構化文檔:
非結構化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對比較多一些,大部分研究都是建立在詞彙袋(bag of words)或稱向量表示法(vector representation)的基礎上,這種方法將單個的詞彙看成文檔集合中的屬性,只從統計的角度將詞彙孤立地看待而忽略該詞彙出現的位置和上下文環境。屬性可以是布爾型,根據詞彙是否在文檔中出現而定,也可以有頻度,即該詞彙在文檔中的出現頻率。這種方法可以擴展為選擇終結符、標點符號、不常用詞彙的屬性作為考察集合。詞彙袋方法的一個弊端是自由文本中的數據豐富,詞彙量非常大,處理起來很困難,為解決這個問題人們做了相應的研究,採取了不同技術,如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。另外,一個比較有意義的方法是潛在語義索引(Latent Semantic Indexing),它通過分析不同文檔中相同主題的共享詞彙,找到他們共同的根,用這個公共的根代替所有詞彙,以此來減少維空間。例如: 「informing」、「information」、「informer」、「informed」可以用他們的根「inform」來表示,這樣可以減少屬性集合的規模。
其他的屬性表示法還有詞彙在文檔中的出現位置、層次關系、使用短語、使用術語、命名實體等,目前還沒有研究表明一種表示法明顯優於另一種。
用資源查找(Information Retrival)的觀點挖掘半結構化文檔:
與非結構化數據相比,Web上的半結構化文檔挖掘指在加入了HTML、超連接等附加結構的信息上進行挖掘,其應用包括超連接文本的分類、聚類、發現文檔之間的關系、提出半結構化文檔中的模式和規則等。
3.1.2從資料庫(Database)的觀點挖掘非結構化文檔:
資料庫技術應用於Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點建構和重構。
從資料庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型並加以集成,以支持復雜查詢,而不止是簡單的基於關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數據倉庫或Web知識庫或虛擬資料庫來實現。相關研究主要是基於半結構化數據進行的。
資料庫觀點主要利用OEM(Object Exchange Model)模型將半結構化數據表示成標識圖。OEM中的每個對象都有對象標識(OID)和值,值可以是原子類型,如整型、字元串型、gif、html 等,也可以是一個復合類型,以對象引用集合的形式表示。由於Web數據量非常龐大,從應用的角度考慮,很多研究只處理辦結構化數據的一個常用自集。一些有意義的應用是建立多層資料庫(MLDB),每一層是它下面層次的概化,這樣就可以進行一些特殊的查詢和信息處理。對於在半結構化數據上的查詢語言研究也得到了人們的重視並做了專題研究。
由於在資料庫觀點下數據的表示方法比較特殊,其中包含了關系層次和圖形化的數據,所以大部分建立在扁平數據集合之上的數據挖掘方法不能直接使用,目前已經有人針對多層資料庫挖掘演算法進行研究。
3.2、Web結構挖掘:
Web結構挖掘的對象是Web本身的超連接,即對Web文檔的結構進行挖掘。對於給定的Web文檔集合,應該能夠通過演算法發現他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更准確。
Web結構挖掘在一定程度上得益於社會網路和引用分析的研究。把網頁之間的關系分為incoming連接和 outgoing連接,運用引用分析方法找到同一網站內部以及不同網站之間的連接關系。在Web結構挖掘領域最著名的演算法是HITS演算法和 PageRank演算法。他們的共同點是使用一定方法計算Web頁面之間超連接的質量,從而得到頁面的權重。著名的Clever和Google搜索引擎就採用了該類演算法。
此外,Web結構挖掘另一個嘗試是在Web數據倉庫環境下的挖掘,包括通過檢查同一台伺服器上的本地連接衡量 Web結構挖掘Web站點的完全性,在不同的Web數據倉庫中檢查副本以幫助定位鏡像站點,通過發現針對某一特定領域超連接的層次屬性去探索信息流動如何影響Web站點的設計。
3.3、Web用法挖掘(Web usage Mining):
即Web使用記錄挖掘,在新興的電子商務領域有重要意義,它通過挖掘相關的Web日誌記錄,來發現用戶訪問 Web頁面的模式,通過分析日誌記錄中的規律,可以識別用戶的忠實度、喜好、滿意度,可以發現潛在用戶,增強站點的服務競爭力。Web使用記錄數據除了伺服器的日誌記錄外還包括代理伺服器日誌、瀏覽器端日誌、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、滑鼠點擊流等一切用戶與站點之間可能的交互記錄。可見Web使用記錄的數據量是非常巨大的,而且數據類型也相當豐富。根據對數據源的不同處理方法,Web 用法挖掘可以分為兩類,一類是將Web使用記錄的數據轉換並傳遞進傳統的關系表裡,再使用數據挖掘演算法對關系表中的數據進行常規挖掘;另一類是將Web 使用記錄的數據直接預處理再進行挖掘。Web 用法挖掘中的一個有趣的問題是在多個用戶使用同一個代理伺服器的環境下如何標識某個用戶,如何識別屬於該用戶的會話和使用記錄,這個問題看起來不大,但卻在很大程度上影響著挖掘質量,所以有人專門在這方面進行了研究。通常來講,經典的數據挖掘演算法都可以直接用到Web 用法挖掘上來,但為了提高挖掘質量,研究人員在擴展演算法上進行了努力,包括復合關聯規則演算法、改進的序列發現演算法等。
在[4]中,根據數據來源、數據類型、數據集合中的用戶數量、數據集合中的伺服器數量等將Web 用法挖掘分為五類:
●個性挖掘:針對單個用戶的使用記錄對該用戶進行建模,結合該用戶基本信息分析他的使用習慣、個人喜好,目的是在電子商務環境下為該用戶提供與眾不同的個性化服務。
●系統改進:Web服務(資料庫、網路等)的性能和其他服務質量是衡量用戶滿意度的關鍵指標,Web 用法挖掘可以通過用戶的擁塞記錄發現站點的性能瓶頸,以提示站點管理者改進Web緩存策略、網路傳輸策略、流量負載平衡機制和數據的分布策略。此外,可以通過分析網路的非法入侵數據找到系統弱點,提高站點安全性,這在電子商務環境下尤為重要。
●站點修改:站點的結構和內容是吸引用戶的關鍵。Web 用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點設計者提供改進的依,比如頁面連接情況應如何組織、那些頁面應能夠直接訪問等。
●智能商務:用戶怎樣使用Web站點的信息無疑是電子商務銷售商關心的重點,用戶一次訪問的周期可分為被吸引、駐留、購買和離開四個步驟,Web用法挖掘可以通過分析用戶點擊流等Web日誌信息挖掘用戶行為的動機,以幫助銷售商合理安排銷售策略。
●Web特徵描述:這類研究跟關注這樣通過用戶對站點的訪問情況統計各個用戶在頁面上的交互情況,對用戶訪問情況進行特徵描述。
4.結束語
盡管Web挖掘的形式和研究方向層出不窮,但我認為隨著電子商務的興起和迅猛發展,未來Web挖掘的一個重要應用方向將是電子商務系統。而與電子商務關系最為密切的是用法挖掘(Usage Mining),也就是說在這個領域將會持續得到更多的重視。另外,在搜索引擎的研究方面,結構挖掘的研究已經相對成熟,基於文本的內容挖掘也已經有許多研究,下一步將會有更多的研究者把多媒體挖掘最為研究方向。

⑩ 大數據挖掘常用的方法有哪些

1.基於歷史的MBR分析
基於歷史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)來預測未來案例的一些屬性(attribute),通常找尋最相似的案例來做比較。
MBR中有兩個主要的要素,分別為距離函數(distance function)與結合函數(combination function)。距離函數的用意在找出最相似的案例;結合函數則將相似案例的屬性結合起來,以供預測之用。
MBR的優點是它容許各種型態的數據,這些數據不需服從某些假設。另一個優點是其具備學習能力,它能藉由舊案例的學習來獲取關於新案例的知識。較令人詬病的是它需要大量的歷史數據,有足夠 的歷史數據方能做良好的預測。此外記憶基礎推理法在處理上亦較為費時,不易發現最佳的距離函數與結合函數。其可應用的范圍包括欺騙行為的偵測、客戶反應預測、醫學診療、反應的歸類等方面。
2.購物籃分析
購物籃分析(Market Basket Analysis)最主要的目的在於找出什麼樣的東西應該放在一起?商業上的應用在藉由顧客的購買行為來了解是什麼樣的顧客以及這些顧客為什麼買這些產品, 找出相關的聯想(association)規則,企業藉由這些規則的挖掘獲得利益與建立競爭優勢。舉例來說,零售店可藉由此分析改變置物架上的商品排列或是設計 吸引客戶的商業套餐等等。
購物籃分析基本運作過程包含下列三點:
1. 選擇正確的品項:這里所指的正確乃是針對企業體而言,必須要在數以百計、千計品項中選擇出真正有用的品項出來。
2. 經由對共同發生矩陣(co-occurrence matrix)的探討挖掘出聯想規則。
3. 克服實際上的限制:所選擇的品項愈多,計算所耗費的資源與時間愈久(呈現指數遞增),此時必須運用一些技術以降低資源與時間的損耗。
購物籃分析技術可以應用在下列問題上:針對信用卡購物,能夠預測未來顧客可能購買什麼。對於電信與金融服務業而言,經由購物籃分析能夠設計不同的服務組合以擴大利潤。保險業能藉由購物籃分析偵測出可能不尋常的投保組合並作預防。對病人而言,在療程的組合上,購物籃分析能作為是否這些療程組合會導致並發症的判斷依據。
3.決策樹
決策樹(Decision Trees)在解決歸類與預測上有著極強的能力,它以法則的方式表達,而這些法則則以一連串的問題表示出來,經由不斷詢問問題最終能導出所需的結果。典型的決策樹頂端是一個樹根,底部有許多的樹葉,它將紀錄分解成不同的子集,每個子集中的欄位可能都包含一個簡單的法則。此外,決策樹可能有著不同的外型,例如二元 樹、三元樹或混和的決策樹型態。
4.遺傳演算法
遺傳演算法(Genetic Algorithm)學習細胞演化的過程,細胞間可經由不斷的選擇、復制、交配、突變產生更佳的新細胞。基因演算法的運作方式也很類似,它必須預先建立好一個模式,再經由一連串類似產生新細胞過程的運作,利用適合函數(fitness function)決定所產生的後代是否與這個模式吻合,最後僅有最吻合的結果能夠存活,這個程序一直運作直到此函數收斂到最佳解。基因演算法在群集 (cluster)問題上有不錯的表現,一般可用來輔助記憶基礎推理法與類神經網路的應用。
5.聚類分析
聚類分析(Cluster Detection)這個技術涵蓋范圍相當廣泛,包含基因演算法、類神經網路、統計學中的群集分析都有這個功能。它的目標為找出數據中以前未知的相似群體,在許許多多的分析中,剛開始都運用到群集偵測技術,以作為研究的開端。
6.連接分析
連接分析(Link Analysis)是以數學中之圖形理論(graph theory)為基礎,藉由記錄之間的關系發展出一個模式,它是以關系為主體,由人與人、物與物或是人與物的關系發展出相當多的應用。例如電信服務業可藉連結分析收集到顧客使用電話的時間與頻率,進而推斷顧客使用偏好為何,提出有利於公司的方案。除了電信業之外,愈來愈多的營銷業者亦利用連結分析做有利於 企業的研究。
7.OLAP分析
嚴格說起來,OLAP(On-Line Analytic Processing;OLAP)分析並不算特別的一個數據挖掘技術,但是透過在線分析處理工具,使用者能更清楚的了解數據所隱藏的潛在意涵。如同一些視覺處理技術一般,透過圖表或圖形等方式顯現,對一般人而言,感覺會更友善。這樣的工具亦能輔助將數據轉變成信息的目標。
8.神經網路
神經網路是以重復學習的方法,將一串例子交與學習,使其歸納出一足以區分的樣式。若面對新的例證,神經網路即可根據其過去學習的成果歸納後,推導出新的結果,乃屬於機器學習的一種。數據挖掘的相關問題也可采類神經學習的方式,其學習效果十分正確並可做預測功能。
9.判別分析
當所遭遇問題它的因變數為定性(categorical),而自變數(預測變數)為定量(metric)時,判別分析為一非常適當之技術,通常應用在解決分類的問題上面。若因變數由兩個群體所構成,稱之為雙群體 —判別分析 (Two-Group Discriminant Analysis);若由多個群體構成,則稱之為多元判別分析(Multiple Discriminant Analysis;MDA)。
a. 找出預測變數的線性組合,使組間變異相對於組內變異的比值為最大,而每一個線性組合與先前已經獲得的線性組合均不相關。
b. 檢定各組的重心是否有差異。
c. 找出哪些預測變數具有最大的區別能力。
d. 根據新受試者的預測變數數值,將該受試者指派到某一群體。
10.邏輯回歸分析
當判別分析中群體不符合正態分布假設時,邏輯回歸分析是一個很好的替代方法。邏輯回歸分析並非預測事件(event)是否發生,而是預測該事件的機率。它將自變數與因變數的關系假定是S行的形狀,當自變數很小時,機率值接近為零;當自變數值慢慢增加時,機率值沿著曲線增加,增加到一定程度時,曲線協 率開始減小,故機率值介於0與1之間。