Ⅰ 網路信息抽取的簡介
網路信息 抽取屬於網路內容挖掘(Web content mining)研究的一部分,主要包括結構化數據抽取(Structured Data Extraction)、信息集成(Information integration)和觀點挖掘(Opinion mining)等。
結構化數據抽取(Structured Data Extraction)的目標是從Web頁面中抽取結構化數據。這些結構化數據往往存儲在後台資料庫中,由網頁按一定格式承載著展示給用戶。例如論壇列表頁面、Blog頁面、搜索引擎結果頁面等。
信息集成(Information integration)是針對結構化數據而言的。其目標是將從不同網站中抽取出的數據統一化後集成入庫。其關鍵問題是如何從不同網站的數據表中識別出意義相同的數據並統一存儲。
觀點挖掘(Opinion mining)是針對網頁中的純文本而言的。其目標是從網頁中抽取出帶有主觀傾向的信息。
大多數文獻中提到的網路信息抽取往往專指結構化數據抽取。
Ⅱ 網路信息抽取的工具
網路數據抽取工具簡介
傳統的網路數據抽取是針對抽取對象手工編寫一段專門的抽取程序,這個程序稱為包裝器(wrapper)。近年來,越來越多的網路數據抽取工具被開發出來,替代了傳統的手工編寫包裝器的方法。目前的網路數據抽取工具可分為以下幾大類(實際上,一個工具可能會歸屬於其中若干類):
開發包裝器的專用語言(Languages for Wrapper Development):用戶可用這些專用語言方便地編寫包裝器。例如Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。
以HTML為中間件的工具(HTML-aware Tools):這些工具在抽取時主要依賴HTML文檔的內在結構特徵。在抽取過程之前,這些工具先把文檔轉換成標簽樹;再根據標簽樹自動或半自動地抽取數據。代表工具有Knowlesys,MDR。
基於NLP(Natural language processing)的工具(NLP-based Tools):這些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技術建立短語和句子元素之間的關系,推導出抽取規則。這些工具比較適合於抽取那些包含符合文法的頁面。代表工具有 RAPIER,SRV,WHISK。
包裝器的歸納工具(Wrapper Inction Tools):包裝器的歸納工具從一組訓練樣例中歸納出基於分隔符的抽取規則。這些工具和基於NLP的工具之間最大的差別在於:這些工具不依賴於語言約束,而是依賴於數據的格式化特徵。這個特點決定了這些工具比基於NLP的工具更適合於抽取HTML文檔。代表工具有:WIEN,SoftMealy,STALKER。
基於模型的工具(Modeling-based Tools):這些工具讓用戶通過圖形界面,建立文檔中其感興趣的對象的結構模型,「教」工具學會如何識別文檔中的對象,從而抽取出對象。代表工具有:NoDoSE,DEByE。
基於本體的工具(Ontology-based Tools):這些工具首先需要專家參與,人工建立某領域的知識庫,然後工具基於知識庫去做抽取操作。如果知識庫具有足夠的表達能力,那麼抽取操作可以做到完全自動。而且由這些工具生成的包裝器具有比較好的靈活性和適應性。代表工具有:BYU,X-tract。
Ⅲ 計算機論文摘要翻譯
With the development of the internet, the culture influence of digital games has become comparable with TV and movies, and games have become part of human culture. As more games are created, people are placing more importance on their quality. Designers enhance a game's commercial appeal via splendid models and lifelike special effects, in order to expand sales channels and increase sales volume. On the basis of solid fundamental knowledge, it's more essential to enhance a game's lifelike appeal, graphics quality, and the visual shock wave from high-resolution game modeling. Therefore, in order to analyze in detail special effects and modeling, the thesis mainly completes game special effects implementation and game modeling proction by analyzing the games designed when developing a framework. Second, it describes the impact of special effects and modeling in game creation. Last, by investigating the issues encountered in the development and debugging stages, it proposes aspects to be improved in the game project and summarizes experience gained from special effects and modeling development.
Ⅳ 英語翻譯,急!
On Extraction of Implicit Messages (in Web Message Extraction) and Page Information Structuring
做題目是不是有點太長了?括弧里的部分可不可以去掉呢?
呵呵 只是建議而已 希望能幫到你 ^_^
Ⅳ Web搜索的目錄
第1章 導論
1.1 Web搜索的定義
1.2 Web搜索的發展背景
1.3 Web搜索的挑戰性
1.4 Web搜索的科學價值
1.5 Web搜索的研究狀況
1.6 本書的內容
第2章 文本檢索
2.1 引言
2.2 Web信息採集
2.2.1 Crawler的基本原理
2.2.2 Crawler的工作效率
2.2.3 Crawler的難題
2.3 文本的保存與索引
2.3.1 預處理
2.3.2 文本的保存
2.3.3 文本的索引
2.3.4 索引詞的選取
2.4 檢索模型
2.4.1 Boolean模型
2.4.2 VSM
2.4.3 概率模型
2.5 網頁排序
2.6 查詢重構
2.6.1 用戶相關反饋
2.6.2 自動局部分析
2.6.3 自動全局分析
2.7 文本聚類
2.7.1 區分法
2.7.2 生成法
2.8 文本分類
2.8.1 K-NN分類器
2.8.2 Bayes分類器
2.8.3 最大熵分類器
2.8.4 區分式分類器
2.9 特徵選擇
2.9.1 包含演算法
2.9.2 排除演算法
2.1 0特徵變換
2.1 0.1 自組織映射
2.1 0.2 潛語義標號
小結
習題
第3章 圖像檢索
3.1 引言
3.2 圖像檢索的發展過程
3.3 文本自動標注
3.3.1 基於二維多粒度隱:Markov模型的二類標注
3.3.2 有監督的多類標注SMI
3.4 物體識別
3.4.1 星群模型
3.4.2 異構星狀模型
3.5 文字識別
3.5.1 引言
3.5.2 離線文字識別系統
3.5.3 非線性歸一化
3.5.4 餘弦整形變換
3.5.5 方向線素特徵抽取
3.5.6 漸進式計算的馬氏距離分類器
3.5.7 基於模具的文字切分
3.6 人臉檢測與識別
3.6.1 Adaboost人臉檢測演算法
3.6.2 常見的人臉識別演算法
3.6.3 非限定性人臉識別演算法
3.7 視頻檢索
3.7.1 概述
3.7.2 鏡頭切分
3.7.3 視頻摘要
小結
習題
第4章 音頻檢索
4.1 引言
4.2 聲學特徵抽取
4.2.1 時域特徵抽取
4.2.2 頻域特徵抽取
4.3 HMM模型
4.3.1 基本概念與原理
4.3.2 3個基本問題及其經典演算法.
4.4 連續語音識別系統
4.4.1 基於HMM的語音識別統一框架
4.4.2 聲學模型
4.4.3 語言模型
4.4.4 解碼器
4.5 語音關鍵詞發現技術
4.5.1 基於垃圾模型的關鍵詞發現
4.5.2 語音關鍵詞發現中的核心問題
4.5.3 一個側重確認的語音關鍵詞發現系統
4.6 語音詞彙檢測技術
4.6.1 混淆網路
4.6.2 一個基於音節混淆網路的STD系統
4.7 非語音音頻檢索
4.7.1 概述
4.7.2 聲學模型
4.7.3 語義模型
4.7.4 聲學空間與語義空間的聯系
4.8 音樂檢索
4.8.1 概述
4.8.2 哼唱檢索
4.8.3 基於語義描述的音樂標注及檢索
小結
習題
第5章 信息過濾
5.1 引言
5.2 基本方法
5.2.1 基於Bayes分類器的過濾
5.2.2 基於向量距離分類器的過濾
5.2.3 基於k近鄰分類器的過濾
5.2.4 基於SVM的過濾
5.2.5 系統性能評價
5.3 模型學習
5.3.1 生成式與區分式學習
5.3.2 降維變換
5.3.3 半監督學習
5.3.4 演進式學習
5.4 垃圾郵件及垃圾簡訊過濾
5.4.1 垃圾郵件過濾系統
5.4.2 垃圾簡訊的過濾
5.5 話題檢測與跟蹤系統
5.5.1 報道分割
5.5.2 事件檢測
5.5.3 事件跟蹤
小結
習題
第6章 信息推薦
6.1 引言
6.2 關聯規則挖掘的基本演算法
6.2.1 基本定義
6.2.2 Apfiofi關聯規則挖掘演算法
6.2.3 基於FPT的演算法
6.3 可信關聯規則及其挖掘演算法
6.3.1 相關定義
6.3.2 用鄰接矩陣求2項可信集
6.3.3 由k項可信集生成(k+1)項可信集
6.3.4 基於極大團的可信關聯規則挖掘演算法
6.4 基於FPT的超團模式快速挖掘演算法
6.4.1 相關定義
6.4.2 基於FPT的超團模式和極大超團模式挖掘
6.5 協同過濾推薦的基本演算法
6.6 基於局部偏好的協同過濾推薦演算法
6.7 基於個性化主動學習的協同過濾
6.8 面向排序的協同過濾
小結
習題
第7章 發展前沿
7.1 內網檢索及對象檢索
7.2 基於文檔的專家檢索
7.2.1 基於文檔的專家表示
7.2.2 基於文檔的專家檢索
7.3 對象檢索及信息抽取
7.3.1 對象檢索的基本概念
7.3.2 信息抽取
7.4 基於Web的對象檢索
7.5 博客檢索
7.6 TREC中的博客觀點檢索
7.7 文本情感分析
7.7.1 文本情感分析中的特徵抽取
7.7.2 情感分類模型
小結
習題
參考文獻
Ⅵ 翻譯成英文。內容在問題補充,全篇翻譯
With the increasing popularity of the Internet, the network information is growing at an extremely high speed, so much data to find the information they need is a very complicated thing, find the information you need to get is a troublesome thing. Therefore, you need Web information extraction program to replace the artificial operation for efficient information extraction. So-called Web information extraction program, that program will follow the keyword or key Web site users to gather the appropriate information, and provides information to the user you want to format. Meanwhile, the amount of increase of leads to publish information Web site the drastic increase in workload for the realization of information releasing system for automatic publishing, recing staff workload, instant track the latest information, you need auto information provider. Information extraction is non-structured information extracted from the Web site to save to a structured procere in a database. -Information extraction enterprise information Foundation and first step, only by using advanced technology to do the work of information extraction in order to bring maximum value to the information. Information extraction application of range very broad: uses key information extraction can gets various Internet Shang various of professional information database; using competition intelligence system can through key words monitored network media Shang themselves and competition opponent of market information; using Yu database marketing, extraction message this, and Forum, and news group above target potential user of message information and contact information; using Yu comparison system in the can for commodity price, and specifications, area of comparison; For network information integration can extract information from a variety of similar websites and integrate with, such as resumes, career, leasing information, proct information, company directory; for personalized information agents can be indivial or business interested in consolidating the contents of multiple Web sites the latest together, through Email or Web page available to users in the form of saving users time and browse the site-by-site download. Web pages this technical situation and development prospects of information extraction system, problems made a review and summary, can get people more clearly understand Web pages information extraction technology
Ⅶ 如何編寫一個程序能在一個網站自動翻頁尋找關鍵詞
由一個預先確定的URL下載目標web頁面
2 分析頁面的結構和目標信息定位
3 根據信息定位,抽取目標信息
另:觸發網頁內控制項的選項是另外一類web信息抽取技術,不同於以上提到的web頁面的抽取,可通過瀏覽器控制項實現。
Ⅷ 基於web數據抽取有幾種方法優缺點是什麼
1 基於自然語言的Web 信息抽取
自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。它研究能實現人與
計算機之間用自然語言進行有效通信的各種理論和方法。基於自然語言處理的方法在一定程
度上借鑒了自然語言處理技術,利用子句結構、短語和子句之間的關系,建立基於語法和語
義的抽取規則來實現信息抽取。目前採用這種原理的典型系統有RAPIER[3], WHISK [2]。下
面介紹比較有代表性的WHISK 系統。
WHISK 系統既適用於結構化、半結構化的文本也適用於自由文本。該系統並不需要提
前進行語法分析,它的規則不僅由文本中的一個短語或一系列與某領域相關的短語學習而得
到,還可以由這些短語的約束學習得到。為了盡可能加入人的參與,該系統同時學習和標記
訓練數據,而不是隨機取實例進行手工標記。系統使用語法分析器和語義類(如人名、機構
名)分析器,分析出用戶標記信息的語法成分和對應的語義類,生成基於語法標記和語義類
標記的抽取規則,實現信息抽取。
這種方法的缺點是:沒有很好的利用HTML 文檔的層次結構;需要大量的人為參與的
工作,很難實現自動的抽取;只支持記錄型的語義模式結構,不支持復雜對象的抽取。所以
此方法適用范圍較窄。
2 基於HTML 文檔結構的Web 信息抽取
這類Web 信息抽取技術的特點是依賴於HTML 文檔的內部結構特徵。在信息抽取之前,
將HTML 文檔解析成能夠體現該文檔標簽層次關系的語法樹,通過自動或者半自動的方式
產生抽取規則,將信息抽取轉化為對語法樹的操作實現信息抽取。採用該類介紹的典型系統
有LIXTO[5]、W4F[6]和DataRover[4]等。
DataRover 利用啟發規則發現分類片段中的結構規律。然後利用這些規律將在線目錄轉
換到資料庫中的分類產品。該系統使用了一個頁面分割演算法將Web 頁解析的DOM(文檔對
象模型)樹作為輸入通過該演算法找到其中的邏輯段。該系統的不足之處在於:這個方法依賴
於HTML 頁解析的DOM樹,由於大部分的HTML 頁是非良好結構的,所以解析產生的DOM
樹也不完全正確;另外,此系統只適用於那些包含明確分類的領域,使用范圍比較窄。
LIXTO 可以生成包裝器來將HTML 頁轉換成XML[13](可擴展標識語言)文檔。允許用
戶以可視化、互動式的方式對樣本頁面中的信息進行標記,系統通過記錄用戶標記的信息生
成信息抽取規則,實現對相似結構網頁的信息抽取。它的不足之處是它的抽取規則使用基於
Datalog 的Elog 語言描述的,實現和優化校困難,另外抽取規則中抽取信息的描述不夠豐富,
不支持圖像信息和文獻信息的處理。
Ⅸ 要畢業了,麻煩達人給翻譯下摘要。在下英文實在不好!
In the rapid development of the Internet today, as a kind of concise and effective form of expression, data information in various fields in the use of the web is very wide, Therefore, the extraction of information from the WEB form become WEB information extraction is one of the important fields. The WEB information is most HTML document, the content and the data of wei-jin HTML forms, but also focus on forms. But the XML document is the content and form of phase separation, XML characteristics can be more easily extract interested data.
This is a WEB form of information extraction, introces the characteristic and the structure of a WEB form, WEB information extraction and its process, form, Based on the structure of the WEB page form recognition algorithm realized the form of scanning and classification and basic realized based on XML data into the form.
With HTML written form is not quite used to store the data on real significance, it may include: nested tables, false form, segmentation form of this system, so as to fully is difficult to identify form information. This system after 3 months of development, has been basically realize that required by the system identification, and the conversion function to the XML document. After this continue to study and research
Ⅹ web挖掘怎麼實現
截止到今天為止,我尚不知道有什麼有價值的web挖掘系統存在,不過您可以參考檢索引擎的挖掘演算法,比如Apache的lucene等
http://lucene.apache.org/java/docs/index.html
-------------
並為您附錄以下信息:
近年來,隨著 Internet/Web技術的快速普及和迅猛發展,使各種信息可以以非常低的成本在網路上獲得,由於Internet/WWW在全球互連互通,可以從中取得的數據量難以計算,而且Internet/WWW的發展趨勢繼續看好,特別是電子商務的蓬勃發展為網路應用提供了強大支持,如何在WWW這個全球最大的數據集合中發現有用信息無疑將成為數據挖掘研究的熱點。
Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括資料庫技術、信息獲取技術、統計學、人工智慧中的機器學習和神經網路等。
2.Web挖掘流程
與傳統數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態的、並且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。典型Web挖掘的處理流程如下[3]:
1.查找資源:任務是從目標Web文檔中得到數據,值得注意的是有時信息資源不僅限於在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日誌數據甚至是通過Web形成的交易資料庫中的數據。
2.信息選擇和預處理:任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多餘格式標記、自動識別段落或者欄位並將數據組織成規整的邏輯形式甚至是關系表。
3.模式發現:自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。
4.模式分析:驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。
Web挖掘作為一個完整的技術體系,在進行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當重要。信息獲得(IR)的目的在於找到相關Web文檔,它只是把文檔中的數據看成未經排序的片語的集合,而信息抽取(IE)的目的在於從文檔中找到需要的數據項目,它對文檔的結構合表達的含義感興趣,它得一個重要任務就是對數據進行組織整理並適當建立索引。
信息獲得(IR)和信息抽取(IE)技術的研究已近有很長時間,隨著Web技術的發展,基於Web技術的IR、 IE得到了更多的重視。由於Web 數據量非常大,而且可能動態變化,用原來手工方式進行信息收集早已經力不從心,目前的研究方向是用自動化、半自動化的方法在Web上進行IR和IE。在 Web環境下既要處理非結構化文檔,又要處理半結構化的數據,最近幾年在這兩方面都有相應的研究成果和具體應用,特別是在大型搜索引擎中得到了很好的應用。
3.Web挖掘分類及各自的研究現狀及發展
根據對Web數據的感興趣程度不同,Web挖掘一般可以分為三類:Web內容挖掘(Web Content mining)、 Web結構挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
3.1、Web內容挖掘:
指從Web內容/數據/文檔中發現有用信息,Web上的信息五花八門,傳統的Internet由各種類型的服務和數據源組成,包括WWW、FTP、Telnet等,現在有更多的數據和埠可以使用,比如政府信息服務、數字圖書館、電子商務數據,以及其他各種通過 Web可以訪問的資料庫。Web內容挖掘的對象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數據。其中針對無結構化文本進行的Web挖掘被歸類到基於文本的知識發現(KDT)領域,也稱文本數據挖掘或文本挖掘,是Web挖掘中比較重要的技術領域,也引起了許多研究者的關注。最近在Web多媒體數據挖掘方面的研究成為另一個熱點。
Web內容挖掘一般從兩個不同的觀點來進行研究。從資源查找(IR)的觀點來看,Web內容挖掘的任務是從用戶的角度出發,怎樣提高信息質量和幫助用戶過濾信息。而從DB的角度講Web內容挖掘的任務主要是試圖對Web上的數據進行集成、建模,以支持對Web數據的復雜查詢。
3.1.1從資源查找(Information Retrival)的觀點挖掘非結構化文檔:
非結構化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對比較多一些,大部分研究都是建立在詞彙袋(bag of words)或稱向量表示法(vector representation)的基礎上,這種方法將單個的詞彙看成文檔集合中的屬性,只從統計的角度將詞彙孤立地看待而忽略該詞彙出現的位置和上下文環境。屬性可以是布爾型,根據詞彙是否在文檔中出現而定,也可以有頻度,即該詞彙在文檔中的出現頻率。這種方法可以擴展為選擇終結符、標點符號、不常用詞彙的屬性作為考察集合。詞彙袋方法的一個弊端是自由文本中的數據豐富,詞彙量非常大,處理起來很困難,為解決這個問題人們做了相應的研究,採取了不同技術,如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。另外,一個比較有意義的方法是潛在語義索引(Latent Semantic Indexing),它通過分析不同文檔中相同主題的共享詞彙,找到他們共同的根,用這個公共的根代替所有詞彙,以此來減少維空間。例如: 「informing」、「information」、「informer」、「informed」可以用他們的根「inform」來表示,這樣可以減少屬性集合的規模。
其他的屬性表示法還有詞彙在文檔中的出現位置、層次關系、使用短語、使用術語、命名實體等,目前還沒有研究表明一種表示法明顯優於另一種。
用資源查找(Information Retrival)的觀點挖掘半結構化文檔:
與非結構化數據相比,Web上的半結構化文檔挖掘指在加入了HTML、超連接等附加結構的信息上進行挖掘,其應用包括超連接文本的分類、聚類、發現文檔之間的關系、提出半結構化文檔中的模式和規則等。
3.1.2從資料庫(Database)的觀點挖掘非結構化文檔:
資料庫技術應用於Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點建構和重構。
從資料庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型並加以集成,以支持復雜查詢,而不止是簡單的基於關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數據倉庫或Web知識庫或虛擬資料庫來實現。相關研究主要是基於半結構化數據進行的。
資料庫觀點主要利用OEM(Object Exchange Model)模型將半結構化數據表示成標識圖。OEM中的每個對象都有對象標識(OID)和值,值可以是原子類型,如整型、字元串型、gif、html 等,也可以是一個復合類型,以對象引用集合的形式表示。由於Web數據量非常龐大,從應用的角度考慮,很多研究只處理辦結構化數據的一個常用自集。一些有意義的應用是建立多層資料庫(MLDB),每一層是它下面層次的概化,這樣就可以進行一些特殊的查詢和信息處理。對於在半結構化數據上的查詢語言研究也得到了人們的重視並做了專題研究。
由於在資料庫觀點下數據的表示方法比較特殊,其中包含了關系層次和圖形化的數據,所以大部分建立在扁平數據集合之上的數據挖掘方法不能直接使用,目前已經有人針對多層資料庫挖掘演算法進行研究。
3.2、Web結構挖掘:
Web結構挖掘的對象是Web本身的超連接,即對Web文檔的結構進行挖掘。對於給定的Web文檔集合,應該能夠通過演算法發現他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更准確。
Web結構挖掘在一定程度上得益於社會網路和引用分析的研究。把網頁之間的關系分為incoming連接和 outgoing連接,運用引用分析方法找到同一網站內部以及不同網站之間的連接關系。在Web結構挖掘領域最著名的演算法是HITS演算法和 PageRank演算法。他們的共同點是使用一定方法計算Web頁面之間超連接的質量,從而得到頁面的權重。著名的Clever和Google搜索引擎就採用了該類演算法。
此外,Web結構挖掘另一個嘗試是在Web數據倉庫環境下的挖掘,包括通過檢查同一台伺服器上的本地連接衡量 Web結構挖掘Web站點的完全性,在不同的Web數據倉庫中檢查副本以幫助定位鏡像站點,通過發現針對某一特定領域超連接的層次屬性去探索信息流動如何影響Web站點的設計。
3.3、Web用法挖掘(Web usage Mining):
即Web使用記錄挖掘,在新興的電子商務領域有重要意義,它通過挖掘相關的Web日誌記錄,來發現用戶訪問 Web頁面的模式,通過分析日誌記錄中的規律,可以識別用戶的忠實度、喜好、滿意度,可以發現潛在用戶,增強站點的服務競爭力。Web使用記錄數據除了伺服器的日誌記錄外還包括代理伺服器日誌、瀏覽器端日誌、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、滑鼠點擊流等一切用戶與站點之間可能的交互記錄。可見Web使用記錄的數據量是非常巨大的,而且數據類型也相當豐富。根據對數據源的不同處理方法,Web 用法挖掘可以分為兩類,一類是將Web使用記錄的數據轉換並傳遞進傳統的關系表裡,再使用數據挖掘演算法對關系表中的數據進行常規挖掘;另一類是將Web 使用記錄的數據直接預處理再進行挖掘。Web 用法挖掘中的一個有趣的問題是在多個用戶使用同一個代理伺服器的環境下如何標識某個用戶,如何識別屬於該用戶的會話和使用記錄,這個問題看起來不大,但卻在很大程度上影響著挖掘質量,所以有人專門在這方面進行了研究。通常來講,經典的數據挖掘演算法都可以直接用到Web 用法挖掘上來,但為了提高挖掘質量,研究人員在擴展演算法上進行了努力,包括復合關聯規則演算法、改進的序列發現演算法等。
在[4]中,根據數據來源、數據類型、數據集合中的用戶數量、數據集合中的伺服器數量等將Web 用法挖掘分為五類:
●個性挖掘:針對單個用戶的使用記錄對該用戶進行建模,結合該用戶基本信息分析他的使用習慣、個人喜好,目的是在電子商務環境下為該用戶提供與眾不同的個性化服務。
●系統改進:Web服務(資料庫、網路等)的性能和其他服務質量是衡量用戶滿意度的關鍵指標,Web 用法挖掘可以通過用戶的擁塞記錄發現站點的性能瓶頸,以提示站點管理者改進Web緩存策略、網路傳輸策略、流量負載平衡機制和數據的分布策略。此外,可以通過分析網路的非法入侵數據找到系統弱點,提高站點安全性,這在電子商務環境下尤為重要。
●站點修改:站點的結構和內容是吸引用戶的關鍵。Web 用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點設計者提供改進的依,比如頁面連接情況應如何組織、那些頁面應能夠直接訪問等。
●智能商務:用戶怎樣使用Web站點的信息無疑是電子商務銷售商關心的重點,用戶一次訪問的周期可分為被吸引、駐留、購買和離開四個步驟,Web用法挖掘可以通過分析用戶點擊流等Web日誌信息挖掘用戶行為的動機,以幫助銷售商合理安排銷售策略。
●Web特徵描述:這類研究跟關注這樣通過用戶對站點的訪問情況統計各個用戶在頁面上的交互情況,對用戶訪問情況進行特徵描述。
4.結束語
盡管Web挖掘的形式和研究方向層出不窮,但我認為隨著電子商務的興起和迅猛發展,未來Web挖掘的一個重要應用方向將是電子商務系統。而與電子商務關系最為密切的是用法挖掘(Usage Mining),也就是說在這個領域將會持續得到更多的重視。另外,在搜索引擎的研究方面,結構挖掘的研究已經相對成熟,基於文本的內容挖掘也已經有許多研究,下一步將會有更多的研究者把多媒體挖掘最為研究方向。