Ⅰ 网络信息抽取的简介
网络信息 抽取属于网络内容挖掘(Web content mining)研究的一部分,主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integration)和观点挖掘(Opinion mining)等。
结构化数据抽取(Structured Data Extraction)的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等。
信息集成(Information integration)是针对结构化数据而言的。其目标是将从不同网站中抽取出的数据统一化后集成入库。其关键问题是如何从不同网站的数据表中识别出意义相同的数据并统一存储。
观点挖掘(Opinion mining)是针对网页中的纯文本而言的。其目标是从网页中抽取出带有主观倾向的信息。
大多数文献中提到的网络信息抽取往往专指结构化数据抽取。
Ⅱ 网络信息抽取的工具
网络数据抽取工具简介
传统的网络数据抽取是针对抽取对象手工编写一段专门的抽取程序,这个程序称为包装器(wrapper)。近年来,越来越多的网络数据抽取工具被开发出来,替代了传统的手工编写包装器的方法。目前的网络数据抽取工具可分为以下几大类(实际上,一个工具可能会归属于其中若干类):
开发包装器的专用语言(Languages for Wrapper Development):用户可用这些专用语言方便地编写包装器。例如Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。
以HTML为中间件的工具(HTML-aware Tools):这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前,这些工具先把文档转换成标签树;再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys,MDR。
基于NLP(Natural language processing)的工具(NLP-based Tools):这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系,推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER,SRV,WHISK。
包装器的归纳工具(Wrapper Inction Tools):包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于:这些工具不依赖于语言约束,而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有:WIEN,SoftMealy,STALKER。
基于模型的工具(Modeling-based Tools):这些工具让用户通过图形界面,建立文档中其感兴趣的对象的结构模型,“教”工具学会如何识别文档中的对象,从而抽取出对象。代表工具有:NoDoSE,DEByE。
基于本体的工具(Ontology-based Tools):这些工具首先需要专家参与,人工建立某领域的知识库,然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力,那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有:BYU,X-tract。
Ⅲ 计算机论文摘要翻译
With the development of the internet, the culture influence of digital games has become comparable with TV and movies, and games have become part of human culture. As more games are created, people are placing more importance on their quality. Designers enhance a game's commercial appeal via splendid models and lifelike special effects, in order to expand sales channels and increase sales volume. On the basis of solid fundamental knowledge, it's more essential to enhance a game's lifelike appeal, graphics quality, and the visual shock wave from high-resolution game modeling. Therefore, in order to analyze in detail special effects and modeling, the thesis mainly completes game special effects implementation and game modeling proction by analyzing the games designed when developing a framework. Second, it describes the impact of special effects and modeling in game creation. Last, by investigating the issues encountered in the development and debugging stages, it proposes aspects to be improved in the game project and summarizes experience gained from special effects and modeling development.
Ⅳ 英语翻译,急!
On Extraction of Implicit Messages (in Web Message Extraction) and Page Information Structuring
做题目是不是有点太长了?括号里的部分可不可以去掉呢?
呵呵 只是建议而已 希望能帮到你 ^_^
Ⅳ Web搜索的目录
第1章 导论
1.1 Web搜索的定义
1.2 Web搜索的发展背景
1.3 Web搜索的挑战性
1.4 Web搜索的科学价值
1.5 Web搜索的研究状况
1.6 本书的内容
第2章 文本检索
2.1 引言
2.2 Web信息采集
2.2.1 Crawler的基本原理
2.2.2 Crawler的工作效率
2.2.3 Crawler的难题
2.3 文本的保存与索引
2.3.1 预处理
2.3.2 文本的保存
2.3.3 文本的索引
2.3.4 索引词的选取
2.4 检索模型
2.4.1 Boolean模型
2.4.2 VSM
2.4.3 概率模型
2.5 网页排序
2.6 查询重构
2.6.1 用户相关反馈
2.6.2 自动局部分析
2.6.3 自动全局分析
2.7 文本聚类
2.7.1 区分法
2.7.2 生成法
2.8 文本分类
2.8.1 K-NN分类器
2.8.2 Bayes分类器
2.8.3 最大熵分类器
2.8.4 区分式分类器
2.9 特征选择
2.9.1 包含算法
2.9.2 排除算法
2.1 0特征变换
2.1 0.1 自组织映射
2.1 0.2 潜语义标号
小结
习题
第3章 图像检索
3.1 引言
3.2 图像检索的发展过程
3.3 文本自动标注
3.3.1 基于二维多粒度隐:Markov模型的二类标注
3.3.2 有监督的多类标注SMI
3.4 物体识别
3.4.1 星群模型
3.4.2 异构星状模型
3.5 文字识别
3.5.1 引言
3.5.2 离线文字识别系统
3.5.3 非线性归一化
3.5.4 余弦整形变换
3.5.5 方向线素特征抽取
3.5.6 渐进式计算的马氏距离分类器
3.5.7 基于模具的文字切分
3.6 人脸检测与识别
3.6.1 Adaboost人脸检测算法
3.6.2 常见的人脸识别算法
3.6.3 非限定性人脸识别算法
3.7 视频检索
3.7.1 概述
3.7.2 镜头切分
3.7.3 视频摘要
小结
习题
第4章 音频检索
4.1 引言
4.2 声学特征抽取
4.2.1 时域特征抽取
4.2.2 频域特征抽取
4.3 HMM模型
4.3.1 基本概念与原理
4.3.2 3个基本问题及其经典算法.
4.4 连续语音识别系统
4.4.1 基于HMM的语音识别统一框架
4.4.2 声学模型
4.4.3 语言模型
4.4.4 解码器
4.5 语音关键词发现技术
4.5.1 基于垃圾模型的关键词发现
4.5.2 语音关键词发现中的核心问题
4.5.3 一个侧重确认的语音关键词发现系统
4.6 语音词汇检测技术
4.6.1 混淆网络
4.6.2 一个基于音节混淆网络的STD系统
4.7 非语音音频检索
4.7.1 概述
4.7.2 声学模型
4.7.3 语义模型
4.7.4 声学空间与语义空间的联系
4.8 音乐检索
4.8.1 概述
4.8.2 哼唱检索
4.8.3 基于语义描述的音乐标注及检索
小结
习题
第5章 信息过滤
5.1 引言
5.2 基本方法
5.2.1 基于Bayes分类器的过滤
5.2.2 基于向量距离分类器的过滤
5.2.3 基于k近邻分类器的过滤
5.2.4 基于SVM的过滤
5.2.5 系统性能评价
5.3 模型学习
5.3.1 生成式与区分式学习
5.3.2 降维变换
5.3.3 半监督学习
5.3.4 演进式学习
5.4 垃圾邮件及垃圾短信过滤
5.4.1 垃圾邮件过滤系统
5.4.2 垃圾短信的过滤
5.5 话题检测与跟踪系统
5.5.1 报道分割
5.5.2 事件检测
5.5.3 事件跟踪
小结
习题
第6章 信息推荐
6.1 引言
6.2 关联规则挖掘的基本算法
6.2.1 基本定义
6.2.2 Apfiofi关联规则挖掘算法
6.2.3 基于FPT的算法
6.3 可信关联规则及其挖掘算法
6.3.1 相关定义
6.3.2 用邻接矩阵求2项可信集
6.3.3 由k项可信集生成(k+1)项可信集
6.3.4 基于极大团的可信关联规则挖掘算法
6.4 基于FPT的超团模式快速挖掘算法
6.4.1 相关定义
6.4.2 基于FPT的超团模式和极大超团模式挖掘
6.5 协同过滤推荐的基本算法
6.6 基于局部偏好的协同过滤推荐算法
6.7 基于个性化主动学习的协同过滤
6.8 面向排序的协同过滤
小结
习题
第7章 发展前沿
7.1 内网检索及对象检索
7.2 基于文档的专家检索
7.2.1 基于文档的专家表示
7.2.2 基于文档的专家检索
7.3 对象检索及信息抽取
7.3.1 对象检索的基本概念
7.3.2 信息抽取
7.4 基于Web的对象检索
7.5 博客检索
7.6 TREC中的博客观点检索
7.7 文本情感分析
7.7.1 文本情感分析中的特征抽取
7.7.2 情感分类模型
小结
习题
参考文献
Ⅵ 翻译成英文。内容在问题补充,全篇翻译
With the increasing popularity of the Internet, the network information is growing at an extremely high speed, so much data to find the information they need is a very complicated thing, find the information you need to get is a troublesome thing. Therefore, you need Web information extraction program to replace the artificial operation for efficient information extraction. So-called Web information extraction program, that program will follow the keyword or key Web site users to gather the appropriate information, and provides information to the user you want to format. Meanwhile, the amount of increase of leads to publish information Web site the drastic increase in workload for the realization of information releasing system for automatic publishing, recing staff workload, instant track the latest information, you need auto information provider. Information extraction is non-structured information extracted from the Web site to save to a structured procere in a database. -Information extraction enterprise information Foundation and first step, only by using advanced technology to do the work of information extraction in order to bring maximum value to the information. Information extraction application of range very broad: uses key information extraction can gets various Internet Shang various of professional information database; using competition intelligence system can through key words monitored network media Shang themselves and competition opponent of market information; using Yu database marketing, extraction message this, and Forum, and news group above target potential user of message information and contact information; using Yu comparison system in the can for commodity price, and specifications, area of comparison; For network information integration can extract information from a variety of similar websites and integrate with, such as resumes, career, leasing information, proct information, company directory; for personalized information agents can be indivial or business interested in consolidating the contents of multiple Web sites the latest together, through Email or Web page available to users in the form of saving users time and browse the site-by-site download. Web pages this technical situation and development prospects of information extraction system, problems made a review and summary, can get people more clearly understand Web pages information extraction technology
Ⅶ 如何编写一个程序能在一个网站自动翻页寻找关键词
由一个预先确定的URL下载目标web页面
2 分析页面的结构和目标信息定位
3 根据信息定位,抽取目标信息
另:触发网页内控件的选项是另外一类web信息抽取技术,不同于以上提到的web页面的抽取,可通过浏览器控件实现。
Ⅷ 基于web数据抽取有几种方法优缺点是什么
1 基于自然语言的Web 信息抽取
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与
计算机之间用自然语言进行有效通信的各种理论和方法。基于自然语言处理的方法在一定程
度上借鉴了自然语言处理技术,利用子句结构、短语和子句之间的关系,建立基于语法和语
义的抽取规则来实现信息抽取。目前采用这种原理的典型系统有RAPIER[3], WHISK [2]。下
面介绍比较有代表性的WHISK 系统。
WHISK 系统既适用于结构化、半结构化的文本也适用于自由文本。该系统并不需要提
前进行语法分析,它的规则不仅由文本中的一个短语或一系列与某领域相关的短语学习而得
到,还可以由这些短语的约束学习得到。为了尽可能加入人的参与,该系统同时学习和标记
训练数据,而不是随机取实例进行手工标记。系统使用语法分析器和语义类(如人名、机构
名)分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语义类
标记的抽取规则,实现信息抽取。
这种方法的缺点是:没有很好的利用HTML 文档的层次结构;需要大量的人为参与的
工作,很难实现自动的抽取;只支持记录型的语义模式结构,不支持复杂对象的抽取。所以
此方法适用范围较窄。
2 基于HTML 文档结构的Web 信息抽取
这类Web 信息抽取技术的特点是依赖于HTML 文档的内部结构特征。在信息抽取之前,
将HTML 文档解析成能够体现该文档标签层次关系的语法树,通过自动或者半自动的方式
产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。采用该类介绍的典型系统
有LIXTO[5]、W4F[6]和DataRover[4]等。
DataRover 利用启发规则发现分类片段中的结构规律。然后利用这些规律将在线目录转
换到数据库中的分类产品。该系统使用了一个页面分割算法将Web 页解析的DOM(文档对
象模型)树作为输入通过该算法找到其中的逻辑段。该系统的不足之处在于:这个方法依赖
于HTML 页解析的DOM树,由于大部分的HTML 页是非良好结构的,所以解析产生的DOM
树也不完全正确;另外,此系统只适用于那些包含明确分类的领域,使用范围比较窄。
LIXTO 可以生成包装器来将HTML 页转换成XML[13](可扩展标识语言)文档。允许用
户以可视化、交互式的方式对样本页面中的信息进行标记,系统通过记录用户标记的信息生
成信息抽取规则,实现对相似结构网页的信息抽取。它的不足之处是它的抽取规则使用基于
Datalog 的Elog 语言描述的,实现和优化校困难,另外抽取规则中抽取信息的描述不够丰富,
不支持图像信息和文献信息的处理。
Ⅸ 要毕业了,麻烦达人给翻译下摘要。在下英文实在不好!
In the rapid development of the Internet today, as a kind of concise and effective form of expression, data information in various fields in the use of the web is very wide, Therefore, the extraction of information from the WEB form become WEB information extraction is one of the important fields. The WEB information is most HTML document, the content and the data of wei-jin HTML forms, but also focus on forms. But the XML document is the content and form of phase separation, XML characteristics can be more easily extract interested data.
This is a WEB form of information extraction, introces the characteristic and the structure of a WEB form, WEB information extraction and its process, form, Based on the structure of the WEB page form recognition algorithm realized the form of scanning and classification and basic realized based on XML data into the form.
With HTML written form is not quite used to store the data on real significance, it may include: nested tables, false form, segmentation form of this system, so as to fully is difficult to identify form information. This system after 3 months of development, has been basically realize that required by the system identification, and the conversion function to the XML document. After this continue to study and research
Ⅹ web挖掘怎么实现
截止到今天为止,我尚不知道有什么有价值的web挖掘系统存在,不过您可以参考检索引擎的挖掘算法,比如Apache的lucene等
http://lucene.apache.org/java/docs/index.html
-------------
并为您附录以下信息:
近年来,随着 Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。
Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。
2.Web挖掘流程
与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下[3]:
1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。
信息获得(IR)和信息抽取(IE)技术的研究已近有很长时间,随着Web技术的发展,基于Web技术的IR、 IE得到了更多的重视。由于Web 数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。在 Web环境下既要处理非结构化文档,又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应用。
3.Web挖掘分类及各自的研究现状及发展
根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
3.1、Web内容挖掘:
指从Web内容/数据/文档中发现有用信息,Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过 Web可以访问的数据库。Web内容挖掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。
Web内容挖掘一般从两个不同的观点来进行研究。从资源查找(IR)的观点来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。
3.1.1从资源查找(Information Retrival)的观点挖掘非结构化文档:
非结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如: “informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少属性集合的规模。
其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。
用资源查找(Information Retrival)的观点挖掘半结构化文档:
与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
3.1.2从数据库(Database)的观点挖掘非结构化文档:
数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。
从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。
数据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、html 等,也可以是一个复合类型,以对象引用集合的形式表示。由于Web数据量非常庞大,从应用的角度考虑,很多研究只处理办结构化数据的一个常用自集。一些有意义的应用是建立多层数据库(MLDB),每一层是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。
由于在数据库观点下数据的表示方法比较特殊,其中包含了关系层次和图形化的数据,所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用,目前已经有人针对多层数据库挖掘算法进行研究。
3.2、Web结构挖掘:
Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现他们之间连接情况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。
Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和 outgoing连接,运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。在Web结构挖掘领域最着名的算法是HITS算法和 PageRank算法。他们的共同点是使用一定方法计算Web页面之间超连接的质量,从而得到页面的权重。着名的Clever和Google搜索引擎就采用了该类算法。
此外,Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘,包括通过检查同一台服务器上的本地连接衡量 Web结构挖掘Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超连接的层次属性去探索信息流动如何影响Web站点的设计。
3.3、Web用法挖掘(Web usage Mining):
即Web使用记录挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问 Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web 用法挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web 使用记录的数据直接预处理再进行挖掘。Web 用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到Web 用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。
在[4]中,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web 用法挖掘分为五类:
●个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。
●系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web 用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
●站点修改:站点的结构和内容是吸引用户的关键。Web 用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依,比如页面连接情况应如何组织、那些页面应能够直接访问等。
●智能商务:用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。
●Web特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况,对用户访问情况进行特征描述。
4.结束语
尽管Web挖掘的形式和研究方向层出不穷,但我认为随着电子商务的兴起和迅猛发展,未来Web挖掘的一个重要应用方向将是电子商务系统。而与电子商务关系最为密切的是用法挖掘(Usage Mining),也就是说在这个领域将会持续得到更多的重视。另外,在搜索引擎的研究方面,结构挖掘的研究已经相对成熟,基于文本的内容挖掘也已经有许多研究,下一步将会有更多的研究者把多媒体挖掘最为研究方向。