当前位置:首页 » 网页前端 » web信息检索技术的研究现状
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

web信息检索技术的研究现状

发布时间: 2022-08-02 18:06:50

❶ 赖茂生的个人作品

(1)《信息资源管理教程》.清华大学出版社,2006年10月
(2)《信息经济学》.北京大学出版社,2006年第一主编
(3)《计算机情报检索(第二版)》. 北京大学出版社,2006
(4)Managing IT in Government, Business & Communities. IRM Press, Hershey PA, U.S.A., 2003. 本人和研究生傅欣、张莉扬负责其中第七章的撰写工作.
(5)《20世纪图书馆学情报学》. 北京图书馆出版社, 2002年11月. 本人和研究生侯艳飞、李箐负责其中一个分支——“20世纪信息检索技术新进展”的撰写工作.
(6)《网络传播研究》. 上海科学普及出版社, 2002年7月. 主编之一, 论文集.
(7)《21世纪情报学教育发展战略研讨会论文集》. 科学技术文献出版社, 2002年7月. 主策划之一.
(8)《信息数字化与法律:数字图书馆建设中的法律问题》. 法律出版社, 2002年6月. 本人和研究生孙广芝、田敏负责其中两篇研究报告的撰写工作.
(9)《社会科学信息资源网络建设》. 北京图书馆出版社, 2002年1月. 主编之一, 多人合着.
(10)《电子商务案例》. 东北财经大学出版社, 2001年12月. 本人和研究生田敏负责其中3个案例的撰写工作.
(11)《信息科学技术与当代社会》. 教育部高教司组编, 大学生文化素质教育书系. 高等教育出版社, 2000年8月. 本人和研究生范晓虹负责书中第一章“信息科学技术的产生和发展”撰写工作.
(12)《企业信息化知识手册》. 北京出版社, 1999年9月. 主编, 多人合着.
(13)《信息高速公路——面向未来社会的震荡》. 山东教育出版社, 1996年12月. 二人合着.
(14)《科技文献检索教学大纲》. 高等教育出版社, 1996年3月. 本人负责其中三章的编写工作.
(15)《21世纪的信息技术》. 科学技术文献出版社, 1995年7月. 二人合着.
(16)《计算机情报检索》. 北京大学出版社, 1993年3月. 主编, 三人合着.
(17)《档案干部继续教育讲座》. 中央电视大学出版社, 1992年9月. 本人负责其中一讲“情报科学与情报技术”.
(18)《中国大网络全书》(图书·情报·档案类). 中国大网络全书出版社, 1992年. 本人负责若干条目的撰写和审改工作.
(19)《科技文献检索指导》. 北京大学出版社, 1992年1月. 主编.
(20)《图书馆学情报学词典》. 书目文献出版社, 1991年12月. 分支学科负责人.
(21)《文摘的概念与方法》(译着). 书目文献出版社, 1991年6月. 主译之一, 负责统稿.
(22)《索引编制工作手册》(译着). 北京大学出版社, 1988年4月. 主译之一, 负责统稿.
(23)《目录学论文选》. 书目文献出版, 1985年. 主编之一.
(24)《科技文献检索》. 北京大学出版社, 1985年. 主编. 1988年获国家教委优秀教材二等奖. 1994年修订再版,2007第9次印刷
学术论文 2007年以后
1 赖茂生,闫慧,关于中国公益信息制度的战略思考,图书情报工作 2011
2 赖茂生,邢博,从公务员招聘看我国情报学人才培养,情报科学 2010
3 赖茂生,知识时代的LIS如何定位和发展,图书情报工作 2010
4 赖茂生,EA、制度与顶层设计,电子政务 2010
5 赖茂生,赵康,企业信息管理人员信息行为和信息素养研究,情报科学 2010-07-15 3 308
7 赖茂生,龙健,新媒体的节目内容创新研究,科技传播 2010-02-23 1 232
8 赖茂生,屈鹏,大学生信息检索能力调查分析,大学图书馆学报 2010-01-21 7 919
9 龙健,赖茂生 ,DOI的兴起与我国的对策,情报杂志 2009
10 赖茂生,龙健,信息化调研综述,产权导刊 2009
11 赖茂生,信息公开制度建设与电子政务深化应用,电子政务 2009-09-15 1 247
12 赖茂生,屈鹏,用户需求模式协同构建的初步探索,情报科学 2009-09-15 1 181
13 赵康,赖茂生,我国期刊网络出版业的市场环境分析,情报探索 2009-09-15 0 125
14 王芳,赖茂生,我国电子政务发展现状与对策研究,电子政务 2009-08-15 11 727
15 赖茂生,孙鹏飞,高校信息素养评价标准发展研究,情报科学 2009-08-15 8 549
16 赖茂生,提升学科理论水平 关注信息制度研究——祝贺《情报理论与实践》创刊45周年,情报理论与实践 2009
17 赖茂生,屈鹏,中文搜索引擎查询与反馈词语特征研究,中文信息学报 2009
18 赖茂生,叶元龄, 闫慧,李璐,从产业融合看数字内容产业发展——基于广东产业发展的分析,情报科学 2009
19 赵康,赖茂生,知识管理成熟度模型的应用研究,医学信息学杂志 2009
20 赖茂生,屈鹏,赵康,论期刊评价的起源和核心要素,重庆大学学报(社会科学版) 2009
21 赖茂生,屈鹏,网络用户的搜索入口与跳转行为研究,情报理论与实践 2009
22 赖茂生,屈鹏,搜索引擎查询日志的词性标注和挖掘研究,现代图书情报技术 2009
23 赖茂生,屈鹏,网络用户的查询与点击行为研究,情报理论与实践 2009
24 赖茂生,屈鹏,李璐,张丽丽,网络用户搜索的语言使用行为研究——实验设计与搜索价值,情报理论与实践 2009
25 赵康,赖茂生,知识管理成熟度模型的结构与创建,中国科技资源导刊 2009
26 赖茂生 ,深入了解前沿,把握情报学的发展方向,图书情报工作 2009
27 赖茂生,屈鹏,谢静,知识组织最新研究与实践进展,图书情报工作 2009
28 赖茂生,闫慧,叶元龄,李璐,内容产业与文化产业整合与协同理论和实践研究,情报科学 2009
29 赖茂生,屈鹏,相关性基础理论及其在检索建模中的作用研究 ,情报理论与实践 2008
30 叶元龄,赖茂生,农村居民信息需求对农村信息化政策的启示——基于广东的分析,科技管理研究 2008
31 赖茂生,闫慧,叶元龄,李璐,内容产业与文化产业的关系研究,情报科学 2008
32 赖茂生,闫慧,网络搜索中语言使用特征研究,现代图书情报技术 2008
33 赖茂生,闫慧,用户自然和社会属性对网络搜索中语言使用行为的影响,现代图书情报技术 2008
34 赖茂生,信息公开与信息资源开发利用,电子政务 2008
35 赖茂生,闫慧,龙健,海峡两岸信息资源产业比较研究,情报科学 2008
36 赖茂生,信息管理的核心领域和发展前瞻——兼论信息管理本科课程体系建设问题,第十三届中国信息经济学会学术年会论文集 2008
37 赖茂生,屈鹏,网络用户信息获取语言使用行为研究,现代图书情报技术 2008
38 黄敏,赖茂生,语义检索研究综述,图书情报工作 2008
39 赖茂生,闫慧,龙健,海峡两岸信息资源产业比较研究,情报科学 2008
40 赖茂生,闫慧,龙健,论信息资源产业及其范畴,情报科学 2008
41 赖茂生,把握前沿,规划远景,扎实推进学科建设,图书情报工作 2008
42 赖茂生,王琳,李宇宁 ,情报学前沿领域的调查与分析,图书情报工作 2008
43 赖茂生,王琳,杨文欣,李宇宁,情报学前沿领域的确定与讨论,图书情报工作 2008
44 黄昆,赖茂生,图像情感特征的分类与提取,计算机应用 2008
2005年-2007年
[1] Guifa Teng, Maosheng Lai, Peng Li. A New Retrieval Scheme Using Meaning Attributes for Ancient Chinese Medical Literature, INFORMATION, Vol.8, No.3, 2005
[2] Guifa Teng, Maosheng Lai, Jianbin Ma. Feature Extracion of Chinese E-mail Documents for Authorship Mining, INFORMATION, Vol.8, No.3, 2005
[3] 王琳、赖茂生:对知识资本与虚拟经济研究的思考,信息时代的经济学与管理学,2005年信息经济学年会论文集,清华大学出版社,2005年5月,351-356页
[4] 陈芬、赖茂生:美国的基因信息隐私权保护,信息时代的经济学与管理学,2005年信息经济学年会论文集,清华大学出版社,2005年5月,282-286页
[5] 熊艳红、赖茂生:中国数字内容产业现状简析,信息时代的经济学与管理学,2005年信息经济学年会论文集,清华大学出版社,2005年5月,140-148页
[6] 申静、赖茂生、钱程:知识型服务创新对信息和通信技术聚合的影响.情报科学, 2005(10)
[7] 赖茂生:读《参考咨询新论》有感. 图书馆工作与研究,2005(4)
[8] 赖茂生:高校知识管理浮出水面.中国教育网络,2005(9)
[9] 赖茂生:如何破解知识社区三大难题 专家把脉数字资源建设. 中国教育网络, 2005(8)
[10] 赖茂生、侯艳飞:跨语言检索技术:策略与方法.郑州大学学报(哲学社会科学版),2005(4)
[11] 汪媛、赖茂生:网络版全文数据库综合评价模型的测试应用分析. 情报科学, 2005(7)
[12] 王妙娅、赖茂生:跨语言信息检索中的询问翻译方法及其研究进展.现代图书情报技术,2005(4)
[13] 傅湘玲、赖茂生、黄昆:企业内容服务的战略设计与实施. 情报学报, 2005(3)
[14] 汤艳莉、赖茂生:ontology在自然语言检索中的应用.现代图书情报技术,2005(2)
[15] 黄昆、赖茂生:感性工学及其在图像检索中的应用, 现代图书情报技术, 2006(5)
[16] 岳珍、赖茂生:国外“情景分析”方法的进展. 情报杂志, 2006(7)
[17] 黄昆、赖茂生:以用户情感为线索的图像检索研究. 情报科学, 2006(9)
[18] 赖茂生、吴龙婷等:国外用户网络搜索行为研究进展, 情报学报, 2006(s1)
[19] 赖茂生、王琳:情报检索发展路径的转向, 情报学报,2006(6)
[20] 岳珍、赖茂生:基于信息构建的网站设计理念研究. 情报科学,2006(11)
[21] 陈芬、赖茂生:视频检索的用户策略. 情报科学, 2007(1)
[22] 岳珍、赖茂生:特派员制度的创新意义.中国科技论坛, 2007(3)
[23] 赖茂生:数字时代的情报学.图书情报工作, 2007(4)
[24]丁璐璐,赖茂生,移动通信增值服务的运营模式研究 ,江西图书馆学刊 2007
[25]王琳,赖茂生,信息集成的领域分析研究,图书情报知识 2007
[26]耿骞,赖茂生,自然语言检索的实现及其关键问题,情报科学 2007
[28]屈鹏,隆捷; 吴龙婷; 赖茂生,国内外情报学研究现状的统计分析,情报资料工作 2007
[29]王琳; 赖茂生,信息技术接受机制研究——对企业知识管理系统导入的启示,情报科学 2007
[30]邱惟明; 赖茂生,中国软件产业规模和软件人才趋势的系统动力学分析,情报科学 2007
[31]叶元龄; 赖茂生,关于发展公益性信息服务的思考,商业时代 2007
[32]黄昆,赖茂生,彩色自然风景图片的四季特征提取,情报学报 2007
2004年之前
[1]信用信息及其传播. 《情报科学》 2004年05期 合着
[2]Web信息检索技术及研究进展. 《现代图书情报技术》 2004年05期 合着
[3]继续发挥好情报学理论传播主渠道的作用. 《情报理论与实践》 2004年04期
[4]商标图像检索技术述评. 《现代图书情报技术》 2004年04期 合着
[5]信息资源开发利用基本理论研究. 《情报理论与实践》 2004年03期
[6]信息哲学研究综述. 《情报理论与实践》 2004年03期 合着
[7]企业知识管理集成的研究. 《情报学报》 2004年03期 合着
[8]信息经济学体系探索. 《情报学报》 2004年01期 合着
[9]关于信息构建(IA)的十个问题. 《江西图书馆学刊》 2004年01期
[10]信息技术与零售之王沃尔玛. 《情报科学》,2003年09期
[11]信息空间构建相关问题探讨——用户体验和系统可用性. 《情报理论与实践》 2003年01期 合着
[12]认知过程链与情报学的新定位. 《情报资料工作》. 2003: 3, p5-7. 合着.
[13]信息技术在商业经营管理中的应用. 《情报理论与实践》. 2003: 3, p249-252. 合着.
[14]中国网络咨询业的发展及对策. 《情报理论与实践》. 2003: 2, p102-105. 合着.
[15]信息空间构建相关问题探讨. 《情报理论与实践》. 2003: 1, p8-10. 合着.
[16]情报学教育的现状与发展. 《情报理论与实践》. 2003: 1, p80-84+88.
[17]情报学的学科发展与教育问题. 《情报学报》. 2003: 1, p1-10.
[18]从信息不对称理论谈我国信用体系建设中的信息支持问题. 《情报资料工作》. 2003: 1, p10-12 [19]国内IT管理咨询业的兴起与发展. 《电子商务世界》. 2002: 12, p86-87.
[20]IT管理咨询业发展分析. 《电子商务世界》. 2002: 11, p90-91.
[21]IT管理咨询企业运营分析. 《电子商务世界》. 2002: 10, p80-81.
[22]“三问”IT管理咨询. 《电子商务世界》. 2002: 9, p28-29.
[23]网络传播的内涵、功能和效果初探. 《第四届全国科技传播研究会年会论文集》,上海科学技术出版社, 2002年7月. P1-14.
[24]第三届全国科技传播研讨会论文综述. 《第四届全国科技传播研究会年会论文集》. 上海科学技术出版社, 2002年7月. P378-388.
[25]Images Organization on Network. 《数字图书馆:新世纪信息技术的机遇与挑战国际研讨会论文集》. 北京图书馆出版社, 2002年7月. 合着.
[26]The Integration of Material Flow, Cash Flow and Information Flow in E-Commerce. 《信息资源管理协会国际会议论文集》. 2002年5月. 合着.
[27]Information Resource Development in China. 《信息资源管理协会国际会议论文集》. 2002年5月. 合着.
[28]论信息经济的制度变迁. 《情报学报》. 2002: 5, p608-612. 合着.
[29]信息空间构建(IA)初探. 《中国图书馆学报》. 2002: 4, p79-81. 合着.
[30]基于语义联想的中文图像搜索引擎——构想与实验. 《现代图书情报技术》. 2002: 3, p63-65. 合着.
[31]商业企业信息化的脚步. 《信息系统工程月刊》. 2002: 1, p6-7. 合着.
[32]政府信息公开与立法研究. 《情报学报》. 2001: 3, p276-281. 合着.
[33]知识管理与企业核心竞争力. 《中国信息导报》. 2001: 12, p8-9. 合着.
[34]中国网络咨询的现状和发展前景. 《庆祝中国科技信息事业创建45周年学术讨论会》. 中国石化出版社, 2001年10月.
[35]网络信息检索工具评价实验. 《情报学报》. 2001: 6 & 8, p299-301, p430-434. 合着.
[36]企业竞争情报活动研究. 《情报学报》. 2001: 4, p174-179. 合着.
[37]信息化与数字鸿沟. 《现代信息技术》. 2000: 12, p84-86.
[38]现代咨询机构的若干特征. 《中国信息导报》. 2000: 9, p54-56. 合着.
[39]亚马逊漂流——由亚马逊的经营模式想到的. 《信息系统工程月刊》. 2000: 6, p16-17. 合着.
[40]信息主管如何驾驭信息. 《信息化建设》. 2000: 5, p25-27.
[41]电子商务活动中的隐私保护问题. 《中国信息导报》. 2000: 5, p56-57.
[42]情报学的发展观. 《图书情报知识》. 2000: 4, p2-4+9.
[43]从电子出版到数字出版. 《中国电子出版》. 2000: 3, p40-41.
[44]21世纪的电子信息服务体系. 《中国信息导报》. 2000: 1 & 2, p6-9, p10-12.
[45]信息主管:从信息管理到知识管理. CONDEX/China’ 99 讲演. 1999年3月.
[46]因特网信息传播中的管理问题及其对报刊的影响. 《中国新闻学院学报》. 1999: 2.
[47]对当前“知识经济”宣传的思考. 《科学决策》. 1998: 5, p20-21.
[48]CNII and State-owned Enterprises Reform. 第二届信息基础结构国际研讨会论文, 1998年4月.
[49]企业需要高素质的CIO. 中国计算机报. 1998: 3.
[50]CIO的概念和历史沿革. 中国计算机报. 1998: 1.
[51]浅议情报科学及其教育问题. 《情报科学》. 1998: 1, p12-15.
[52]信息高速公路的知识产权问题研究. 《广州市信息服务业发展与管理研讨会论文集》, 1997年10月. P82-91.
[53]总结经验,深化改革,开创函授教育新局面. 《北京大学学报》(哲社版)(信息管理系五十周年专刊). 1997年9月.
[54]立足于大信息观念的专业教育改革. 《北京大学学报》(哲社版)(信息管理系五十周年专刊). 1997年9月.
[55]科技传播学的研究范围和内容框架初探. 中国第二届科技传播暨中国科学社与中国近代科技传播研讨会论文, 1997年6月, 杭州.
[56]我国信息资源管理的政策立法研究. 《中国信息化法制建设研讨会论文集》, 1997年3月. 合着.
[57]我国现行信息资源管理的政策与法律研究. 《科技与法律》. 1997: 1-3. 合着.
[58]国民经济信息化政策立法的国际经验研究. 《科技与法律》. 1997: 1-3. 合着.
[59]Effects of National Economy Informatization on Ecation. 信息资源与社会发展国际研讨会论文, 1996年, 武昌.
[60]美国情报学会第58届年会评述. 《高校社会科学研究与理论教学》. 1996: 3.
[61]科技传播中的法律问题. 《科技传播研究——首届科技传播研讨会论文选》. 孙宝寅主编. 清华大学出版社, 1996年3月. 合着.
[62]九十年代的信息经济学研究动态. 中国信息经济学会1995年年会, 1995年, 北京.
[63]光盘技术及其应用进展. 《情报学年评》(第一卷). 1995.
[64]多媒体技术和电子出版发展概况. 《电子出版》. 1995: 12, 1996: 1.
[65]基于超文本结构的后控词表管理系统. 《情报学报》. 1995: 5. 合着.
[66]华语地区数据库着作权法规研究. 《情报科学技术》. 1995: 4.
[67]中文全文数据库开发与检索技术. 《高校文献信息》. 1995: 2. 合着.
[68]欧共体在数据库版权保护方面的进展. 《情报学报》. 1995: 2. 合着.
[69]中国数据库产业的知识产权保护. 《科技与法律》. 1995: 1. 合着.
[70]企业竞争情报体系的建立与发展. 全国竞争情报与企业发展研讨会论文, 1994年9月, 北京. 合着.
[71]中小企业情报需求分析. 《情报理论与实践》. 1994: 1. 合着.
[72]汉语自动标引加权方法实验研究. 《第十届全国计算机情报管理学术讨论会会议文集》, 1993年10月. 合着.
[73]日本图书馆学情报学教育分析比较. 《中国图书馆学报》. 1993: 2.
[74]国外自动编目的理论研究和实践探索. 《大学图书馆学报》. 1993: 1. 合着.
[75]中文图书自动编目的初步构想. 《现代图书情报技术》. 1993: 1. 合着.
[76]情报检索词汇的后控技术. 第九届全国计算机情报管理学术讨论会论文, 1992年10月, 浙江梅宁. 合着.
[77]An Outline of Automatic Cataloguing for Chinese Books. Paper to be presented
to International Symposium and Exhibition on the Latest Development in
Technologies of Library Service. Sep. 7-11, 1992, Beijing. With Ding Wei.
[78]情报检索系统的词汇控制技术. 《情报学报》. 1992: 2.
[79]Vocabulary Control Methods for Information Retrieval Systems. Paper to be presented to The 3rd Beijing International Symposium on Computerized Information Management, Oct. 14-18, 1991.
[80]关于叙词法性能的探讨. 《情报学刊》. 1991: 4. 合着.
[81]电子图书馆的构想与实现. 《情报科学技术》. 1991: 3.
[82]日本的数据库产业. 《现代图书情报技术》. 1991: 1.
[83]Development of the System of Automatic Indexing for Chinese Scientific & Technical Literature. In Database Development and Chinese Information Needs; Proceeding of the Second Beijing International Symposium on Computerized Information Retrieval. Ed. By Zeng Minzu, Aslib, London, 1990. P179-188.
[84]数据库与光盘技术发展动向. 第八届全国计算机情报管理学术讨论会论文, 1990年10月, 长沙.
[85]CD-ROM的性质、应用与影响. 《现代图书情报技术》. 1988: 1, p31-38.
[86]汉语科技文献自动标引系统. 《情报学报》. 1987: 4, p277-284. 合着.
[87]标引深度及其优化. 《北京大学学报》(哲社版). 1986: 4.
[88]情报咨询服务. 《科技情报工作》. 1985: 10-11, p24-26, p24-25.
[89]国外两大电视信息检索系统. 《大学图书馆通讯》. 1985: 3, p21-25.
[90]新的情报技术之二——电视信息检索系统. 《大学图书馆通讯》. 1985: 3, p34-37.
[91]新的情报技术——光学录像盘和光盘技术. 《大学图书馆通讯》. 1985: 1, p25-28.
[92]评1945-1981年间美国联邦政府有关二次情报系统与机构的政策(译文). 《图书馆学情报学参考资料》. 书目文献出版社, 1984. 第4辑, p1-8.
[93]我国出版的科技文献检索刊物. 《科技情报工作》. 1984: 7, p29-32.
[94]着者索引和专用索引. 《科技情报工作》. 1983: 11, p25-26.
[95]引文索引. 《科技情报工作》. 1983: 10, p29-31.
[96]关键词索引. 《科技情报工作》. 1983: 8, p33.
[97]后组式字顺主题索引. 《科技情报工作》. 1983: 7, p29-32.
[98]先组式字顺主题索引. 《科技情报工作》. 1983: 6, p29-32.
[99]检索工具的索引. 《科技情报工作》. 1983: 5, p23-26.
[100]目录性和题录性检索工具. 《科技情报工作》. 1983: 4, p28-31+27.
[101]文摘性检索工具. 《科技情报工作》. 1983: 3, p28-31.
[102]文献检索与检索工具. 《科技情报工作》. 1983: 2, p31-33.
[103]情报与文献. 《科技情报工作》. 1980: 12, p17.
[104]关于情报学的范围. 《科技情报工作》. 1980: 3, p31-33.

❷ 急急急~网络信息检索方法与应用 论文

我给你找了一篇,摘要如下:
随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
全文主要包括六个部分,
第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。
第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。
第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...
第四部分分析讨论了检索技术的另一分支—基于内容的检索技术
第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。

好不容易给转成 .txt文本,贴在下面:
1.1网络信息资源
网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。
随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作
为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉
及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文
本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学
和工程技术等各个领域。
1.2信息检索技术
信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信
息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的
过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索
仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所
需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如
烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原
文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供
目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法
来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索
到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息
的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比
较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文
档库中精确定位所需信息的最有效手段l3]。
.3.2web信息检索
其检索方式有:浏览器方式和搜索引擎方式。
(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏
览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提
供的检索方式访问数据库。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检
索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信
息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提
供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在
数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从
而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务
器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满
足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。
网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。
1.4网络信息检索效果评价
目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查
准率、收录范围、输出格式,其中以查全率和查准率最为重要。
现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法
及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”
模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;
“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,
如查询数据库。
2.2.1信息推送技术
“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信
息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术
之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具
有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用
网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器
之间透明地进行通信,极大地方便了用户。
所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质
上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生
兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技
术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息
服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的
某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,
然后按照每个用户的特定要求,主动推送给用户141。
(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。
网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,
它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣
的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,
如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送
信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专
门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。
智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息
推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动
信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由
ll硕士学位论文
MASTER,5THESIS⑧
数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生
变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器
启动信息推送过程。
(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效
性·灵活性和综合性I5]。
主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将
数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。
这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。
针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求
进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索
界面。
智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定
期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自
动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主
题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要
的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网
络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务
(SDI)不能比的。
高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push
技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据
量的多媒体信息。
灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连
接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。
综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且
还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。
但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不
能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研
究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继
承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之
!2硕士学位论文
MASTER,5THESIS管
后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所
有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资
料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当
等等[刀。
2.2.2信息拉取技术
常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,
从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求
有目的地去查询、搜索所需的信息。
Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网
络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因
此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合
起来,常用的结合方式为:
(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针
对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而
动态地选取需要深入了解的信息。
(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针
对性地推送相关的其它信息。
(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感
兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。
(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键
词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用
户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。
因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信
息系统为用户提供主动信息服务的一个发展方向。
2.3Web挖掘技术
随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet
给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文
MASTER,5THESIS⑧
类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解
决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量
与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在
这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是
由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技
术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘
作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。
2.3,1姗eb挖掘的内容
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其
中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文
件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识
发现的手段,它主要从下面3个方面进行仁’时。
(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web
资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web
数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、
声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML
标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信
息挖掘主要从下面两个角度进行〔”]。
一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这
些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,
用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,
然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、
概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,
可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同
处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文
档内部超链结构,使得表示半结构化数据的方法更加丰富。
二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接
14⑧蕊誉蕊
文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,
应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web
站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数
据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使
其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装
程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研
究web上的查询语言来实现建立并维护web站点的途径[’“]。
(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从
文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,
W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个
个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以
用于寻找相似的网站。
W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述
网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结
构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映
了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b
页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web
页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出
与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展
示的信息完整程度。
③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日
志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的
数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、
检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、
分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,
它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务
器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的
页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息
l5硕士学位论文
MASTER,5THESIS⑥
挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映
射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为
了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、
模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和
页面内容信息等方面。
2.3.2web挖掘技术在网络信息检索中的应用
(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述
中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,
因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分
进行进一步的完善,具体而言表现在以下几个方面。
①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简
洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信
息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。
②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题
类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息
检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很
多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几
乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,
通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。
③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是
将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能
大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类
技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的
信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,
文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果
进行分类,并将相似的结果集中在一起。
(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一
种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但
是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信
16硕士学位论文
MASTER,S竹正515⑧
息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘
中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的
检索能力,改善检索效果〔’3]。
(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘
总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究
内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而
且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜
索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。
2.3.3web挖掘技术的局限及方向
(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,
都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、
实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标
引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进
行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。
通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查
全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数
据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。
(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰
富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理
的需要,需要设计新的数据结构来表示网站结构。
由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对
用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用
的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要
研究方向之一。
(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、
代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和
客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如
何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期
间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代
l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个
图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容
时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。
另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来
的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。
2.4信息过滤技术
hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同
时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第
一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背
景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审
定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目
前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种
网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供
给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有
包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能
力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现
象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让
搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到
用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,
帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
2.4.1信息过滤模型
信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模
型,不同的检索模型有不同的过滤方法。51。
(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索
中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据
进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括
关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词

……………………………………
太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。

❸ 网络信息检索的现状与发展

网络信息检索的现状与发展
1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg 等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展,那么这些检索工具的现状和发展趋势如何呢?本文将试作以探讨。

1.基于网页的网络信息检索工具的现状和发展趋势

1.1现状。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。

但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些着名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3) 网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。

1.2发展趋势。网络信息检索工具的发展主要体现在进一步改进、完善检索工具和检索技术,以提高检索服务质量,改变网络信息检索不尽如意的地方。主要体现在以下几个方面:

1.21网络检索工具开发提供商之间合作越来越紧密。过去一般网络检索工具提供商只依靠自己建立的数据库来提供检索服务,检索范围有限,而现在某些着名的搜索引擎在购买其他公司的数据库或者技术内核,有的与其他搜索引擎建立伙伴关系,以便用户使用。比如着名雅虎现在采用的是Google的搜索内核,网易也曾经使用Google的搜索内核技术来丰富自己的搜索引擎数据库,硅谷动力、广州视窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了网络的搜索内核技术等等。

1.22信息检索工具专业化及服务内容深化。一些检索工具已经不再盲目追求加大收录和标引量,而更加注重突出专业特色。在lycos搜索引擎目录中,我们可以看到商业搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索纷纷出现,信息检索工具的专业化已经成为一种不可逆转的趋势。信息检索服务商将服务更加深化:Google推出了网页引文查询服务,通过它可以查看自己所要查询的资料被其他网站引用的情况,从而使用户更好的把握网页信息的质量;2003年8月,第三代中文搜索引擎慧聪问世,它则集“广泛的地域搜索”、“强大的行业搜索”、“完美的MP3、Flash搜索”众多搜索功能为一体,还开发了“针对内容的相关性查询”和“符合汉语特性的模糊查询”,可以实现汉语拼音查询和同音词纠错。

1.23网络信息工具智能化的发展趋势:(1)信息检索工具的智能化首先是网络蜘蛛的智能化。针对网络信息的动态更替性,网络蜘蛛通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息。网络蜘蛛能在网络的任何地方工作,能尽可能地挖掘和获得信息。网络蜘蛛还要有网页跟踪监测功能,如果网页出现更新、删除等情况要及时在数据库中更新。网络蜘蛛具有跨平台工作和处理多种混合文档结构的能力。(2)其次是检索软件的智能化。现在主要有智能搜索引擎、智能浏览器、智能代理。这些网络检索工具都非常重视开发实现基于自然语言形式的输入,检索者可以将自己的检索提问以及所习惯的短语、词组甚至句子等自然语言的形式输入,智能化的检索软件将能够自动分析,而后形成检索策略进行检索。比如现在的网络搜索可以在你输入关键词以后,不断提供一些相近的关键词供你选择,直至找到你所需要的结果。Google则借助于机器翻译技术,将一种自然语言转变成另外一种自然语言,使用户能够使用母语搜索非母语的网页,并以母语浏览搜索结果。尤里卡、问一问、和国外的ASK Jeeves则通过语义技术和检索技术的结合,可是实现检索工具对搜索词在语义层次上的理解,为用户提供最准确地检索服务。

2.基于FTP文件的搜索工具。

2.1现状。如前所述,搜索引擎的雏形以及最早的搜索引擎都是基于FTP文件搜索的。最早的FTP搜索引擎是基于文本显示的Archie。后来由于WEB的出现,FTP搜索引擎发展受到了一定的影响。直到基于WEB的FTP搜索引擎出现,它才越来越多受到人们的欢迎,用户量也在迅速上升,重要性也日渐显现出来。FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表并向用户提供文件信息的查询服务。目前,国内做的最好的、规模最大的当属天网FTP文件搜索引擎,现在可以搜索2400万个文件(数据来源于天网主页),2002年时的统计日访问量是40万次,这在世界FTP搜索引擎界也算是一个佼佼者。另外国内还有清华9#搜索引擎、西安交大思源搜索、华南木棉搜索引擎、网络指南针、中科大天狼搜索引擎以及南京理工的“一网打尽”搜索引擎等等,国外的有Philes.com、AlltheWeb.com、Filesearching.com、souborak.com和ftpfind.com等,其中ftpfind.com是目前国外最先进的,支持包括站点快照和文件分类等新兴功能,而且文件数据量非常大。

近几年来,虽然FTP搜索引擎技术发展的很快,但相对WWW搜索引擎而言,FTP搜索引擎为数不多,技术上也还不十分成熟,还有很多需要改进的地方:(1)FTP搜索引擎的收录数量还比较少,搜索引擎的规模和质量还是要取决于其维护的信息量。据统计,全球匿名FTP服务提供的文件条目已经有数亿条,即便是目前规模最大的Philes.com,据陈华、李晓明2002年7月份统计也只有209,698,206 个文件。(2)检索功能还不完善。检索功能是一个搜索引擎最重要的部分,有很多搜索引擎还不能支持“and”和“or”等简单的布尔检索,使得数据库中的文件不能被检索到。(3)FTP服务器本身特点决定了FTP搜索引擎弱点,即由于FTP服务器有开放时间、有的还限制IP地址、有的限制登陆的用户量、不同的服务器设立的联接端口号并不相同等决定了其搜索到的结果有一部分是不能访问的,大大降低了用户的满意度。

2.2发展趋势。正如前文所述,FTP文件搜索引擎技术还不是很成熟,但其发展非常迅速,其发展趋势主要表现在以下几个方面:(1)检索功能日益丰富。天网FTP文件搜索引擎现在可以实现以文件大小、文件的上传日期、以及网段(比如说是华北网、华东网等)等多个条件的高级检索来限制检索结果;AlltheWeb.com增加了检索方式(规则表达检索、准确检索、浏览、对大小写敏感与否等等),限制主机(是e还是gov或者com等),文件类型以及文件大小、日期等功能。(2)检索服务的个性化。现在FTP搜索引擎研究者已经开始注意这一方面,天网ftp搜索引擎已经有了很多可以个性化的选项:可以设置用户不同偏好的排序方式,可以设定国外文件优先还是本国文件优先,对于国外用户是不是应该国外文件优先,是FTP上文件优先还是WWW上的文件优先,是选择中文的还是英文的等等。AlltheWeb.com则是可以完成更丰富的个性化设置,比如说可以选择一个主机提供一个结果、设置语言、搜索的文件大小设置、是否亮度显示搜索关键词、设置使用者语言、以及键盘快捷键等等。

3.基于网络检索工具的检索技术的现状和发展趋势。

3.1随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求(检索字串)等烦琐操作,基于网络检索工具的检索工具产生了。

目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和网络搜霸,国外比较着名的有“搜索之家”(http://so.web165.com/)、“网际瑞士军刀”(http://free.okey.net/~free/search1.htm)等。另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较着名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle(以上五个为2002年度的最佳元搜索引擎)等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。

从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。

3.2发展趋势。这类检索工具的发展趋势主要表现在下面几个方面:(1)检索结果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以实现搜索结果的自动分类,用户即可以利用传统的方式浏览结果,也可以利用其同屏的分类结果提示找寻自己需要的内容。EZ2WWW高级搜索功能提供1000多种专项资源检索,可进行目录检索。SurfWax有一个其它元搜索引擎没有的独特功能,即点击每条结果左边的“网址揿钮”图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置,也可以把搜索结果和文件存储起来以备后用。天网搜霸已经拥有了独特的链接检测功能,在几秒钟内检查当前页面查询结果是否可以访问,如果为标注绿色,则链接可连通(目前仅检测页面内以http://和ftp://开头的链接)(2)检索界面的个性化趋势。天网搜霸和Google提供了IE浏览器的插件,安装后就会被嵌到IE的工具栏,用户不用登陆天网的主页,就可以实现检索。用户可以将自己喜欢的搜索引擎设置为主要搜索,也可以添加用户自己喜欢的搜索引擎。天网搜霸不久前刚刚推出了可以嵌在Windows系统任务栏上的插件,现在用户连打开IE浏览器都不需要了。Mamma可以选择使用短语检索功能、设定检索时间、设定每页可显示记录数,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。MetaCrawler可以实现搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)个性化定制保存。(3)智能化。ProFusion可以自动实现符合特殊检索语法要求的转换,如在调用Excite、InfoSeek、WebCrawler时将“NEAR”转换成“AND”,在调用GoTo、Yahoo时将“NOT”删除等;Mamma也支持常用检索语法在不同搜索引擎中的转换;C4可以支持自然语言检索,虽然它没有自己的数据库,却可以提供网上的检索结果。

❹ 国内外有哪些关于web安全的开发和研究,现水平如何

web安全 是未来主要的被攻击对象,占安全威胁35%以上,目前最先进的技术是 AI Security 使用人工湖智能的方式去防御不知道或已经知道的安全威胁,这方面国内只有两家企业有这块核心的技术,分别是:网络安全 与 中云网安。为甚么要用人工智能去抵御攻击,不是人工智能有多先进,而是黑客行为已经在使用 AI 人工智能的方式在制造传统无法抵御与方法在攻击比以往成百倍计算能力的攻击行为,所有一切传统的安全防范只要一击必垮,所以,只有一物治一物,必须对症下药才能防护得住 。

❺ 求一篇信息检索的论文,字越多越好~

四、智能检索
智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。

五、计算机信息检索随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时睛报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。DiMog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最着名的系统之一。在单语言检索中,计算机检索系统利用网络蜘蛛进行网络信息的收集,然后利用自动标引技术对搜集的信息进行标引形成索引信息库。用户输入检索式后,计算机把检索式与数据库中索引项进行匹配,按索引式与标引项相关性大小降序输出检索结果。跨语言检索中,只要在检索过程中加入语言处理技术,就可以使一种语言与其他语言对应。信息检索是经济生活和科学研究的一个重要组成部分,尤其在今天这个飞速发展的信息时代,如何广泛、快速、准确地获取对自己有价值的信息,特别是如何借助电子化、网络化的手段去获取有价值的信息,直接影响到教学、科研等工作的成败。因此信息检索的方法和技能,越来越成为现代科技工作者和教师所必备的基本技能。目前,计算机信息检索已成为广大用户获取信息的主要方式,而且呈现出联机信息检索、光盘信息检索以及因特网信息检索多元并存的信息检索格局。如何快速、准确及有效地检索到所需信息,已成为日益突出的问题,那么,了解各信息检索系统的特点是实施信息检索最基本的前提。下面就其三种计算机信息检索系统作一介绍。
1.联机信息检索系统。所谓联机信息检索,是指信息用户利用终端设备,通过国际通讯网络与世界上的信息检索系统,进行直接的人机对话,从检索系统的数据库中查找出用户所需信息的全过程。一个联机信息检索系统,通常由检索服务机构、国际通讯网络和终端组成。
2.光盘信息检索系统。光盘信息检索系统是单机信息检索系统的一种,它解决了单机检索系统数据存储量少的缺点,是目前应用较为广泛的一种计算机信息检索系统。在信息检索领域应用的光盘主要是只读光盘。
3.因特网信息检索。作为用户最多、影响最大的计算机网络,因特网堪称世界上资源最丰富的信息库和文档资料库,几乎能满足全球范围内对任何信息的需求。因特网信息检索系统一般由计算机服务器、通信网络、通信协议。网络信息检索服务器、用户终端等构成。

六、网络信息检索网络信息检索简单地10说就是网络环境下的信息检索。它与传统信息环境下的检索有很大的不同,网络信息检索具有多样性、灵活性也超出了传统的信息检索。原来传统途径可获得的信息,现在几乎全部可以通过网络检索得到,而且更快、更新、更准确。随着计算机、多媒体和现代通讯技术的飞速发展,以印刷型文献为主的学校图书馆开始向以电子信息和虚拟信息为主的数字图书馆转化,Internet创造了丰富和多元化的学习资源,实现了资源共享。
随着学习社会化、终身学习体系的诞生和进一步推进,网络在中小学教育中的应用也日益广泛和深入起来。Internet为我们带来了丰富的学校综合教育信息资源,它是提供Internet上的可用于学校综合教育过程的,在学校教育系统中传递的信息。近几年,Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。信息内容涉及广泛,几乎包括工农业生产、科技、教育、文化艺术、商业、资讯、娱乐休闲等诸多方面。在Intemet上,购物、在线教育、在线股市、远程医疗、点播电影、网络会议、网络展览都已变成现实,成为人类技术和文明的巨大财富,是全球取之不尽,用之不竭的信息资源基地。丰富信息资源带到人们面前的同时,也带来了问题:人们在蕴含丰富的信息面前无所适从,在浩如烟海的信息海洋中迅速、准确获取自己最需要的信息,变得十分困难。因此,20世纪90年代中期出现了检索万维网信息资源的搜索引擎技术。万维网是目前因特网上最受欢迎的检索服务系统,它利用超链接技术将全球的信息资源连接起来,用户通过浏览器就可以实现对网站页面的访问。
21世纪是一个高度信息化的社会,信息就是商品、信息就是财富、信息就是资源、信息就是机会,因此人人都渴望及时获得有用的信息。如果说搜集信息是人类赖以生存、发展的一种本能,那么信息检索则是每个大学生和科研人员必须具备的一种基本技能。在计算机、网络通信技术日新月异,互联网遍及世界各个角落的今天,我们正身置于广袤无垠的信息海洋中。面对这样一个新知识、新技术不断涌现、知识新陈代谢频繁的世界,想要一劳永逸地获取知识是不可能的。我们只有终身学习,不断地获取、更新知识,才能不被社会所淘汰。要有效、快速地获取和利用最新信息,就必须掌握信息检索的技能。大学生在校求学期间所获得的不应该仅仅是“黄金”,更重要的是应获得“点金术”,其中之一就是信息检索的能力。通过检索和利用各种信息,不仅可以深化所学的知识;而且可以开阔视野,拓宽知识面;也为自学前人的知识、不断更新知识以及从事科学研究和发明创造奠定基础。

❻ 网络信息检索及其发展趋势是什么

一、智能化

智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。近几年来,智能信息检索(intelligent information retrieval)作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。

二、可视化

可视化(visualization)的历史可以追溯到2400多年前。哲学家柏拉图指出,我们通过看来识别物体。据统计,人获取信息有70%一80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual)取代文字帮助人们检索的优点在于:图像的表达方式生动、形象、准确、效率更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。

三、简单化

未来家用电脑将朝着智能化、网络化、人性化和绿色环保的方向发展;操作系统的用户友好性将不断增强,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任一应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”。使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推拉等技术逐步发展、完善,会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。

四、多样化

多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画。目前网络信息检索的主体是文本信息,基于内容的检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。

多样化的第二个表现是检索工具向多国化、多语种化方向发展。网络的迅速发展,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。

多样化的第三个表现是网上检索工具的服务多元化。网上检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,提供站点评论、天气预报、新闻报道、股票点评、各种黄页(如电话号码)、航班和列车时刻表、地图等多种面向大众的信息服务、免费电子信箱,以多种形式满足用户的需要。无论是在国际上还是在国内,检索工具都在朝多元化方向发展,为用户提供全方位服务。

多样化还表现在网络信息检索可以间接地服务于其他行业。例如数据挖掘技

术可用于分析历史数据的变化趋势,预测未来发展方向,发现大量数据中潜在的模式规律,为投资、科研、项目评估等提供有力的依据;还可以系统地、定量地分析目前较为热门的研究发展领域及查询频繁更新的文献资料种类,可使信息中心、图书馆等信息服务机构不断调整文献资料及图书的订阅、收集工作,有的放矢,向以需求为驱动的方向发展,建立一套更为系统、科学的管理方式。

五、个性化

个性化指各网站注重内容的特色化和注重个性化的服务。

网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力。随着互联网的飞速发展,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上,并成为各个搜朋够或网站努力追求的对象。不同的打有消费者个人烙印的产品将成为某个消费者区别他人、感觉自我存在及独特的外在标志,个性化服务成功的实质在于提供了真正适应用户需要的产品,贯彻了以用户为中心的理念。

六、商业化

网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。网络检索系统已成为新的投资热点。网络检索系统不再仅仅是一种检索工具,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公用性转向商业化。美国着名的数字媒体评估公司Jupiter Media Metrix日前发布研究报告称,“搜索引擎公司推出的付费添加服务是一个正在兴起的、前景光明的因特网领域,相对于目前低迷的在线广告市场来说,它的发展潜力是非常巨大的。”