当前位置:首页 » 网页前端 » 图谱应用的前端
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

图谱应用的前端

发布时间: 2022-09-08 06:38:27

Ⅰ 美团大脑百亿级知识图谱的构建及应用进展

分享嘉宾:张鸿志博士 美团 算法专家

编辑整理:廖媛媛 美的集团

出品平台:DataFunTalk

导读: 美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“美团大脑”已经覆盖了数十亿实体、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用,主要围绕以下3个方面展开:

--

“美团大脑”是什么?

以下是“美团大脑”构建的整体RoadMap,最先是2018年开始餐饮知识图谱构建,对美团丰富的结构化数据和用户行为数据进行初步挖掘,并在一些重要的数据维度上进行深入挖掘,比如说对到餐的用户评论进行情感分析。2019年,以标签图谱为代表,重点对非结构化的用户评论进行深入挖掘。2020年以后,开始结合各领域特点,逐个领域展开深度数据挖掘和建设,包括商品、美食、酒旅和到综和cross图谱等。

--

在搜索中,通常用户需要将其意图抽象为搜索引擎能够支持的一系列精搜关键词。标签知识图谱则是通过“标签”来承载用户需求,从而提升用户搜索体验。例如,通过标签知识图谱,用户可直接搜索“带孩子”或者“情侣约会”,就可返回合适的商户/内容供给。从信息增益角度来说,用户评论这种非结构化文本蕴含了大量的知识(比如某个商户适合的场景、人群、环境等),通过对非结构化数据的挖掘实现信息增益。该团队以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘以及标签-商户关联等关键技术,自下而上梳理用户需求,场景及主要关注点完成图谱构建。

标签知识图谱构建分为以下四个部分:知识抽取、关系挖掘、图谱打标和图谱应用。

① 知识抽取

标签挖掘采用简单的序列标注架构,包括Single span标签挖掘和跳字标签挖掘,此外还会结合语义判别或者上下文判别,采用远监督学习+结果投票方式获取更精准的标签。

② 关系挖掘

同义词挖掘:同义词挖掘被定义为给定包含N个词的池子,M个业务标签词,查找M中每个词在N中的同义词。现有的同义词挖掘方法包括搜索日志挖掘、网络数据抽取、基于规则的相似度计算等,缺乏一定的通用性。当前我们的目标是寻找通用性强,可广泛应用到大规模数据集的标签同义词挖掘方法。

以下是作者给出的同义词挖掘的具体方案,首先将离线标签池或者线上查询标签进行向量表示获取向量索引,再进行向量哈希召回,进一步生成该标签的TopN的同义词对候选,最后使用同义词判别模型。该方案的优势在于降低了计算复杂度,提升了运算效率;对比倒排索引候选生成,可召回字面无overlap的同义词,准确率高,参数控制简单。

对于有标注数据,主流的标签词嵌入表示方法有word2vec、BERT等。word2vec方法实现较为简单,词向量取均值,忽略了词的顺序;BERT通过预训练过程中能捕捉到更为丰富的语义表示,但是直接取[CLS]标志位向量,其效果与word2vec相当。Sentence-Bert对于Bert模型做了相应的改进,通过双塔的预训练模型分别获取标签tagA和tagB表征向量,然后通过余弦相似性度量这两个向量的相似性,由此获取两个标签的语义相似性。

对于无标注数据来说,可以通过对比学习的方法获取句子的表示。如图所示,Bert原始模型对于不同相似度的句子的向量相似度都很高,经过对比学习的调整之后,向量的相似度能够较好地体现出文本相似度。

对比学习模型设计:首先给定一个sentence,对这个样本做扰动产生样本pair,常规来说,在embedding层加上Adversarial Attack、在词汇级别做Shuffling或者丢掉一些词等构成pair;在训练的过程中,最大化batch内同一样本的相似度,最小化batch内其他样本的相似度。最终结果显示,无监督学习在一定程度上能达到监督学习的效果,同时无监督学习+监督学习相对于监督学习效果有显着提升。

同义词判别模型设计:将两个标签词拼接到Bert模型中,通过多层语义交互获取标签。

标签上下位挖掘:词汇包含关系是最重要的上下位关系挖掘来源,此外也可通过结合语义或统计的挖掘方法。但当前的难点是上下位的标准较难统一,通常需要结合领域需求,对算法挖掘结果进行修正。

③ 图谱打标:如何构建标签和商户供给的关联关系?

给定一个标签集合,通过标签及其同义词在商户UGC/团单里出现的频率,卡一个阈值从而获取候选tag-POI。这样会出现一个问题是,即使是频率很高但不一定有关联,因此需要通过一个商户打标判别模块去过滤bad case。

商户打标考虑标签与商户、用户评论、商户Taxonomy等三个层次的信息。具体来讲,标签-商户粒度,将标签与商户信息(商户名、商户三级类目、商户top标签)做拼接输入到Bert模型中做判别。

微观的用户评论粒度,判断每一个标签与提到该标签的评论(称为evidence)之间是正面、负面、不相关还是不确定的关系,因此可当作四分类的判别模型。我们有两种方案可选择,第一种是基于多任务学习的方法, 该方法的缺点在于新增标签成本较高,比如新增一个标签,必须为该标签新增一些训练数据。笔者最终采用的是基于语义交互的判别模型,将标签作为参数输入,使该模型能够基于语义判别,从而支持动态新增标签。

基于语义交互的判别模型,首先做向量表示,然后是交互,最终聚合比较结果,该方法的计算速度较快,而基于BERT的方法,计算量大但准确率较高。我们在准确率和速度上取balance,例如当POI有30多条的evidence,倾向于使用轻量级的方式;如果POI只有几条evidence,可以采用准确率较高的方式进行判别。

从宏观角度,主要看标签和类目是否匹配,主要有三种关系:一定不会,可能会,一定会。一般通过商户层关联结果进行投票结果,同时会增加一些规则,对于准确率要求较高时,可进行人工review。

④ 图谱应用:所挖掘数据的直接应用或者知识向量表示应用

在商户知识问答相关的场景,我们基于商户打标结果以及标签对应的evidence回答用户问题。

首先识别用户query中的标签并映射为id,然后通过搜索召回或者排序层透传给索引层,从而召回出有打标结果的商户,并展示给C端用户。A/B实验表明,用户的长尾需求搜索体验得到显着提升。此外,也在酒店搜索领域做了一些上线实验,通过同义词映射等补充召回手段,搜索结果有明显改善。

主要采用GNN模型实现,在构图中构建了两种边,Query-POI点击行为和Tag-POI关联信息;采用Graph Sage进行图学习,学习的目标是判断Tag和POI是否有关联关系或者Query和POI是否点击关系,进一步依据关联强度进行采样。上线后结果显示,在仅利用Query-POI信息构图时,线上无收益,在引入Tag-POI关联信息后线上效果得到显着提升。这可能是因为排序模型依赖于Query-POI点击行为信息去学习,引入Graph Sage学习相当于换了一种学习的方式,信息增益相对较少;引入Tag-POI信息相当于引入了新的知识信息,所以会带来显着提升。

此外,仅接入Query-POI向量相似度线上效果提升不佳,将Query和POI向量接入后效果得到显着提升。这可能是因为搜索的特征维度较高,容易忽略掉向量相似度特征,因此将Query和POI向量拼接进去后提升了特征维度。

该任务通过当前已知的Item去预测用户点击的Masked Item。比如说获取Item的上下文表征的时候,将相关的Attribute信息也进行向量表征,从而去判断Item是否有Attribute信息。

此外,还可以做Masked Item Attribute 预测,从而将标签的知识图谱信息融入到序列推荐任务中去。实验结果表明,引入知识信息后的准确率在不同的数据集上均有数量级的提升。同时,我们也做了线上转化的工作,将Item表征做向量召回;具体来说,基于用户历史上点击过的Item去召回topN相似的Item,从而补充线上推荐结果,在美食列表推荐页有显着提升。

--

菜品知识图谱的构建目标,一方面是构建对菜品的系统理解能力,另一方面是构建较为完备的菜品知识图谱,这里从不同的层次来说明菜品知识图谱的构建策略。

** * 菜名理解**

菜名中蕴含着最精准、获取成本最低的菜品信息,同时对菜名的理解也是后续显式知识推理泛化能力的前提。首先是抽取菜名的本质词/主体菜,然后序列标注去识别菜名中的每个成分。针对两种场景设计了不同的模型,对于有分词情况,将分词符号作为特殊符号添加到模型中,第一个模型是识别每个token对应的类型;对于无分词情况,需要先做Span-Trans的任务,然后再复用有分词情况的模块。

菜名理解是一个较为重要的信息来源,但是所蕴含的知识相对有限,从而提出了基于深度学习模型进行初步字符推断,可实现对不同字面表述的泛化处理。但是对需要专业知识的case表现欠佳,偶尔在字面极其匹配时出现case。

从知识内容丰富的文本中挖掘某些菜谱的基础知识,来构建源知识库;然后通过泛化推理去映射到具体SKU中。在食材推理中,比如菜品种有多道红烧肉,统计10道五花肉中有4道是指五花肉,6道是指带皮五花肉,因此肉就转化为带皮五花肉。对应地,佛跳墙有多道菜谱,先通过统计每种食材出现的概率,可以卡一个阈值,然后表明该菜谱的食谱是什么。

多源数据挖掘,基于菜名理解结果构建solid knowledge triple,同时也依赖菜名理解结果泛化规则。该策略主要适用于处理食材、功效、人群等标签。该方法准确率OK,有一定泛化能力,但覆盖率偏低。

业务内有一些比较好用的训练数据,例如1000万商户编辑自洽的店内分类树。基于该数据可产生5亿的 positive pairs 和 30G corpus。在模型训练中,会随机替换掉菜谱分类的 tab/shop,模型判断 tab/shop 是否被替换;50%的概率drop shop name,使得模型仅输入菜名时表现鲁棒。同时,对模型做了实体化改进,将分类标签作为bert的词进行训练,将该方法应用到下游模型中,在10w标注数据下,菜谱上下位/同义词模型准确率提升了1.8%。

首先使用ReseNet对菜谱图片进行编,使用Bert模型对菜谱文本信息做编码,通过对比学习loss去学习文本和店菜的匹配信息。这里采用双塔模型,一方面是下游应用较为方便,单塔模型可独立使用,也可inference出菜品图片的表示并缓存下来;另一方面是图片内容单纯,暂无交互式建模的必要。训练目标分别是图片与店菜匹配、图片与菜名对齐,图片与Tab对齐。

可基于多模态信息做菜品品类预测或者菜谱信息补全。比如,预测“猪肉白菜”加上了图片信息将更加直观和准确。基于文本和视图模态信息进行多视图半监督的菜谱属性抽取,以烹饪方式抽取为例,首先通过产生烹饪方法训练样本(红烧肉-红烧);然后采用CNN模型去训练预测菜谱烹饪方法,指导Bert模型Finetune文本模型或者多模态模型,基于商户/tab/菜品及评论信息预测菜品烹饪方法;最终对两个模型进行投票或者将两个特征拼接做预测。

综上,我们对菜品知识图谱构建进行相应的总结。菜品理解比较适合SKU的初始化;深度学习推理模型和显式推理模型比较适合做同义词、上下位、菜系等;最终是想通过多模态+结构化预训练和推理来解决单模态信息不完整、属性维度多、需要大量标注数据等问题,因此该方法被应用到几乎所有的场景中。

今天的分享就到这里,谢谢大家。

分享嘉宾:

Ⅱ 百度知识图谱和google知识图谱的区别

知识图谱(knowledge graph)是Google推出来的一项技术概念,是语义搜索的一个应用,背后涉及到NLP,语义数据分析,语义网技术等等。

目前来说,Google的知识图谱从三个方面来提高搜索质量,消除歧义、右侧知识卡片、知识发现。网络的“网络知心”也是知识图谱的一个应用。归根结底知识图谱的技术基础都是一样的,那就是语义数据和语义网,只是在前端应用上两个公司有所区别。。

Ⅲ 图数据库的应用场景

图数据库技术的应用场景比较多,包括但不限于以下几种场景:
1. 欺诈检测
无论面对诈骗集团、勾结团伙还是高知罪犯,图数据库技术可以实时揭露各种重要诈骗模式。所以越来越多的公司使用图数据技术来解决各种关联数据问题,包括欺诈检测。
2. 实时推荐引擎
图技术能够根据用户购买、交互和评论有效跟踪这些关系,以提供对客户需求和产品趋势最有意义的深刻见解。Ebay等购物网站就在使用图技术给用户推荐产品。
3.知识图谱
将图技术用于知识图谱能够精确搜索查询,消除搜索查询的歧义,并且能够适应不断增长的数据资产规模。

Ⅳ Web前端的就业方向

今天小编要跟大家分享的文章是关于Web前端的就业方向都有哪些?近几年前端领域不断地涌现出新的技术,旧的技术也不断地进行更新换代。随着技术的不断进步,前端开发涉及的领域,也变得越来越广,接下来一起来了解一下前端几个重要的领域吧。

一、PC


PC(PersonalComputer)
即个人电脑。目前电脑端仍是前端一个主要的领域,主要分为面向大众的各类网站,如新闻媒体、社交、电商、论坛等和面向管理员的各种CMS
(内容管理系统)和其它的后台管理系统。


其实早期并没有"前端工程师"的称号,那时候一般叫做"网页设计师"或"美工"。记得最早接触到的网页设计软件是微软开发的
"Frontpage",后面才接触到"网页三剑客"(Dreamweaver、Fireworks、Flash)中的Dreamweaver,直到现在的各种
IDE(集成开发环境),如SublimeText、WebStorm、VisualStudioCode、Atom等。


对于前端工程师来说,开发PC端项目,最痛苦的事情莫过于解决浏览器兼容性问题,特别是IE
浏览器不同版本的问题。值得高兴的是,针对现代浏览器不同特性的兼容问题,可以借助构建工具的插件来实现自动添加不同浏览器的特性前缀,比如PostCSS的
Autoprefixer插件。


接下来我们来看一下,PC端第一个网页长啥样:


二、WebApp


WebApp是指使用Web开发技术,实现的有较好用户体验的Web应用程序。它是运行在手机和桌面端浏览中,随着移动端网络速度的提升,Web
App为我们提供了很大的便利。此外近两年Google提出了一种新的WebApp形态,即PWA(渐进增强WebAPP)。


PWA意图让Web在保留其本质(开放平台、易于访问、可索引)的同时,在离线、交互、通知等方面达到类似App的用户体验。PWA
其具体技术包括Serviceworker、WebAppManifest、CacheAPI、FetchAPI、PushAPI、Web
PushProtocol、Notification等等。


WebApp的主要优点:


§开发成本低


§内容更新快


§升级无需通知用户,自动升级


§能够跨多个平台和终端


WebApp的主要缺点:


§用户体验短期内还无法超越原生应用


§离线工作的能力较弱


§消息推送不够及时


§无法获取系统级别的通知,提醒,动效等等


三、WeChat


WeChat(微信)
这个平台,拥有大量的用户群体,因此它也是我们前端开发另一个重要的领域。微信的公众号与订阅号为市场营销和自媒体从业者,打造了一个新的天地。我们以微信公众号为例,来分析一下微信公众号的主要作用:


§信息推送


§用户服务


§用户互动


此外除了公众号与订阅号外,微信又推出了微信小程序。微信小程序是一种全新的连接用户与服务的方式,它可以在微信内被便捷地获取和传播,同时具有出色的使用体验。


微信小程序的主要优势:


§不用安装,即开即用


§相比于App开发来说,小程序开发成本更低


§UI和操作流程比较统一,降低用户的使用难度


§基于微信平台,推广更容易、更简单


四、HybridApp


HybridApp(混合应用)是指介于WebApp、原生App(主要是Android或iOS)之间的App,它兼具原生App
良好用户交互体验的优势和WebApp跨平台开发的优势。


混合应用功能按网页语言与程序语言的混合,通常分为三种类型:多View混合型,单View混合型,Web主体型。最早的混合应用开发技术,是基于
Phonegap/Cordova技术。Cordova为开发者提供了一组设备相关的API,通过这组API,移动应用能够以JavaScript
访问原生的设备功能,如摄像头、麦克风等。


目前主流的混合应用开发框架有:ReactNative、OnsenUI、Ionic、Framework7、NativeScript和Weex
等。这里就不详细展开,对各个框架进行详细对比和分析,有兴趣的读者可以自行查阅一下相关资料。接下来我们来了解一下混合应用的优缺点。


混合应用的主要优点:


§开发成本低


§节省跨平台的时间和成本


§可以访问硬件设备的功能


§可以打包成App,发布到AppStore或各大安卓应用平台


混合应用的主要缺点:


§用户体验不如原生App


§应用性能也不如原生App


§技术还未成熟


五、Game


HTML5游戏从2014年Egret
引擎开发的神经猫引爆朋友圈之后,就开始一发不可收拾。不过现在游戏开发变得越来越复杂,需要制作各种炫丽炫丽的效果,还要制作各炫丽于2D或者3D
的场景。为了降低游戏的开发难度,加快游戏的开发进度,国内外不同厂商推出了众多游戏开发引擎。


HTML5主要的开源游戏引擎:


§phaser


§pixi.js


§Babylon.js


§whs.js


§egret


§cocos2d-html5


六、Desktop


桌面应用软件,就是我们日常生活中电脑中安装的各类软件。早期要开发桌面应用程序,就需要有专门的语言UI(界面)库支持,如C++中的Qt
库、MFC库,Java的Swing、Python的PyQT等,否则语言是没办法进行快速界面开发。


随着Web技术的不断发展,目前借助NW.js、Electron等开发框架,前端也可以开发桌面应用了。其中口碑不错的开源IDE-
VisualStudioCode就是使用Electron开发的。使用Web
技术,主要的优势是它的跨平台能力和开发效率。但也有它对应的缺点,就是运行效率不如使用专门语言开发的桌面应用。


七、Server


Node.js一发布,立刻在前端工程师中引起了轩然大波,前端工程师们几乎立刻对这一项技术表露出了相当大的热情和期待。看到Node.js
这个名字,初学者可能会误以为这是一个Javascript应用,事实上,Node.js采用C++语言编写而成,是一个Javascript
的运行环境。


Node.js让JavaScript能够运行在服务端,这个想法简直太棒了。这使得前端开发人员不用再去学服务端开发语言,如
PHP、Java、Ruby和C#等,也可以进入服务端的开发领域。当然学习的过程可能对于大多数纯前端开发人员来说,会比较痛苦和漫长。


Node.js主要的Web开发框架:


§Express


§Koa


§Egg


§Nodal


§Sails


§Loopback


当然前端涉及的领域,还不止这些。较新的领域还有,数据可视化、IOT
(物联网)、机器学习等。网上也有大神专门整理了前端开发人员的技能图谱,有兴趣的读者可以参考一下,但一定要做好心理准备,不要被吓到哦。里面介绍的是综合的技能,对于初学者的话,只要先学
HTML/HTML5、CSS/CSS3和JavaScript的基础知识,等入门后在参考技能图谱,好好规划一下学习或进阶线路哟。


写这篇文章的目的不是为了炫耀前端开发有多牛逼,只是想作为有意向入行前端或刚入门前端人员的参考资料。俗话说得好,术业有专攻,希望新时代的前端开发者,能先专攻某个领域,然后再扩展其它领域,即先有深度再有广度。


以上就是小编今天为大家分享的关于Web前端的就业方向都有哪些的文章,希望本篇文章能够对正在从事Web前端学习和工作的小伙伴们有所帮助,想要了解更多Web前端工作的小伙伴们有所帮助。想要了解更多Web前端工作记得关注北大青鸟Web培训官网。最后祝愿小伙伴们工作顺利!

如有疑问,速寻达妹微信:zdzc3087880280;达妹QQ:3535503962。

Ⅳ 常用的前端框架有哪些

1. Twitter BootStrap (Apache v2.0;响应式)
时髦、直观并且强大的前端框架,让Web开发变得更加容易。

2. Foundation (MIT;响应式)
最先进的响应式前端框架。
3. 960gs(GPL&MIT;响应式)
960gs提供了一个简单的网格系统,适合快速开发。
4. Skeleton(MIT;响应式)
非常漂亮的Web模板,适合响应式、移动友好的开发。
5. 99lime HTML KickStart(Free)
适合网站快速开发的极简HTML构建模块。
6. Kube(Free;响应式)
面向专业人员的CSS框架。
7. Less Framework(MIT;响应式)
自适应的CSS网格系统。
8. Flameinwork(Free)
适合懒人开发者的前端微框架。
9. G5 Framework(Free)
(x)HTML5、CSS、PHP前端开发框架。
10. Easy Framework(Free)
Easy Framework是一个一体化前端解决方案,分structural、 presentational、interactive三层。
11. Blueprint(Free)
一个旨在减少开发时间的前端框架。
12. YAML(Creative Commons)
(x)HTML+CSS框架,适合开发现代化浮动布局。
13. BlueTrip(Free)
一个功能全面、并且美丽的CSS框架,适合于Blueprint搭配使用。
14. YUI3:Grids CSS(BSD)
YUI Grids CSS是最着名的CSS框架之一,是由Yahoo开发小组开发而成。 YUI Grids CSS为开发者提供了预先设置的四种不同页面宽度,六种不同的模板。
15. 52framework(Creative Commons)
对HTML5支持非常好,简单易用。
16. elastiCSS(MIT)
一个基于Web接口和印刷布局的简单CSS框架。
17. Emastic(Free)
一个与众不同的CSS框架。
18. Fluid 960 Gride System(GPL/MIT)

Fluid 960 Grid System的模版是根据Nathan Smith之前的作品而创建的。即960 Grid System:传承了MooTools和jQuery JavaScript libraries的效果。
19. xCSS(MIT)
一个面向对象的CSS框架,能让你的工作流更加简洁。xCSS基于CSS,可以在开发复杂样式时,提供面向对象的工作流。
20. EM CSS Framework(MIT/GPL)
EM CSS Framework提供了一个960px宽 + 12 列网格系统 + CSS的通用样式。

Ⅵ 一名前端工程师的知识图谱是什么该如何入门并且提高

【1】能用html+css把页面做出来,能用js实现动态效果。

【2】在1的基础上保证浏览器兼容性。

【3】在2的基础上开始出现代码洁癖,代码会逐渐趋向于简洁高效

【4】在3的基础上开始关注语义性、可用性和可重用性

【5】在4的基础上开始关注页面性能

【6】在5的基础上开始费劲脑汁的去寻思怎么能把开发效率也提升上来

Ⅶ 知识图谱是什么有哪些应用价值

知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?

目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语

1. 什么是知识图谱?

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识推理

推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。

在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

6. 结语

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

Ⅷ 学习Web前端后可以选择哪些发展方向

今天小编要跟大家分享的文章是关于学习Web前端后可以选择哪些发展方向?近几年前端领域不断地涌现出新的技术,旧的技术也不断地进行更新换代。随着技术的不断进步,前端开发涉及的领域,也变得越来越广,接下来跟小编一起来了解一下前端几个重要的领域吧。希望能够对小伙伴们有所帮助。

一、PC


PC(PersonalComputer)
即个人电脑。目前电脑端仍是前端一个主要的领域,主要分为面向大众的各类网站,如新闻媒体、社交、电商、论坛等和面向管理员的各种CMS
(内容管理系统)和其它的后台管理系统。


其实早期并没有"前端工程师"的称号,那时候一般叫做"网页设计师"或"美工"。记得最早接触到的网页设计软件是微软开发的
"Frontpage",后面才接触到"网页三剑客"(Dreamweaver、Fireworks、Flash)中的Dreamweaver,直到现在的各种
IDE(集成开发环境),如SublimeText、WebStorm、VisualStudioCode、Atom等。


对于前端工程师来说,开发PC端项目,最痛苦的事情莫过于解决浏览器兼容性问题,特别是IE
浏览器不同版本的问题。值得高兴的是,针对现代浏览器不同特性的兼容问题,可以借助构建工具的插件来实现自动添加不同浏览器的特性前缀,比如PostCSS的
Autoprefixer插件。


二、WebApp


WebApp是指使用Web开发技术,实现的有较好用户体验的Web应用程序。它是运行在手机和桌面端浏览中,随着移动端网络速度的提升,Web
App为我们提供了很大的便利。此外近两年Google提出了一种新的WebApp形态,即PWA(渐进增强WebAPP)。


PWA意图让Web在保留其本质(开放平台、易于访问、可索引)的同时,在离线、交互、通知等方面达到类似App的用户体验。PWA
其具体技术包括Serviceworker、WebAppManifest、CacheAPI、FetchAPI、PushAPI、Web
PushProtocol、Notification等等。


WebApp的主要优点:


§开发成本低


§内容更新快


§升级无需通知用户,自动升级


§能够跨多个平台和终端


WebApp的主要缺点:


§用户体验短期内还无法超越原生应用


§离线工作的能力较弱


§消息推送不够及时


§无法获取系统级别的通知,提醒,动效等等


三、WeChat


WeChat(微信)
这个平台,拥有大量的用户群体,因此它也是我们前端开发另一个重要的领域。微信的公众号与订阅号为市场营销和自媒体从业者,打造了一个新的天地。我们以微信公众号为例,来分析一下微信公众号的主要作用:


§信息推送


§用户服务


§用户互动


此外除了公众号与订阅号外,微信又推出了微信小程序。微信小程序是一种全新的连接用户与服务的方式,它可以在微信内被便捷地获取和传播,同时具有出色的使用体验。


微信小程序的主要优势:


§不用安装,即开即用


§相比于App开发来说,小程序开发成本更低


§UI和操作流程比较统一,降低用户的使用难度


§基于微信平台,推广更容易、更简单


四、HybridApp


HybridApp(混合应用)是指介于WebApp、原生App(主要是Android或iOS)之间的App,它兼具原生App
良好用户交互体验的优势和WebApp跨平台开发的优势。


混合应用功能按网页语言与程序语言的混合,通常分为三种类型:多View混合型,单View混合型,Web主体型。最早的混合应用开发技术,是基于
Phonegap/Cordova技术。Cordova为开发者提供了一组设备相关的API,通过这组API,移动应用能够以JavaScript
访问原生的设备功能,如摄像头、麦克风等。


目前主流的混合应用开发框架有:ReactNative、OnsenUI、Ionic、Framework7、NativeScript和Weex
等。这里就不详细展开,对各个框架进行详细对比和分析,有兴趣的读者可以自行查阅一下相关资料。接下来我们来了解一下混合应用的优缺点。


混合应用的主要优点:


§开发成本低


§节省跨平台的时间和成本


§可以访问硬件设备的功能


§可以打包成App,发布到AppStore或各大安卓应用平台


混合应用的主要缺点:


§用户体验不如原生App


§应用性能也不如原生App


§技术还未成熟


五、Game


HTML5游戏从2014年Egret
引擎开发的神经猫引爆朋友圈之后,就开始一发不可收拾。不过现在游戏开发变得越来越复杂,需要制作各种炫丽炫丽的效果,还要制作各炫丽于2D或者3D
的场景。为了降低游戏的开发难度,加快游戏的开发进度,国内外不同厂商推出了众多游戏开发引擎。


HTML5主要的开源游戏引擎:


§phaser


§pixi.js


§Babylon.js


§whs.js


§egret


§cocos2d-html5


六、Desktop


桌面应用软件,就是我们日常生活中电脑中安装的各类软件。早期要开发桌面应用程序,就需要有专门的语言UI(界面)库支持,如C++中的Qt
库、MFC库,Java的Swing、Python的PyQT等,否则语言是没办法进行快速界面开发。


随着Web技术的不断发展,目前借助NW.js、Electron等开发框架,前端也可以开发桌面应用了。其中口碑不错的开源IDE-
VisualStudioCode就是使用Electron开发的。使用Web
技术,主要的优势是它的跨平台能力和开发效率。但也有它对应的缺点,就是运行效率不如使用专门语言开发的桌面应用。


七、Server


Node.js一发布,立刻在前端工程师中引起了轩然大波,前端工程师们几乎立刻对这一项技术表露出了相当大的热情和期待。看到Node.js
这个名字,初学者可能会误以为这是一个Javascript应用,事实上,Node.js采用C++语言编写而成,是一个Javascript
的运行环境。


Node.js让JavaScript能够运行在服务端,这个想法简直太棒了。这使得前端开发人员不用再去学服务端开发语言,如
PHP、Java、Ruby和C#等,也可以进入服务端的开发领域。当然学习的过程可能对于大多数纯前端开发人员来说,会比较痛苦和漫长。


Node.js主要的Web开发框架:


§Express


§Koa


§Egg


§Nodal


§Sails


§Loopback


当然前端涉及的领域,还不止这些。较新的领域还有,数据可视化、IOT
(物联网)、机器学习等。网上也有大神专门整理了前端开发人员的技能图谱,有兴趣的读者可以参考一下,但一定要做好心理准备,不要被吓到哦。里面介绍的是综合的技能,对于初学者的话,只要先学
HTML/HTML5、CSS/CSS3和JavaScript的基础知识,等入门后在参考技能图谱,好好规划一下学习或进阶线路哟。


最后,这篇文章的目的不是为了炫耀前端开发有多牛逼,只是想作为有意向入行前端或刚入门前端人员的参考资料。俗话说得好,术业有专攻,希望新时代的前端开发者,能先专攻某个领域,然后再扩展其它领域,即先有深度再有广度。


以上就是小编今天为大家分享的关于学习Web前端后可以选择哪些发展方向的文章,希望本篇文章能够对正在从事Web前端工作的小伙伴们有所帮助。想要了解更多Web相关知识记得关注北大青鸟Web培训官网。最后祝愿小伙伴们工作顺利!


Ⅸ 初学者如何在前端的道路上成长,成为一个前端工程师的知识图谱是什么拜托各位了 3Q

xhtml css js,一个都不能生疏,而且要看就看新书,这样符合w3c 标准。要是自己练,ie8一下的就不用管兼容性了,毕竟占有率很少很少。
学的差不多了再html5,css3
如果走高端路线,就css3多用,像楼上说的,切图什么的,一边玩蛋去把。前端看的是用户体验,不是漂亮的风景画和浮夸的按钮

------------
csdn.net 等一些站有很多不错的博主写的文章,多看看

Ⅹ 知识图谱有什么用处

“知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。

如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。

“目前,还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉”的沃森,它们并不真正明白自己在做什么、为什么这么做。

让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。

为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开拓性工作。

技术原理:把文本转化成知识

“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”,人会想到他是前美职篮球员、“小巨人”、中锋等,而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说,仅仅说“姚明是上海人”,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。

那如何将文本转化成知识呢?

“借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效力关系,还可以和2.26米构成身高关系。

“如果这些关系足够完善,机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢?

“上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识,这些都可被看作是知识图谱的前身。”孙乐说。

随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。

“这里包括主观知识,比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。”孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。

构建方式:从手工劳动到自动抽取

“2010年之后,维基网络开始尝试‘众包’的方式,每个人都能够贡献知识。”孙乐说,这让知识图谱的积累速度大大增加,后续网络、互动网络等也采取了类似的知识搜集方式,发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加,无数的知识从四面八方赶来,迅速集聚,只待“成塔”。

面对如此大量的数据,或者说“文本”,知识图谱的构建工作自然不能再手工劳动,“让机器自动抽取结构化的知识,自动生成‘三元组’。”孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可识别的知识。

孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为“知识”,但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“网络知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象,并进行统一的数据清洗、对齐、融合、关联等知识计算,完成图谱的构建。“但是大家发现,基于维基网络,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说,例如谷歌的Knowledge Vault,以及美国国家标准与技术研究院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。

在权威的“知识库自动构建国际评测”中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗联合团队获得综合性能指标第3名,事件抽取单项指标第1名的好成绩。

“我国在这一领域可以和国际水平比肩。”孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降低了文本知识抽取工具构建模型的成本,并提升了性能。

终极目标:将人类知识全部结构化

《圣经·旧约》记载,人类联合起来兴建希望能通往天堂的高塔——“巴别塔”,而今,创造AI的人类正在建造这样一座“巴别塔”,帮助人工智能企及人类智能。

自动的做法让知识量开始形成规模,达到了能够支持实际应用的量级。“但是这种转化,还远远未达到人类的知识水平。”孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应该与时俱进地体现在机器“脑”中。

“因此知识图谱不会是一个静止的状态,而是要形成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。”孙乐说。

资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;网络记录词条数1000万个,网络搜索中应用了联想搜索功能。

“在医学领域、人物关系等特定领域,也有专门的知识图谱。”孙乐介绍,Kinships描述人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描述了医学概念之间的联系,135个实体,49种关系,6800个事实。

“这是一幅充满美好前景的宏伟蓝图。”孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。

尽管令业内满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”还只是在基础层面,但相关的应用已经显示出广阔的前景。例如,在网络输入“冷冻电镜”,右竖条的关联将出现“施一公”,输入“撒币”,将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。