當前位置:首頁 » 網頁前端 » 圖譜應用的前端
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

圖譜應用的前端

發布時間: 2022-09-08 06:38:27

Ⅰ 美團大腦百億級知識圖譜的構建及應用進展

分享嘉賓:張鴻志博士 美團 演算法專家

編輯整理:廖媛媛 美的集團

出品平台:DataFunTalk

導讀: 美團作為中國最大的在線本地生活服務平台,連接著數億用戶和數千萬商戶,其背後蘊含著豐富的與日常生活相關的知識。美團知識圖譜團隊從2018年開始著力於圖譜構建和利用知識圖譜賦能業務,改善用戶體驗。具體來說,「美團大腦」是通過對美團業務中千萬數量級的商家、十億級別的商品和菜品、數十億的用戶評論和百萬級別的場景進行深入的理解來構建用戶、商戶、商品和場景之間的知識關聯,進而形成的生活服務領域的知識大腦。目前,「美團大腦」已經覆蓋了數十億實體、數百億的三元組,在餐飲、外賣、酒店、到綜等領域驗證了知識圖譜的有效性。今天我們介紹美團大腦中生活服務知識圖譜的構建及應用,主要圍繞以下3個方面展開:

--

「美團大腦」是什麼?

以下是「美團大腦」構建的整體RoadMap,最先是2018年開始餐飲知識圖譜構建,對美團豐富的結構化數據和用戶行為數據進行初步挖掘,並在一些重要的數據維度上進行深入挖掘,比如說對到餐的用戶評論進行情感分析。2019年,以標簽圖譜為代表,重點對非結構化的用戶評論進行深入挖掘。2020年以後,開始結合各領域特點,逐個領域展開深度數據挖掘和建設,包括商品、美食、酒旅和到綜和cross圖譜等。

--

在搜索中,通常用戶需要將其意圖抽象為搜索引擎能夠支持的一系列精搜關鍵詞。標簽知識圖譜則是通過「標簽」來承載用戶需求,從而提升用戶搜索體驗。例如,通過標簽知識圖譜,用戶可直接搜索「帶孩子」或者「情侶約會」,就可返回合適的商戶/內容供給。從信息增益角度來說,用戶評論這種非結構化文本蘊含了大量的知識(比如某個商戶適合的場景、人群、環境等),通過對非結構化數據的挖掘實現信息增益。該團隊以生活服務領域的海量評論數據作為主要知識來源,通過標簽挖掘、標簽間關系挖掘以及標簽-商戶關聯等關鍵技術,自下而上梳理用戶需求,場景及主要關注點完成圖譜構建。

標簽知識圖譜構建分為以下四個部分:知識抽取、關系挖掘、圖譜打標和圖譜應用。

① 知識抽取

標簽挖掘採用簡單的序列標注架構,包括Single span標簽挖掘和跳字標簽挖掘,此外還會結合語義判別或者上下文判別,採用遠監督學習+結果投票方式獲取更精準的標簽。

② 關系挖掘

同義詞挖掘:同義詞挖掘被定義為給定包含N個詞的池子,M個業務標簽詞,查找M中每個詞在N中的同義詞。現有的同義詞挖掘方法包括搜索日誌挖掘、網路數據抽取、基於規則的相似度計算等,缺乏一定的通用性。當前我們的目標是尋找通用性強,可廣泛應用到大規模數據集的標簽同義詞挖掘方法。

以下是作者給出的同義詞挖掘的具體方案,首先將離線標簽池或者線上查詢標簽進行向量表示獲取向量索引,再進行向量哈希召回,進一步生成該標簽的TopN的同義詞對候選,最後使用同義詞判別模型。該方案的優勢在於降低了計算復雜度,提升了運算效率;對比倒排索引候選生成,可召回字面無overlap的同義詞,准確率高,參數控制簡單。

對於有標注數據,主流的標簽詞嵌入表示方法有word2vec、BERT等。word2vec方法實現較為簡單,詞向量取均值,忽略了詞的順序;BERT通過預訓練過程中能捕捉到更為豐富的語義表示,但是直接取[CLS]標志位向量,其效果與word2vec相當。Sentence-Bert對於Bert模型做了相應的改進,通過雙塔的預訓練模型分別獲取標簽tagA和tagB表徵向量,然後通過餘弦相似性度量這兩個向量的相似性,由此獲取兩個標簽的語義相似性。

對於無標注數據來說,可以通過對比學習的方法獲取句子的表示。如圖所示,Bert原始模型對於不同相似度的句子的向量相似度都很高,經過對比學習的調整之後,向量的相似度能夠較好地體現出文本相似度。

對比學習模型設計:首先給定一個sentence,對這個樣本做擾動產生樣本pair,常規來說,在embedding層加上Adversarial Attack、在詞彙級別做Shuffling或者丟掉一些詞等構成pair;在訓練的過程中,最大化batch內同一樣本的相似度,最小化batch內其他樣本的相似度。最終結果顯示,無監督學習在一定程度上能達到監督學習的效果,同時無監督學習+監督學習相對於監督學習效果有顯著提升。

同義詞判別模型設計:將兩個標簽詞拼接到Bert模型中,通過多層語義交互獲取標簽。

標簽上下位挖掘:詞彙包含關系是最重要的上下位關系挖掘來源,此外也可通過結合語義或統計的挖掘方法。但當前的難點是上下位的標准較難統一,通常需要結合領域需求,對演算法挖掘結果進行修正。

③ 圖譜打標:如何構建標簽和商戶供給的關聯關系?

給定一個標簽集合,通過標簽及其同義詞在商戶UGC/團單里出現的頻率,卡一個閾值從而獲取候選tag-POI。這樣會出現一個問題是,即使是頻率很高但不一定有關聯,因此需要通過一個商戶打標判別模塊去過濾bad case。

商戶打標考慮標簽與商戶、用戶評論、商戶Taxonomy等三個層次的信息。具體來講,標簽-商戶粒度,將標簽與商戶信息(商戶名、商戶三級類目、商戶top標簽)做拼接輸入到Bert模型中做判別。

微觀的用戶評論粒度,判斷每一個標簽與提到該標簽的評論(稱為evidence)之間是正面、負面、不相關還是不確定的關系,因此可當作四分類的判別模型。我們有兩種方案可選擇,第一種是基於多任務學習的方法, 該方法的缺點在於新增標簽成本較高,比如新增一個標簽,必須為該標簽新增一些訓練數據。筆者最終採用的是基於語義交互的判別模型,將標簽作為參數輸入,使該模型能夠基於語義判別,從而支持動態新增標簽。

基於語義交互的判別模型,首先做向量表示,然後是交互,最終聚合比較結果,該方法的計算速度較快,而基於BERT的方法,計算量大但准確率較高。我們在准確率和速度上取balance,例如當POI有30多條的evidence,傾向於使用輕量級的方式;如果POI只有幾條evidence,可以採用准確率較高的方式進行判別。

從宏觀角度,主要看標簽和類目是否匹配,主要有三種關系:一定不會,可能會,一定會。一般通過商戶層關聯結果進行投票結果,同時會增加一些規則,對於准確率要求較高時,可進行人工review。

④ 圖譜應用:所挖掘數據的直接應用或者知識向量表示應用

在商戶知識問答相關的場景,我們基於商戶打標結果以及標簽對應的evidence回答用戶問題。

首先識別用戶query中的標簽並映射為id,然後通過搜索召回或者排序層透傳給索引層,從而召回出有打標結果的商戶,並展示給C端用戶。A/B實驗表明,用戶的長尾需求搜索體驗得到顯著提升。此外,也在酒店搜索領域做了一些上線實驗,通過同義詞映射等補充召回手段,搜索結果有明顯改善。

主要採用GNN模型實現,在構圖中構建了兩種邊,Query-POI點擊行為和Tag-POI關聯信息;採用Graph Sage進行圖學習,學習的目標是判斷Tag和POI是否有關聯關系或者Query和POI是否點擊關系,進一步依據關聯強度進行采樣。上線後結果顯示,在僅利用Query-POI信息構圖時,線上無收益,在引入Tag-POI關聯信息後線上效果得到顯著提升。這可能是因為排序模型依賴於Query-POI點擊行為信息去學習,引入Graph Sage學習相當於換了一種學習的方式,信息增益相對較少;引入Tag-POI信息相當於引入了新的知識信息,所以會帶來顯著提升。

此外,僅接入Query-POI向量相似度線上效果提升不佳,將Query和POI向量接入後效果得到顯著提升。這可能是因為搜索的特徵維度較高,容易忽略掉向量相似度特徵,因此將Query和POI向量拼接進去後提升了特徵維度。

該任務通過當前已知的Item去預測用戶點擊的Masked Item。比如說獲取Item的上下文表徵的時候,將相關的Attribute信息也進行向量表徵,從而去判斷Item是否有Attribute信息。

此外,還可以做Masked Item Attribute 預測,從而將標簽的知識圖譜信息融入到序列推薦任務中去。實驗結果表明,引入知識信息後的准確率在不同的數據集上均有數量級的提升。同時,我們也做了線上轉化的工作,將Item表徵做向量召回;具體來說,基於用戶歷史上點擊過的Item去召回topN相似的Item,從而補充線上推薦結果,在美食列表推薦頁有顯著提升。

--

菜品知識圖譜的構建目標,一方面是構建對菜品的系統理解能力,另一方面是構建較為完備的菜品知識圖譜,這里從不同的層次來說明菜品知識圖譜的構建策略。

** * 菜名理解**

菜名中蘊含著最精準、獲取成本最低的菜品信息,同時對菜名的理解也是後續顯式知識推理泛化能力的前提。首先是抽取菜名的本質詞/主體菜,然後序列標注去識別菜名中的每個成分。針對兩種場景設計了不同的模型,對於有分詞情況,將分詞符號作為特殊符號添加到模型中,第一個模型是識別每個token對應的類型;對於無分詞情況,需要先做Span-Trans的任務,然後再復用有分詞情況的模塊。

菜名理解是一個較為重要的信息來源,但是所蘊含的知識相對有限,從而提出了基於深度學習模型進行初步字元推斷,可實現對不同字面表述的泛化處理。但是對需要專業知識的case表現欠佳,偶爾在字面極其匹配時出現case。

從知識內容豐富的文本中挖掘某些菜譜的基礎知識,來構建源知識庫;然後通過泛化推理去映射到具體SKU中。在食材推理中,比如菜品種有多道紅燒肉,統計10道五花肉中有4道是指五花肉,6道是指帶皮五花肉,因此肉就轉化為帶皮五花肉。對應地,佛跳牆有多道菜譜,先通過統計每種食材出現的概率,可以卡一個閾值,然後表明該菜譜的食譜是什麼。

多源數據挖掘,基於菜名理解結果構建solid knowledge triple,同時也依賴菜名理解結果泛化規則。該策略主要適用於處理食材、功效、人群等標簽。該方法准確率OK,有一定泛化能力,但覆蓋率偏低。

業務內有一些比較好用的訓練數據,例如1000萬商戶編輯自洽的店內分類樹。基於該數據可產生5億的 positive pairs 和 30G corpus。在模型訓練中,會隨機替換掉菜譜分類的 tab/shop,模型判斷 tab/shop 是否被替換;50%的概率drop shop name,使得模型僅輸入菜名時表現魯棒。同時,對模型做了實體化改進,將分類標簽作為bert的詞進行訓練,將該方法應用到下游模型中,在10w標注數據下,菜譜上下位/同義詞模型准確率提升了1.8%。

首先使用ReseNet對菜譜圖片進行編,使用Bert模型對菜譜文本信息做編碼,通過對比學習loss去學習文本和店菜的匹配信息。這里採用雙塔模型,一方面是下游應用較為方便,單塔模型可獨立使用,也可inference出菜品圖片的表示並緩存下來;另一方面是圖片內容單純,暫無互動式建模的必要。訓練目標分別是圖片與店菜匹配、圖片與菜名對齊,圖片與Tab對齊。

可基於多模態信息做菜品品類預測或者菜譜信息補全。比如,預測「豬肉白菜」加上了圖片信息將更加直觀和准確。基於文本和視圖模態信息進行多視圖半監督的菜譜屬性抽取,以烹飪方式抽取為例,首先通過產生烹飪方法訓練樣本(紅燒肉-紅燒);然後採用CNN模型去訓練預測菜譜烹飪方法,指導Bert模型Finetune文本模型或者多模態模型,基於商戶/tab/菜品及評論信息預測菜品烹飪方法;最終對兩個模型進行投票或者將兩個特徵拼接做預測。

綜上,我們對菜品知識圖譜構建進行相應的總結。菜品理解比較適合SKU的初始化;深度學習推理模型和顯式推理模型比較適合做同義詞、上下位、菜系等;最終是想通過多模態+結構化預訓練和推理來解決單模態信息不完整、屬性維度多、需要大量標注數據等問題,因此該方法被應用到幾乎所有的場景中。

今天的分享就到這里,謝謝大家。

分享嘉賓:

Ⅱ 百度知識圖譜和google知識圖譜的區別

知識圖譜(knowledge graph)是Google推出來的一項技術概念,是語義搜索的一個應用,背後涉及到NLP,語義數據分析,語義網技術等等。

目前來說,Google的知識圖譜從三個方面來提高搜索質量,消除歧義、右側知識卡片、知識發現。網路的「網路知心」也是知識圖譜的一個應用。歸根結底知識圖譜的技術基礎都是一樣的,那就是語義數據和語義網,只是在前端應用上兩個公司有所區別。。

Ⅲ 圖資料庫的應用場景

圖資料庫技術的應用場景比較多,包括但不限於以下幾種場景:
1. 欺詐檢測
無論面對詐騙集團、勾結團伙還是高知罪犯,圖資料庫技術可以實時揭露各種重要詐騙模式。所以越來越多的公司使用圖數據技術來解決各種關聯數據問題,包括欺詐檢測。
2. 實時推薦引擎
圖技術能夠根據用戶購買、交互和評論有效跟蹤這些關系,以提供對客戶需求和產品趨勢最有意義的深刻見解。Ebay等購物網站就在使用圖技術給用戶推薦產品。
3.知識圖譜
將圖技術用於知識圖譜能夠精確搜索查詢,消除搜索查詢的歧義,並且能夠適應不斷增長的數據資產規模。

Ⅳ Web前端的就業方向

今天小編要跟大家分享的文章是關於Web前端的就業方向都有哪些?近幾年前端領域不斷地涌現出新的技術,舊的技術也不斷地進行更新換代。隨著技術的不斷進步,前端開發涉及的領域,也變得越來越廣,接下來一起來了解一下前端幾個重要的領域吧。

一、PC


PC(PersonalComputer)
即個人電腦。目前電腦端仍是前端一個主要的領域,主要分為面向大眾的各類網站,如新聞媒體、社交、電商、論壇等和面向管理員的各種CMS
(內容管理系統)和其它的後台管理系統。


其實早期並沒有"前端工程師"的稱號,那時候一般叫做"網頁設計師"或"美工"。記得最早接觸到的網頁設計軟體是微軟開發的
"Frontpage",後面才接觸到"網頁三劍客"(Dreamweaver、Fireworks、Flash)中的Dreamweaver,直到現在的各種
IDE(集成開發環境),如SublimeText、WebStorm、VisualStudioCode、Atom等。


對於前端工程師來說,開發PC端項目,最痛苦的事情莫過於解決瀏覽器兼容性問題,特別是IE
瀏覽器不同版本的問題。值得高興的是,針對現代瀏覽器不同特性的兼容問題,可以藉助構建工具的插件來實現自動添加不同瀏覽器的特性前綴,比如PostCSS的
Autoprefixer插件。


接下來我們來看一下,PC端第一個網頁長啥樣:


二、WebApp


WebApp是指使用Web開發技術,實現的有較好用戶體驗的Web應用程序。它是運行在手機和桌面端瀏覽中,隨著移動端網路速度的提升,Web
App為我們提供了很大的便利。此外近兩年Google提出了一種新的WebApp形態,即PWA(漸進增強WebAPP)。


PWA意圖讓Web在保留其本質(開放平台、易於訪問、可索引)的同時,在離線、交互、通知等方面達到類似App的用戶體驗。PWA
其具體技術包括Serviceworker、WebAppManifest、CacheAPI、FetchAPI、PushAPI、Web
PushProtocol、Notification等等。


WebApp的主要優點:


§開發成本低


§內容更新快


§升級無需通知用戶,自動升級


§能夠跨多個平台和終端


WebApp的主要缺點:


§用戶體驗短期內還無法超越原生應用


§離線工作的能力較弱


§消息推送不夠及時


§無法獲取系統級別的通知,提醒,動效等等


三、WeChat


WeChat(微信)
這個平台,擁有大量的用戶群體,因此它也是我們前端開發另一個重要的領域。微信的公眾號與訂閱號為市場營銷和自媒體從業者,打造了一個新的天地。我們以微信公眾號為例,來分析一下微信公眾號的主要作用:


§信息推送


§用戶服務


§用戶互動


此外除了公眾號與訂閱號外,微信又推出了微信小程序。微信小程序是一種全新的連接用戶與服務的方式,它可以在微信內被便捷地獲取和傳播,同時具有出色的使用體驗。


微信小程序的主要優勢:


§不用安裝,即開即用


§相比於App開發來說,小程序開發成本更低


§UI和操作流程比較統一,降低用戶的使用難度


§基於微信平台,推廣更容易、更簡單


四、HybridApp


HybridApp(混合應用)是指介於WebApp、原生App(主要是Android或iOS)之間的App,它兼具原生App
良好用戶交互體驗的優勢和WebApp跨平台開發的優勢。


混合應用功能按網頁語言與程序語言的混合,通常分為三種類型:多View混合型,單View混合型,Web主體型。最早的混合應用開發技術,是基於
Phonegap/Cordova技術。Cordova為開發者提供了一組設備相關的API,通過這組API,移動應用能夠以JavaScript
訪問原生的設備功能,如攝像頭、麥克風等。


目前主流的混合應用開發框架有:ReactNative、OnsenUI、Ionic、Framework7、NativeScript和Weex
等。這里就不詳細展開,對各個框架進行詳細對比和分析,有興趣的讀者可以自行查閱一下相關資料。接下來我們來了解一下混合應用的優缺點。


混合應用的主要優點:


§開發成本低


§節省跨平台的時間和成本


§可以訪問硬體設備的功能


§可以打包成App,發布到AppStore或各大安卓應用平台


混合應用的主要缺點:


§用戶體驗不如原生App


§應用性能也不如原生App


§技術還未成熟


五、Game


HTML5游戲從2014年Egret
引擎開發的神經貓引爆朋友圈之後,就開始一發不可收拾。不過現在游戲開發變得越來越復雜,需要製作各種炫麗炫麗的效果,還要製作各炫麗於2D或者3D
的場景。為了降低游戲的開發難度,加快游戲的開發進度,國內外不同廠商推出了眾多游戲開發引擎。


HTML5主要的開源游戲引擎:


§phaser


§pixi.js


§Babylon.js


§whs.js


§egret


§cocos2d-html5


六、Desktop


桌面應用軟體,就是我們日常生活中電腦中安裝的各類軟體。早期要開發桌面應用程序,就需要有專門的語言UI(界面)庫支持,如C++中的Qt
庫、MFC庫,Java的Swing、Python的PyQT等,否則語言是沒辦法進行快速界面開發。


隨著Web技術的不斷發展,目前藉助NW.js、Electron等開發框架,前端也可以開發桌面應用了。其中口碑不錯的開源IDE-
VisualStudioCode就是使用Electron開發的。使用Web
技術,主要的優勢是它的跨平台能力和開發效率。但也有它對應的缺點,就是運行效率不如使用專門語言開發的桌面應用。


七、Server


Node.js一發布,立刻在前端工程師中引起了軒然大波,前端工程師們幾乎立刻對這一項技術表露出了相當大的熱情和期待。看到Node.js
這個名字,初學者可能會誤以為這是一個Javascript應用,事實上,Node.js採用C++語言編寫而成,是一個Javascript
的運行環境。


Node.js讓JavaScript能夠運行在服務端,這個想法簡直太棒了。這使得前端開發人員不用再去學服務端開發語言,如
PHP、Java、Ruby和C#等,也可以進入服務端的開發領域。當然學習的過程可能對於大多數純前端開發人員來說,會比較痛苦和漫長。


Node.js主要的Web開發框架:


§Express


§Koa


§Egg


§Nodal


§Sails


§Loopback


當然前端涉及的領域,還不止這些。較新的領域還有,數據可視化、IOT
(物聯網)、機器學習等。網上也有大神專門整理了前端開發人員的技能圖譜,有興趣的讀者可以參考一下,但一定要做好心理准備,不要被嚇到哦。裡面介紹的是綜合的技能,對於初學者的話,只要先學
HTML/HTML5、CSS/CSS3和JavaScript的基礎知識,等入門後在參考技能圖譜,好好規劃一下學習或進階線路喲。


寫這篇文章的目的不是為了炫耀前端開發有多牛逼,只是想作為有意向入行前端或剛入門前端人員的參考資料。俗話說得好,術業有專攻,希望新時代的前端開發者,能先專攻某個領域,然後再擴展其它領域,即先有深度再有廣度。


以上就是小編今天為大家分享的關於Web前端的就業方向都有哪些的文章,希望本篇文章能夠對正在從事Web前端學習和工作的小夥伴們有所幫助,想要了解更多Web前端工作的小夥伴們有所幫助。想要了解更多Web前端工作記得關注北大青鳥Web培訓官網。最後祝願小夥伴們工作順利!

如有疑問,速尋達妹微信:zdzc3087880280;達妹QQ:3535503962。

Ⅳ 常用的前端框架有哪些

1. Twitter BootStrap (Apache v2.0;響應式)
時髦、直觀並且強大的前端框架,讓Web開發變得更加容易。

2. Foundation (MIT;響應式)
最先進的響應式前端框架。
3. 960gs(GPL&MIT;響應式)
960gs提供了一個簡單的網格系統,適合快速開發。
4. Skeleton(MIT;響應式)
非常漂亮的Web模板,適合響應式、移動友好的開發。
5. 99lime HTML KickStart(Free)
適合網站快速開發的極簡HTML構建模塊。
6. Kube(Free;響應式)
面向專業人員的CSS框架。
7. Less Framework(MIT;響應式)
自適應的CSS網格系統。
8. Flameinwork(Free)
適合懶人開發者的前端微框架。
9. G5 Framework(Free)
(x)HTML5、CSS、PHP前端開發框架。
10. Easy Framework(Free)
Easy Framework是一個一體化前端解決方案,分structural、 presentational、interactive三層。
11. Blueprint(Free)
一個旨在減少開發時間的前端框架。
12. YAML(Creative Commons)
(x)HTML+CSS框架,適合開發現代化浮動布局。
13. BlueTrip(Free)
一個功能全面、並且美麗的CSS框架,適合於Blueprint搭配使用。
14. YUI3:Grids CSS(BSD)
YUI Grids CSS是最著名的CSS框架之一,是由Yahoo開發小組開發而成。 YUI Grids CSS為開發者提供了預先設置的四種不同頁面寬度,六種不同的模板。
15. 52framework(Creative Commons)
對HTML5支持非常好,簡單易用。
16. elastiCSS(MIT)
一個基於Web介面和印刷布局的簡單CSS框架。
17. Emastic(Free)
一個與眾不同的CSS框架。
18. Fluid 960 Gride System(GPL/MIT)

Fluid 960 Grid System的模版是根據Nathan Smith之前的作品而創建的。即960 Grid System:傳承了MooTools和jQuery JavaScript libraries的效果。
19. xCSS(MIT)
一個面向對象的CSS框架,能讓你的工作流更加簡潔。xCSS基於CSS,可以在開發復雜樣式時,提供面向對象的工作流。
20. EM CSS Framework(MIT/GPL)
EM CSS Framework提供了一個960px寬 + 12 列網格系統 + CSS的通用樣式。

Ⅵ 一名前端工程師的知識圖譜是什麼該如何入門並且提高

【1】能用html+css把頁面做出來,能用js實現動態效果。

【2】在1的基礎上保證瀏覽器兼容性。

【3】在2的基礎上開始出現代碼潔癖,代碼會逐漸趨向於簡潔高效

【4】在3的基礎上開始關注語義性、可用性和可重用性

【5】在4的基礎上開始關注頁面性能

【6】在5的基礎上開始費勁腦汁的去尋思怎麼能把開發效率也提升上來

Ⅶ 知識圖譜是什麼有哪些應用價值

知識圖譜 (Knowledge Graph) 是當前的研究熱點。自從2012年Google推出自己第一版知識圖譜以來,它在學術界和工業界掀起了一股熱潮。各大互聯網企業在之後的短短一年內紛紛推出了自己的知識圖譜產品以作為回應。比如在國內,互聯網巨頭網路和搜狗分別推出」知心「和」知立方」來改進其搜索質量。那麼與這些傳統的互聯網公司相比,對處於當今風口浪尖上的行業 - 互聯網金融, 知識圖譜可以有哪方面的應用呢?

目錄
1. 什麼是知識圖譜?
2. 知識圖譜的表示
3. 知識圖譜的存儲
4. 應用
5. 挑戰
6. 結語

1. 什麼是知識圖譜?

知識圖譜本質上是語義網路,是一種基於圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的「實體」,每條邊為實體與實體之間的「關系」。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網路。知識圖譜提供了從「關系」的角度去分析問題的能力。

知識推理

推理能力是人類智能的重要特徵,使得我們可以從已有的知識中發現隱含的知識, 一般的推理往往需要一些規則的支持【3】。例如「朋友」的「朋友」,可以推理出「朋友」關系,「父親」的「父親」可以推理出「祖父」的關系。再比如張三的朋友很多也是李四的朋友,那我們可以推測張三和李四也很有可能是朋友關系。當然,這里會涉及到概率的問題。當信息量特別多的時候,怎麼把這些信息(side information)有效地與推理演算法結合在一起才是最關鍵的。常用的推理演算法包括基於邏輯(Logic) 的推理和基於分布式表示方法(Distributed Representation)的推理。隨著深度學習在人工智慧領域的地位變得越來越重要,基於分布式表示方法的推理也成為目前研究的熱點。如果有興趣可以參考一下這方面目前的工作進展【4,5,6,7】。

大數據、小樣本、構建有效的生態閉環是關鍵

雖然現在能獲取的數據量非常龐大,我們仍然面臨著小樣本問題,也就是樣本數量少。假設我們需要搭建一個基於機器學習的反欺詐評分系統,我們首先需要一些欺詐樣本。但實際上,我們能拿到的欺詐樣本數量不多,即便有幾百萬個貸款申請,最後被我們標記為欺詐的樣本很可能也就幾萬個而已。這對機器學習的建模提出了更高的挑戰。每一個欺詐樣本我們都是以很高昂的「代價」得到的。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間還是有局限的。這有區別於傳統的機器學習系統,比如圖像識別,不難拿到好幾十萬甚至幾百萬的樣本。

在這種小樣本條件下,構建有效的生態閉環尤其的重要。所謂的生態閉環,指的是構建有效的自反饋系統使其能夠實時地反饋給我們的模型,並使得模型不斷地自優化從而提升准確率。為了搭建這種自學習系統,我們不僅要完善已有的數據流系統,而且要深入到各個業務線,並對相應的流程進行優化。這也是整個反欺詐環節必要的過程,我們要知道整個過程都充滿著博弈。所以我們需要不斷地通過反饋信號來調整我們的策略。

6. 結語

知識圖譜在學術界和工業界受到越來越多的關注。除了本文中所提到的應用,知識圖譜還可以應用在許可權管理,人力資源管理等不同的領域。在後續的文章中會詳細地講到這方面的應用。

參考文獻

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】劉知遠 知識圖譜——機器大腦中的知識庫 第二章 知識圖譜——機器大腦中的知識庫

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

Ⅷ 學習Web前端後可以選擇哪些發展方向

今天小編要跟大家分享的文章是關於學習Web前端後可以選擇哪些發展方向?近幾年前端領域不斷地涌現出新的技術,舊的技術也不斷地進行更新換代。隨著技術的不斷進步,前端開發涉及的領域,也變得越來越廣,接下來跟小編一起來了解一下前端幾個重要的領域吧。希望能夠對小夥伴們有所幫助。

一、PC


PC(PersonalComputer)
即個人電腦。目前電腦端仍是前端一個主要的領域,主要分為面向大眾的各類網站,如新聞媒體、社交、電商、論壇等和面向管理員的各種CMS
(內容管理系統)和其它的後台管理系統。


其實早期並沒有"前端工程師"的稱號,那時候一般叫做"網頁設計師"或"美工"。記得最早接觸到的網頁設計軟體是微軟開發的
"Frontpage",後面才接觸到"網頁三劍客"(Dreamweaver、Fireworks、Flash)中的Dreamweaver,直到現在的各種
IDE(集成開發環境),如SublimeText、WebStorm、VisualStudioCode、Atom等。


對於前端工程師來說,開發PC端項目,最痛苦的事情莫過於解決瀏覽器兼容性問題,特別是IE
瀏覽器不同版本的問題。值得高興的是,針對現代瀏覽器不同特性的兼容問題,可以藉助構建工具的插件來實現自動添加不同瀏覽器的特性前綴,比如PostCSS的
Autoprefixer插件。


二、WebApp


WebApp是指使用Web開發技術,實現的有較好用戶體驗的Web應用程序。它是運行在手機和桌面端瀏覽中,隨著移動端網路速度的提升,Web
App為我們提供了很大的便利。此外近兩年Google提出了一種新的WebApp形態,即PWA(漸進增強WebAPP)。


PWA意圖讓Web在保留其本質(開放平台、易於訪問、可索引)的同時,在離線、交互、通知等方面達到類似App的用戶體驗。PWA
其具體技術包括Serviceworker、WebAppManifest、CacheAPI、FetchAPI、PushAPI、Web
PushProtocol、Notification等等。


WebApp的主要優點:


§開發成本低


§內容更新快


§升級無需通知用戶,自動升級


§能夠跨多個平台和終端


WebApp的主要缺點:


§用戶體驗短期內還無法超越原生應用


§離線工作的能力較弱


§消息推送不夠及時


§無法獲取系統級別的通知,提醒,動效等等


三、WeChat


WeChat(微信)
這個平台,擁有大量的用戶群體,因此它也是我們前端開發另一個重要的領域。微信的公眾號與訂閱號為市場營銷和自媒體從業者,打造了一個新的天地。我們以微信公眾號為例,來分析一下微信公眾號的主要作用:


§信息推送


§用戶服務


§用戶互動


此外除了公眾號與訂閱號外,微信又推出了微信小程序。微信小程序是一種全新的連接用戶與服務的方式,它可以在微信內被便捷地獲取和傳播,同時具有出色的使用體驗。


微信小程序的主要優勢:


§不用安裝,即開即用


§相比於App開發來說,小程序開發成本更低


§UI和操作流程比較統一,降低用戶的使用難度


§基於微信平台,推廣更容易、更簡單


四、HybridApp


HybridApp(混合應用)是指介於WebApp、原生App(主要是Android或iOS)之間的App,它兼具原生App
良好用戶交互體驗的優勢和WebApp跨平台開發的優勢。


混合應用功能按網頁語言與程序語言的混合,通常分為三種類型:多View混合型,單View混合型,Web主體型。最早的混合應用開發技術,是基於
Phonegap/Cordova技術。Cordova為開發者提供了一組設備相關的API,通過這組API,移動應用能夠以JavaScript
訪問原生的設備功能,如攝像頭、麥克風等。


目前主流的混合應用開發框架有:ReactNative、OnsenUI、Ionic、Framework7、NativeScript和Weex
等。這里就不詳細展開,對各個框架進行詳細對比和分析,有興趣的讀者可以自行查閱一下相關資料。接下來我們來了解一下混合應用的優缺點。


混合應用的主要優點:


§開發成本低


§節省跨平台的時間和成本


§可以訪問硬體設備的功能


§可以打包成App,發布到AppStore或各大安卓應用平台


混合應用的主要缺點:


§用戶體驗不如原生App


§應用性能也不如原生App


§技術還未成熟


五、Game


HTML5游戲從2014年Egret
引擎開發的神經貓引爆朋友圈之後,就開始一發不可收拾。不過現在游戲開發變得越來越復雜,需要製作各種炫麗炫麗的效果,還要製作各炫麗於2D或者3D
的場景。為了降低游戲的開發難度,加快游戲的開發進度,國內外不同廠商推出了眾多游戲開發引擎。


HTML5主要的開源游戲引擎:


§phaser


§pixi.js


§Babylon.js


§whs.js


§egret


§cocos2d-html5


六、Desktop


桌面應用軟體,就是我們日常生活中電腦中安裝的各類軟體。早期要開發桌面應用程序,就需要有專門的語言UI(界面)庫支持,如C++中的Qt
庫、MFC庫,Java的Swing、Python的PyQT等,否則語言是沒辦法進行快速界面開發。


隨著Web技術的不斷發展,目前藉助NW.js、Electron等開發框架,前端也可以開發桌面應用了。其中口碑不錯的開源IDE-
VisualStudioCode就是使用Electron開發的。使用Web
技術,主要的優勢是它的跨平台能力和開發效率。但也有它對應的缺點,就是運行效率不如使用專門語言開發的桌面應用。


七、Server


Node.js一發布,立刻在前端工程師中引起了軒然大波,前端工程師們幾乎立刻對這一項技術表露出了相當大的熱情和期待。看到Node.js
這個名字,初學者可能會誤以為這是一個Javascript應用,事實上,Node.js採用C++語言編寫而成,是一個Javascript
的運行環境。


Node.js讓JavaScript能夠運行在服務端,這個想法簡直太棒了。這使得前端開發人員不用再去學服務端開發語言,如
PHP、Java、Ruby和C#等,也可以進入服務端的開發領域。當然學習的過程可能對於大多數純前端開發人員來說,會比較痛苦和漫長。


Node.js主要的Web開發框架:


§Express


§Koa


§Egg


§Nodal


§Sails


§Loopback


當然前端涉及的領域,還不止這些。較新的領域還有,數據可視化、IOT
(物聯網)、機器學習等。網上也有大神專門整理了前端開發人員的技能圖譜,有興趣的讀者可以參考一下,但一定要做好心理准備,不要被嚇到哦。裡面介紹的是綜合的技能,對於初學者的話,只要先學
HTML/HTML5、CSS/CSS3和JavaScript的基礎知識,等入門後在參考技能圖譜,好好規劃一下學習或進階線路喲。


最後,這篇文章的目的不是為了炫耀前端開發有多牛逼,只是想作為有意向入行前端或剛入門前端人員的參考資料。俗話說得好,術業有專攻,希望新時代的前端開發者,能先專攻某個領域,然後再擴展其它領域,即先有深度再有廣度。


以上就是小編今天為大家分享的關於學習Web前端後可以選擇哪些發展方向的文章,希望本篇文章能夠對正在從事Web前端工作的小夥伴們有所幫助。想要了解更多Web相關知識記得關注北大青鳥Web培訓官網。最後祝願小夥伴們工作順利!


Ⅸ 初學者如何在前端的道路上成長,成為一個前端工程師的知識圖譜是什麼拜託各位了 3Q

xhtml css js,一個都不能生疏,而且要看就看新書,這樣符合w3c 標准。要是自己練,ie8一下的就不用管兼容性了,畢竟佔有率很少很少。
學的差不多了再html5,css3
如果走高端路線,就css3多用,像樓上說的,切圖什麼的,一邊玩蛋去把。前端看的是用戶體驗,不是漂亮的風景畫和浮誇的按鈕

------------
csdn.net 等一些站有很多不錯的博主寫的文章,多看看

Ⅹ 知識圖譜有什麼用處

「知識圖譜的應用涉及到眾多行業,尤其是知識密集型行業,目前關注度比較高的領域:醫療、金融、法律、電商、智能家電等。」基於信息、知識和智能形成的閉環,從信息中獲取知識,基於知識開發智能應用,智能應用產生新的信息,從新的信息中再獲取新的知識,不斷迭代,就可以不斷產生更加豐富的知識圖譜,更加智能的應用。

如果說波士頓動力的翻跟頭是在幫機器人鍛煉筋骨,那麼知識圖譜的「繪制」則是在試圖「創造」一個能運轉的機器人大腦。

「目前,還不能做到讓機器理解人的語言。」中國科學院軟體所研究員、中國中文信息學會副理事長孫樂說。無論是能逗你一樂的Siri,還是會做詩的小冰,亦或是會「懸絲診脈」的沃森,它們並不真正明白自己在做什麼、為什麼這么做。

讓機器學會思考,要靠「譜」。這個「譜」被稱為知識圖譜,意在將人類世界中產生的知識,構建在機器世界中,進而形成能夠支撐類腦推理的知識庫。

為了在國內構建一個關於知識圖譜的全新產學合作模式,知識圖譜研討會日前召開,來自高校院所的研究人員與產業團隊共商打造全球化的知識圖譜體系,建立世界領先的人工智慧基礎設施的開拓性工作。

技術原理:把文本轉化成知識

「對於『姚明是上海人』這樣一個句子,存儲在機器里只是一串字元。而這串字元在人腦中卻是『活』起來的。」孫樂舉例說。比如說到「姚明」,人會想到他是前美職籃球員、「小巨人」、中鋒等,而「上海」會讓人想到東方明珠、繁華都市等含義。但對於機器來說,僅僅說「姚明是上海人」,它不能和人類一樣明白其背後的含義。機器理解文本,首先就需要了解背景知識。

那如何將文本轉化成知識呢?

「藉助信息抽取技術,人們可以從文本中抽取知識,這也正是知識圖譜構建的核心技術。」孫樂說,目前比較流行的是使用「三元組」的存儲方式。三元組由兩個點、一條邊構成,點代表實體或者概念,邊代表實體與概念之間的各種語義關系。一個點可以延伸出多個邊,構成很多關系。例如姚明這個點,可以和上海構成出生地的關系,可以和美職籃構成效力關系,還可以和2.26米構成身高關系。

「如果這些關系足夠完善,機器就具備了理解語言的基礎。」孫樂說。那麼如何讓機器擁有這樣的「理解力」呢?

「上世紀六十年代,人工智慧先驅麻省理工學院的馬文·明斯基在一個問答系統項目SIR中,使用了實體間語義關系來表示問句和答案的語義,劍橋語言研究部門的瑪格麗特·瑪斯特曼在1961年使用Semantic Network來建模世界知識,這些都可被看作是知識圖譜的前身。」孫樂說。

隨後的Wordnet、中國的知網(Hownet)也進行了人工構建知識庫的工作。

「這里包括主觀知識,比如社交網站上人們對某個產品的態度是喜歡還是不喜歡;場景知識,比如在某個特定場景中應該怎麼做;語言知識,例如各種語言語法;常識知識,例如水、貓、狗,教人認的時候可以直接指著教,卻很難讓計算機明白。」孫樂解釋,從這些初步的分類中就能感受到知識的海量,更別說那些高層次的科學知識了。

構建方式:從手工勞動到自動抽取

「2010年之後,維基網路開始嘗試『眾包』的方式,每個人都能夠貢獻知識。」孫樂說,這讓知識圖譜的積累速度大大增加,後續網路、互動網路等也採取了類似的知識搜集方式,發動公眾使得「積沙」這個環節的時間大大縮短、效率大大增加,無數的知識從四面八方趕來,迅速集聚,只待「成塔」。

面對如此大量的數據,或者說「文本」,知識圖譜的構建工作自然不能再手工勞動,「讓機器自動抽取結構化的知識,自動生成『三元組』。」孫樂說,學術界和產業界開發出了不同的構架、體系,能夠自動或半自動地從文本中生成機器可識別的知識。

孫樂的演示課件中,有一張生動的圖畫,一大摞文件紙吃進去,電腦馬上轉化為「知識」,但事實遠沒有那麼簡單。自動抽取結構化數據在不同行業還沒有統一的方案。在「網路知識圖譜」的介紹中這樣寫道:對提交至知識圖譜的數據轉換為遵循Schema的實體對象,並進行統一的數據清洗、對齊、融合、關聯等知識計算,完成圖譜的構建。「但是大家發現,基於維基網路,結構化半結構化數據挖掘出來的知識圖譜還是不夠,因此目前所有的工作都集中在研究如何從海量文本中抽取知識。」孫樂說,例如谷歌的Knowledge Vault,以及美國國家標准與技術研究院主辦的TAC-KBP評測,也都在推進從文本中抽取知識的技術。

在權威的「知識庫自動構建國際評測」中,從文本中抽取知識被分解為實體發現、關系抽取、事件抽取、情感抽取等4部分。在美國NIST組織的TAC-KBP中文評測中,中科院軟體所—搜狗聯合團隊獲得綜合性能指標第3名,事件抽取單項指標第1名的好成績。

「我國在這一領域可以和國際水平比肩。」孫樂介紹,中科院軟體所提出了基於Co-Bootstrapping的實體獲取演算法,基於多源知識監督的關系抽取演算法等,大幅度降低了文本知識抽取工具構建模型的成本,並提升了性能。

終極目標:將人類知識全部結構化

《聖經·舊約》記載,人類聯合起來興建希望能通往天堂的高塔——「巴別塔」,而今,創造AI的人類正在建造這樣一座「巴別塔」,幫助人工智慧企及人類智能。

自動的做法讓知識量開始形成規模,達到了能夠支持實際應用的量級。「但是這種轉化,還遠遠未達到人類的知識水平。」孫樂說,何況人類的知識一直在增加、更新,一直在動態變化,理解也應該與時俱進地體現在機器「腦」中。

「因此知識圖譜不會是一個靜止的狀態,而是要形成一個循環,這也是美國卡耐基梅隆大學等地方提出來的Never Ending Learning(學無止境)的概念。」孫樂說。

資料顯示,目前谷歌知識圖譜中記載了超過35億事實;Freebase中記載了4000多萬實體,上萬個屬性關系,24億多個事實;網路記錄詞條數1000萬個,網路搜索中應用了聯想搜索功能。

「在醫學領域、人物關系等特定領域,也有專門的知識圖譜。」孫樂介紹,Kinships描述人物之間的親屬關系,104個實體,26種關系,10800個事實;UMLS在醫學領域描述了醫學概念之間的聯系,135個實體,49種關系,6800個事實。

「這是一幅充滿美好前景的宏偉藍圖。」孫樂說,知識圖譜的最終目標是將人類的知識全部形式化、結構化,並用於構建基於知識的自然語言理解系統。

盡管令業內滿意的「真正理解語言的系統」還遠未出現,目前的「巴別塔」還只是在基礎層面,但相關的應用已經顯示出廣闊的前景。例如,在網路輸入「冷凍電鏡」,右豎條的關聯將出現「施一公」,輸入「撒幣」,將直接在搜索項中出現「王思聰」等相關項。其中蘊含著機器對人類意圖的理解。