剖析騰訊知文,智能問答機(jī)器人路在何方?
機(jī)氣林智能科技2019提供自動(dòng)化零件,工控產(chǎn)品,工業(yè)機(jī)器人,以及機(jī)器人零部件。
機(jī)氣林智能科技有話說:
更多干貨內(nèi)容請(qǐng)關(guān)注微信公眾號(hào)“AI 前線”(ID:ai-front)
經(jīng)過騰訊最近一次組織架構(gòu)大調(diào)整之后,知文團(tuán)隊(duì)從原來的 SNG 事業(yè)群歸入了新成立的云與智慧產(chǎn)業(yè)事業(yè)群(CSIG),但服務(wù)和支持的相關(guān)產(chǎn)品和業(yè)務(wù)不變,包括騰訊云、QQ、QQ 空間等。這一團(tuán)隊(duì)目前的研究重心,也依然放在自然語(yǔ)言智能交互,圍繞智能交互的內(nèi)涵和外延,學(xué)術(shù)研究則包括但不限于問答、對(duì)話系統(tǒng)、文本摘要、知識(shí)圖譜、機(jī)器閱讀理解等。
作為知文團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人,鐘黎主導(dǎo)了知文智能問答平臺(tái)、知文 NLP 平臺(tái)以及知文內(nèi)容理解產(chǎn)品的研發(fā)工作。在此之前,他曾負(fù)責(zé)騰訊社交網(wǎng)絡(luò)的文本分析與語(yǔ)義挖掘,為眾多相關(guān)產(chǎn)品和業(yè)務(wù)提供語(yǔ)義分析能力。他擁有豐富的大規(guī)模機(jī)器學(xué)習(xí)應(yīng)用經(jīng)驗(yàn),曾經(jīng)在微軟、PayPal、SoftBank AI Lab、IBM Research 等公司任職,并參與過機(jī)器人 NAO 及 Pepper 的原型研發(fā)、Watson 智能會(huì)議助理研發(fā)等。
根據(jù)鐘黎的介紹,騰訊知文問答系統(tǒng)主要可以分為四大層次:
第一層:應(yīng)用層,包括智能客服機(jī)器人、智能外呼機(jī)、投訴引導(dǎo)機(jī)器人、任務(wù)查詢機(jī)器人等各類具體業(yè)務(wù)場(chǎng)景機(jī)器人。
第二層:接入層,包括公有云、私有云、私有化部署等多種接入方式。
第三層:核心問答引擎,包括信息問答、知識(shí)圖譜問答、任務(wù)型問答、文檔型問答以及多輪交互等技術(shù)模塊。
第四層:基礎(chǔ)能力層,包括數(shù)據(jù)能力(行業(yè)與領(lǐng)域數(shù)據(jù)、知識(shí)庫(kù)管理、遷移學(xué)習(xí)),NLP 能力(基礎(chǔ) NLP 算法組件),深度學(xué)習(xí)能力(復(fù)雜模型優(yōu)化、深度學(xué)習(xí)工程化),數(shù)據(jù)分析能力(自動(dòng)分析與監(jiān)控、趨勢(shì)分析、問題預(yù)測(cè))等。
經(jīng)過數(shù)次迭代,知文不斷調(diào)整優(yōu)化知文的架構(gòu),以為用戶提供更好的體驗(yàn)。鐘黎告訴 AI 前線,知文的發(fā)展路徑整體來看是實(shí)際業(yè)務(wù)需求驅(qū)動(dòng)的。最開始是緣起內(nèi)部業(yè)務(wù)關(guān)于客服的工單統(tǒng)計(jì)和分類的需求,輔助人工客服。之后,團(tuán)隊(duì)發(fā)現(xiàn)其實(shí)可以用問答技術(shù)去解決大量頻繁、重復(fù)又比較簡(jiǎn)單的問題,以減少人工客服的問詢量。隨著時(shí)間的推移,知文團(tuán)隊(duì)又遇到新的業(yè)務(wù)需求,即沒有工單,而是有比較多知識(shí)和文檔的場(chǎng)景,因此又逐漸引入知識(shí)圖譜技術(shù)、機(jī)器閱讀理解技術(shù)。目前,知文的研究重點(diǎn),一方面是在無標(biāo)注數(shù)據(jù)或者少量標(biāo)注數(shù)據(jù)下,知文問答平臺(tái)可以快速高效冷啟動(dòng)的方案,另一方面是多輪會(huì)話下解決用戶意圖在多個(gè)機(jī)器人間來回跳轉(zhuǎn)的問題。
在規(guī)模和應(yīng)用上,知文系統(tǒng)已經(jīng)支持了 5 大行業(yè)的智能客服,得到 20 多家行業(yè)頭部客戶的采用,包括中國(guó)銀行的新一代客服機(jī)器人項(xiàng)目,以及由騰訊 CEO 馬化騰親自站臺(tái)的“一部手機(jī)游云南”項(xiàng)目。
經(jīng)過架構(gòu)的不斷優(yōu)化,知文核心問答機(jī)器人架構(gòu)至今已經(jīng)過四次迭代。鐘黎介紹道,這四大核心機(jī)器人主要是指信息問答機(jī)器人、文檔閱讀理解機(jī)器人、任務(wù)執(zhí)行機(jī)器人以及知識(shí)圖譜機(jī)器人,但具體的迭代路徑、方法和思考,鐘黎表示將會(huì)在 AICon 上揭曉。
NLP 和語(yǔ)音在技術(shù)上仍然有很多亟待解決的問題,為解決這些問題,知文問答系統(tǒng)做出了諸多優(yōu)化和創(chuàng)新。例如,在核心的問答匹配上,其匹配模型引入了 ELMO 表示、詞圖卷積、intra/inter-attention 機(jī)制、位序損失、GLU 通路等,比當(dāng)前主流的匹配模型如 MatchPyramid、AICNN、BiMPM 等有更好的表現(xiàn)。在文檔閱讀理解上,知文問答模型引入了 template answer guiding 以及 tree-based spanning,突破了大部分學(xué)術(shù)論文只能做答案在原文中完全匹配且完全基于監(jiān)督數(shù)據(jù)的方法。在任務(wù)型問答上,知文問答模型在 end-to-end 的記憶網(wǎng)絡(luò)上進(jìn)行了知識(shí)增強(qiáng),對(duì)于多輪的任務(wù)型場(chǎng)景,模型能夠有效地記憶更長(zhǎng)的會(huì)話信息和槽位狀態(tài)。
對(duì)于一家企業(yè)來說,打造一個(gè)能夠滿足用戶大多數(shù)需求的問答機(jī)器人絕非易事,在技術(shù)和落地上均會(huì)面臨很多挑戰(zhàn)。鐘黎告訴 AI 前線,知文團(tuán)隊(duì)在打造智能問答平臺(tái)的過程中遇到過很多技術(shù)難點(diǎn),在業(yè)務(wù)落地上也是如此。
其中,知文在業(yè)務(wù)落地中常見的難點(diǎn),第一個(gè)就是業(yè)務(wù)方往往沒有大量的標(biāo)注數(shù)據(jù)。智能問答平臺(tái)里包含了多個(gè)算法模型,如果每個(gè)都是監(jiān)督模型的話,意味著在上線之前需要“喂”進(jìn)去大量的監(jiān)督數(shù)據(jù),這對(duì)于業(yè)務(wù)方來說是很大的標(biāo)注負(fù)擔(dān)。第二個(gè)問題,就是業(yè)務(wù)方往往沒有特別地進(jìn)行知識(shí)庫(kù)管理,大多數(shù)是一些歷史工單或者 FAQ 問題,這些數(shù)據(jù)的結(jié)構(gòu)化程度還不夠高,沒有形成知識(shí)圖譜或者層級(jí)關(guān)系。基于這些數(shù)據(jù)做多輪和反問交互,對(duì)知文來說是一個(gè)挑戰(zhàn)。針對(duì)這些問題,知文平臺(tái)在數(shù)據(jù)標(biāo)注方面采用了 few-shot learning 的思想,并通過遷移學(xué)習(xí)的方式,如表征遷移、模型框架遷移等,極大地降低了業(yè)務(wù)接入的數(shù)據(jù)門檻;另一方面,在無結(jié)構(gòu)知識(shí)庫(kù)管理上,知文平臺(tái)通過自動(dòng)圖譜構(gòu)建、動(dòng)態(tài)子圖生成的方式,實(shí)現(xiàn)通用多輪和反問的交互方式。
騰訊知文問答系統(tǒng)的背后,是 NLP 和語(yǔ)音技術(shù)相結(jié)合的技術(shù)在提供支持,這呼應(yīng)了業(yè)界有人提出的觀點(diǎn):NLP 與語(yǔ)音交互技術(shù)已然從獨(dú)立技術(shù),走向融合協(xié)作的道路。對(duì)此,鐘黎認(rèn)為,NLP 與語(yǔ)音技術(shù)本身有著緊密的聯(lián)系,語(yǔ)音技術(shù)的很多模型也在 NLP 里得到了廣泛應(yīng)用。一個(gè)完整的自然語(yǔ)言交互方案,必然需要同時(shí)融合語(yǔ)音和 NLP 的技術(shù),例如一個(gè)典型的流程,從用戶語(yǔ)音 query 進(jìn)來,要經(jīng)過語(yǔ)音喚醒、ASR、NLU、QA、NLG、TTS 等最后返回語(yǔ)音回答給用戶。騰訊知文的自然語(yǔ)言交互方案,現(xiàn)在也是正在從基于文本 NLP 技術(shù),到融合語(yǔ)音的完整自然語(yǔ)言交互技術(shù)。未來,一個(gè)更加自然、功能強(qiáng)大的智能語(yǔ)音交互產(chǎn)品,必然是充分融合了 NLP 與語(yǔ)音技術(shù)的成果。
雖然,NLP 和語(yǔ)音技術(shù)在最近幾年在技術(shù)和應(yīng)用上鮮有突破,但隨著更多研究人員和企業(yè)、組織進(jìn)入這一領(lǐng)域,相信在未來,這一領(lǐng)域?qū)⑨j釀出新一輪爆發(fā)和突破。
關(guān)于 NLP 技術(shù)未來發(fā)展的趨勢(shì),鐘黎認(rèn)為近期 NLP 領(lǐng)域值得關(guān)注的趨勢(shì)是表征與框架層的遷移學(xué)習(xí),包括之前的 word2vec、glove,Al2 的 ELMO,OpenAI 的 GPT, Fast.AI 的 ULM,以及 Google 的 BERT,遷移學(xué)習(xí)從底層表示的遷移、語(yǔ)言模型的遷移,轉(zhuǎn)變到了模型框架的遷移。
這其中,他重點(diǎn)強(qiáng)調(diào)了谷歌提出的 BERT 模型。“通過海量無監(jiān)督數(shù)據(jù)的預(yù)訓(xùn)練,只需要在特定任務(wù)上對(duì)最后一層進(jìn)行 task-specific 的修改,就能取得很好的效果,目前已經(jīng)在數(shù)十個(gè)任務(wù)上驗(yàn)證了其有效性。這對(duì)于工業(yè)應(yīng)用是很大的福音,尤其對(duì)于小數(shù)據(jù)的任務(wù),我們只需要通過小數(shù)據(jù)來 fine tune 最后一層,也能取得很好的效果。在 NLP 領(lǐng)域,大量的無標(biāo)注數(shù)據(jù)的潛力尚待挖掘,這些遷移學(xué)習(xí)的方法在一定程度證明了無標(biāo)注數(shù)據(jù)也是寶藏。非常期待在自然語(yǔ)言領(lǐng)域無監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)能夠取得更多突破。”
落地,是所有技術(shù)最終的歸屬,無法落地,再好的技術(shù)也無用武之地。鐘黎認(rèn)為,NLP 其實(shí)不是新事物,在互聯(lián)網(wǎng)的落地應(yīng)用上應(yīng)該算是其他 AI 方向的“前輩”,從門戶和搜索引擎時(shí)代開始,NLP 就一直是核心技術(shù)。
現(xiàn)在來看,NLP 技術(shù)有兩個(gè)新的落地場(chǎng)景值得重點(diǎn)關(guān)注:一是多模態(tài)內(nèi)容分發(fā)與內(nèi)容消費(fèi),包括各種信息流、資訊圈等,大量的信息處理、聚合與觸達(dá),都廣泛依賴 NLP 技術(shù)。另一個(gè)是普適計(jì)算下的自然語(yǔ)言交互,包括各種云 + 端的設(shè)備,例如手機(jī)、車載、音箱等等。
“人機(jī)交互的革命暗潮涌動(dòng),自然語(yǔ)言的方式將會(huì)在越來越多的場(chǎng)景發(fā)揮作用。”展望未來,鐘黎如此說道。