京東云旗下言犀獲端到端任務型對話生成排行榜第一

11月15日消息,京東云旗下言犀近日在國際上影響力最廣泛的任務型對話數據集MultiWOZ上以103.4的分數斬獲端到端任務型對話生成排行榜第一。
MultiWOZ數據集端到端任務型對話回復生成榜單(榜單自下而上),圖源:京東科技黑板報,下同
據悉,MultiWOZ數據集是國際上影響力最廣泛的任務型對話數據集,由劍橋大學提出,聚焦大規模多領域多輪次的任務型對話。MultiWOZ數據集中70%的對話是包括2-5個領域的多領域對話,是自然語言處理領域最經典,挑戰性最高的數據集之一。言犀本次參與的是端到端任務型對話生成任務。
由于其具有挑戰性的設置,MultiWOZ任務型對話數據集一經發布吸引了全球眾多高校和科研機構的參與,包括來自清華大學,香港科技大學,微軟研究院,亞馬遜,DeepMind以及Salesforce等多個研究小組。
本次言犀團隊提出的Mars模型,創新性地利用語義感知的對比學習方法來增強對話上下文表征與對話狀態和對話策略之間的關系建模,從而使對話系統更好地完成任務。除了總評分,Mars模型在三個分項評價指標Inform, Success和BLEU也分別以89.9、78.0、19.9排名第一。
作為業內首個大規模商用的智能客服系統,言犀支撐了京東客戶服務全鏈條和全生命周期,日均生成1000萬對話,服務京東5.8億用戶和17.8萬商家。
在文本生成領域,言犀目前可以實現短文、長文的生成,依靠領域性大模型K-PLUG,可以實現短文本和長文本的自動生成。目前言犀商品文案生成模型已經覆蓋了京東的3000多個三級品類,累計生成文案30億字,應用于京東發現好貨頻道、搭配購、AI直播帶貨等,累計帶來超過3億元GMV。
在語音生成領域,言犀使用基于端到端網絡結構的聲學模型,對于音調,音量,時長等信息進行了顯式建模,同時使用了基于對抗神經網絡的神經網絡聲碼器,可以合成非常自然的并且高質量的語音,只需要30分鐘訓練數據可以生成定制化精品音色,同時只需要10句話就可以實現高質量的小樣本音色克隆。目前言犀語音合成API日均調用量超過20億次,支持中文、英文、泰語,廣東話、成都話等各類方言、音色。
在數字人生成領域,言犀面部動作方面通過自研的3DNeuralRender神經渲染器,可以高保真地合成主播面部細節。動作上,言犀研發的動作合成方案,基于RIFE插幀多插入點的快速動作過渡,可以讓數字人的動作更加流暢自然;互動中,2D及超寫實、高精度3D數字員工驅動方案,可以實現音唇精準同步。言犀目前擁有100+數字人形象,廣泛的應用于政務、金融、零售直播等領域。
在數字孿生領域,京東云利用數字孿生技術對產線和制造工藝進行仿真優化,縮減現實世界中的調優試錯環節,進而降低產業成本,提升產業效率。
