• <tr id="c82nl"><optgroup id="c82nl"></optgroup></tr>
    1. 當前位置:首頁 > 新聞中心 > 科研動態

    科研動態

    自然語言處理團隊提出一種融合翻譯模式的跨語言自動摘要方法

  • 發表日期:2020-06-19 【 【打印】【關閉】
  •   跨語言自動摘要是一項對源語言文本核心信息進行內容歸納,以目標語言的形式組織成摘要的任務。跨語言自動摘要方法研究對于跨境電商(輔助用戶進行決策)、輿情分析(幫助分析人員過濾冗余信息)和內容推薦(為用戶推薦外語新聞)等應用場景具有重要意義。 

      由于平行數據的缺失,大多數已有的跨語言自動摘要方法只能基于管道式方法實現,造成嚴重的誤差傳播問題,使得摘要質量受到極大的制約。 

      為緩解此問題,研究人員開始嘗試構建跨語言自動摘要平行數據,并在此基礎上開展基于深度學習的跨語言自動摘要方法(或稱神經跨語言自動摘要)研究。其中較為典型的方法有基于多任務學習的方法,該方法在多任務學習框架基礎上,利用單語言自動摘要、機器翻譯的數據提升跨語言自動摘要模型的性能,取得了相當良好的性能。然而,基于多任務學習的方法存在依賴外部數據、模型容量較大且需要很長的訓練時間等缺陷,使其難以應用于真實場景 

      針對此問題,自動化所自然語言處理團隊提出一種融合翻譯模式的跨語言自動摘要方法,有效緩解已有方法的缺陷,相關成果發表于第五十八屆國際計算語言學年會(ACL-2020)。 

    圖1.“翻譯”現象的示例

    該工作受跨語言自動摘要中存在的“翻譯”現象(即目標端的詞匯可通過翻譯源端某些詞匯得到)的啟發,將跨語言自動摘要分解為三個步驟:聚焦(attend)翻譯(translate)歸納(summarize),整體框架如圖2所示。具體而言,該方法首先通過注意力機制對原文包含的重要內容詞進行聚焦,并得到這些關鍵詞的翻譯候選(translation candidates),最后依據翻譯候選或者神經概率分布(neural distribution)生成摘要詞匯。

    圖2. 融合翻譯模式的跨語言自動摘要方法示意圖

      針對于“翻譯”步驟,團隊嘗試并對比了三種策略:“樸素(Naive)”、“平等(Equal)”和“適應(Adapt)”。“樸素”策略直接將概率雙語詞典中的翻譯概率作為詞匯的雙語翻譯概率,而“平等”策略則是將概率雙語詞典中的翻譯概率進行平均處理,“適應”策略將源端的上下文語義信息用于動態地挑選合適的翻譯候選。 

      團隊在大規模的“中到英”(Zh2EnSum)和“英到中”(En2ZhSum)跨語言自動摘要數據集上進行實驗,以驗證所提方法的有效性,實驗結果如表1所示。相較于基線系統,所提方法在兩個不同的語言方向上均能獲得顯著提升。同時,所提方法取得了與基于多任務學習的方法(CLSMSCLSMT)相當的性能,甚至在多數指標上要優于基于多任務學習的方法,但所提方法只需要一個額外的概率雙語詞典而不需要引入其他任務的數據,所以極大地降低了模型對于數據的依賴性。與基于多任務學習的方法相比,所提方法另一優勢在于,所提方法由于僅包含單個編碼器與單個解碼器,且只使用跨語言自動摘要的數據進行訓練,因此具有更小的模型容量與更高的訓練效率,具體的實驗對比見表2 

      歸納而言,融合翻譯模式的跨語言自動摘要方法能夠生成與基于多任務學習方法質量相當的摘要,但相比之下前者具有降低模型對于數據的依賴、減小模型容量和提升訓練效率的優勢。 

    表1. 融合翻譯模式的跨語言自動摘要方法(ATS)與現有方法對比

     

    表2. 模型大小和訓練時長對比

     

    論文:Junnan Zhu, Yu Zhou, Jiajun Zhang, and Chengqing Zong. Attend, Translate and Summarize: An Efficient Method for Neural Cross-Lingual Summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 2020.

    欧美zooz人禽交