
“跨境電商場景下,最遠的鴻溝不是距離,而是語言的障礙”,阿里巴巴達摩院機器智能技術(shù)實驗室智能翻譯解決方案方向負責人施楊斌表示,在全球化的今天,跨境電商生意遍布全球,但因語言的溝通障礙,很多賣家在跟買家交流的時候,無法準確抓捕對方想表達的信息。
因此,在【雨果網(wǎng)111大會】上,施楊斌從智能翻譯在AI場景的應(yīng)用以及其技術(shù)挑戰(zhàn)和亮點上,全方位向跨境電商賣家展示了人工智能滲透到跨境電商的應(yīng)用表現(xiàn),幫助賣家解決語言溝通障礙。
一、智能翻譯特定的AI場景在跨境電商領(lǐng)域的具體應(yīng)用
1、跨境電商業(yè)務(wù)語言復(fù)雜性
(圖/施楊斌演講PPT截圖)
“語言問題是跨境電商領(lǐng)域面臨的很大的難題”施楊斌指出,如上圖所示,18個主要跨境電商國家有不同地區(qū)的分布,而上圖的賣家可以理解為不同的原發(fā)商品,有英文、俄語、西語等不同的原發(fā)商品。這些不同的賣家將貨賣給左邊18個不同國家的買家。再者,底下為電商平臺,包括阿里內(nèi)部以及物流、支付、營銷領(lǐng)域內(nèi)的其他電商平臺。不同的領(lǐng)域,需要不同的語言,可見跨境電商語言業(yè)務(wù)的復(fù)雜性。
2、智能翻譯在跨境電商全鏈路的應(yīng)用
(圖/施楊斌演講PPT截圖)
1、賣家在做跨境業(yè)務(wù)的時候,需要使用多語言的本地化網(wǎng)站或者APP,就會涉及到網(wǎng)站文案的多元化、國際化的標準掃描,還有本地化的測試以及網(wǎng)規(guī)、網(wǎng)站信息的本地化。
2,當賣家有本地化的站點之后,接下來就需要為APP或者網(wǎng)站做引流拉新,這就涉及到引流詞的多元化和引流標題商品的多元化、多元創(chuàng)意文案、多元的類目。
3、賣家把用戶引流到自己的網(wǎng)站之后,需要考慮的是怎么提高到站的修復(fù)轉(zhuǎn)化率,也就涉及多元的搜索、多元的類目等。
4、當用戶很成功找到自己想買的商品,就需要考慮如何提高用戶的購買轉(zhuǎn)化率,如上圖D到O的轉(zhuǎn)化率,就需要做商品所有詳情信息的多元化,標題、評論以及UGC的內(nèi)容。
5、最后用戶下單成功還涉及物流支付的環(huán)節(jié),這里包括支付物流以及關(guān)檢務(wù)過程中問題的解決。當貨到買家手中,賣家需要考慮怎么提高留存復(fù)購率,有多元實時溝通和智能客服等。
針對以上的每一個步驟,施楊斌從到站搜索和留存復(fù)購給賣家做具體的案例分析。
1、多元的搜索。搜索是大部分流量的入口,首先要解決的問題是報關(guān)。假設(shè)一個俄羅斯人在自己的本地電商平臺搜索想買的商品,輸入是俄語,但大部分搜索引擎底層的技術(shù)都是基于英語做索引。如何輸入俄語能讓頁面他想要的商品信息,就是怎么解決商品報關(guān)的問題。具體包括:對關(guān)鍵詞做語種識別、智能糾錯翻譯成英文,通過搜索引擎檢索,展示買家想要的商品。
其次,做展示的優(yōu)化。如淘寶的場景,賣家為了提高搜索透出率,有很多的重疊詞和修飾詞。賣家做跨境貿(mào)易的時候把中文的商品直接翻譯成英文或者俄語,商品標題非常長,以致于搜索展示頁只能看到前面的幾個單詞,導(dǎo)致本地買家看不懂標題表達的意思。
通過展示優(yōu)化,搜索頁面會根據(jù)不同地區(qū)消費者的習慣做智能標題改寫,把長標題改成短標題,然后再做機器翻譯。最后呈現(xiàn)的是品牌+兩三個修飾詞+品類詞,這樣的標題就一目了然。
2、搜索轉(zhuǎn)化率。通過用戶的行為去反哺兩個智能的算法:通過搜索詞的優(yōu)化,比如有些高流量的搜索詞,搜索出來的結(jié)果對用戶的點擊、CTR的轉(zhuǎn)化率很高。賣家可把這些詞過濾出來,人工輔助挑這些詞出現(xiàn)的問題,再反哺給機器翻譯;通過不斷的業(yè)務(wù)指標驅(qū)動的算法優(yōu)化路徑去提升翻譯和標題改寫算法,最終向業(yè)務(wù)指標提升的方向擬合。
二、搭建電商領(lǐng)域機器翻譯引擎的挑戰(zhàn)和技術(shù)亮點
1、電商場景機器系統(tǒng)的挑戰(zhàn)
?翻譯質(zhì)量,包括電商場景翻譯結(jié)果可讀性要求高、相關(guān)領(lǐng)域關(guān)鍵信息翻譯的準確性、靈活的干預(yù)機制,特別是電商的關(guān)鍵術(shù)語、商品的品名,數(shù)字和商品的型號、規(guī)格,翻譯的準確度要求非常高。
?服務(wù)要求,電商平臺對整體的服務(wù)穩(wěn)定性和多區(qū)域的要求非常高,同時要求有高的響應(yīng)程度,用戶不可能在商品詳情頁渲染的時候等一兩分鐘,甚至半分鐘都等不了。
?快速迭代,由于跨境電商業(yè)務(wù)的快速發(fā)展,針對更多國家的擴張和更多語言翻譯的需求,賣家要求速度非???,所以需要快速迭代的能力。
2、電商翻譯系統(tǒng)的技術(shù)亮點
為了應(yīng)對以上的三個挑戰(zhàn),阿里翻譯團隊整體通過模型、數(shù)據(jù)、工程三方面去應(yīng)對。
模型。模型上采用機器翻譯多模型翻譯的方案,把不同的模型用在擅長的領(lǐng)域。比如神經(jīng)網(wǎng)絡(luò)翻譯機器比較善長文本和口語化的翻譯,可應(yīng)用在商品翻譯、評論和溝通的場景;統(tǒng)計機器翻譯就比較適用于短的文本,像標題搜索和屬性這樣的場;規(guī)則翻譯主要用于數(shù)字、日期、單位地址和菜單之類的翻譯;翻譯記憶,先過一遍人工翻譯的記憶庫,精準匹配。
賣家可結(jié)合業(yè)務(wù)指標數(shù)據(jù)對頭部商品進行翻譯質(zhì)量自動評估,如果有翻譯質(zhì)量不過關(guān),能更有針對性的對頭部商品質(zhì)量進行優(yōu)化,以達到業(yè)務(wù)指標提升的目的。
數(shù)據(jù)。數(shù)據(jù)優(yōu)勢主要是為了表達出人工智能最底層、最依賴數(shù)據(jù),數(shù)據(jù)有多么龐大、多么高質(zhì)量,出來的模型就有多智能。
工程。分布式訓練能加速整體模型訓練的速度,并行計算和性能優(yōu)化可提升整體的存儲量和響應(yīng)時間。
(文/雨果網(wǎng) 吳桂真)