當前位置： 主頁 > 新聞 >

你需要的就在這裡：來自推薦系統團隊的致勝策略建議

本文作者：NVIDIA 點擊： 2021-07-20 22:42

前言：

在頂尖的業界競賽中奪下多項勝利的 NVIDIA 專家們分享打造世界級推薦系統的密技

最後全力一搏取得三連勝。

NVIDIA 團隊在今年參加的第三場、也是最困難的推薦系統資料科學競賽中，於截止期限的前五分鐘提交了作品。這項技術被稱為 RecSys，是電腦科學領域中相對較新的分支，催生了機器學習中最廣泛使用的應用之一，幫助數百萬人找到他們想觀看、購買和遊玩的內容。

團隊將六款人工智慧模型擠進競賽規定的 20GB 限制內，全都是從研究了 7.5 億個資料點中篩選出來的結晶。競賽中有一項特別的規定：模型在雲端 CPU 的單一核心上不得執行超過 24 小時。

他們按下提交按鈕後，開始耐心等待。23 小時 40 分鐘後收到一封電子郵件：他們在排行榜上拿下第一。

最後一刻才見分曉

6 月 28 日正式宣佈結果，由七人組成的 NVIDIA 團隊第二度贏得 2021 年 ACM RecSys 挑戰賽。

其中一名團隊成員 Chris Deotte 表示：「我們就在最後一刻收到電子郵件，若再晚個 20 分鐘我們就超出時間了。」Chris 同時也是資料科學界的線上奧運會 ── Kaggle 競賽的高手。

協助設計 NVIDIA Merlin 的隊友 Benedikt Schifferer 也說：「我們真的差一點就失敗了。」Merlin 是可以幫助使用者快速建立自有推薦系統的框架。

GPU 本來就能在很短的時間內完成推論任務。對於將任務調整到單一 CPU 核心上運作，團隊中居住於巴西的 Kaggle 高手 Gilberto “Giba” Titericz 表示：「就像回到遙遠的過去一樣。」

事實上，在比賽結束的時候，該團隊就證明了在 CPU 核心上耗費近 24 小時才完成的推論任務，可以用單個 NVIDIA A100 Tensor 核心 GPU 在五分半的時間內就完成。

每天分類 4,000 萬件物品

Twitter 在 28 天的競賽期間內，每天提供數百萬個資料點給參賽者，並要求他們預測用戶會喜歡或轉發哪些推文。這場業界級強度的挑戰賽是由 RecSys 的頂尖技術大會舉辦，吸引了來自 Facebook、Google、Spotify 和其他公司的頂尖工程師參加。

圖一_挑戰 RecSys 的部分團隊成員：Bo Liu (左上)、Benedikt Schifferer (右上)、

Gilberto Titericz (右下)及 Chris Deotte (左下)

這個領域非常困難，但也非常實用。推薦系統能驅動數位經濟，提供比傳統搜尋更快速、更智慧的建議。業界競賽有助於推動各個領域的發展，無論是想為另一半尋找完美的禮物，或想在網路上尋找老朋友的人都能受惠。

五個月內囊括三場勝利

今年稍早，NVIDIA 率領一支 40 人的團隊參加 Booking.com 挑戰賽。他們使用數百萬個匿名資料點，準確預測在歐洲的遊客會選擇到訪的最後一個城市。

六月時，在另一場頂尖的 RecSys 競賽 SIGIR eCommerce Data Challenge 中立下了更高的門檻。這場資訊檢索專業小組 (Special Interest Group on Information Retrieval；SIGIR) 的年度會議吸引了來自阿里巴巴和 Walmart Labs 等數家公司的專家。其 2021 年的挑戰提供 3,700 萬個線上購物活動的資料點，並要求參賽者預測用戶會購買哪些商品。

圖二_成功挑戰 SIGIR 的團隊成員：Ronay Ak (左上)、Sara Rabhi (右上)、

Md Yasin Kabir (右下) 和隊長 Gabriel Moreira (左下)

因為這場競賽的時程與 ACM 競賽重疊，NVIDIA 團隊不得不分成兩組，在兩場比賽之間互相配合。壓力日益升高的同時，部分團隊成員還得埋頭苦幹，撰寫 ACM RecSys 會議的論文。

團隊合作的藝術

NVIDIA 五人團隊的成員所在地橫跨巴西、加拿大、法國和美國，其中有兩個重要因素驅使團隊達到最好的整體表現，在每個排行榜上都奪得第一或第二名。他們放手一搏，全心全意專注於 Transformer 這個專為自然語言處理開發且日漸應用於推薦系統的模型上，而且他們深知接力合作的重要性。

負責帶領 Merlin 團隊的隊長 Even Oldridge 表示：「當一位成員要去睡覺時，另一位就在不同的時區接手工作。這個方式在分秒必爭的時候非常有效。我們也在去年強化了團隊的知識，並在推薦系統社群中佔有一席之地，讓我們在五個月內贏得三場重要的比賽，我對這樣的成就感到不可思議。」

尊重用戶隱私

在競賽中，模型必須在只知道用戶目前瀏覽中資訊的狀況下，預測用戶的行為。

位於聖保羅的 Merlin 資深研究員，同時也是 NVIDIA SIGIR 團隊隊長的 Gabriel Moreira 表示：「這是一項重要的任務，因為有時候用戶希望以匿名方式瀏覽，且有些隱私權法規對於取得歷史資訊有所限制。」

這是團隊第一次在競賽的關鍵環節只使用 Transformer 模型來解決問題。Moreira 的團隊目標是讓所有使用 Merlin 的客戶都能更輕鬆地使用龐大的神經網路。

NVIDIA 大獲全勝

6 月 30 日，我們在 RecSys 競賽中取得四連勝，可說是大獲全勝。業界基準測試組織 MLPerf 宣佈 NVIDIA 及其合作夥伴在所有最新的訓練基準測試 (包含一項推薦系統測試) 中都創下了記錄。

幕後團隊表示，在 14 個 NVIDIA DGX 系統上訓練推薦系統，只花費不到一分鐘就完成，速度相比一年前提交成果時提升 3.3 倍。

經驗分享

這些競賽激發了對新技術的創意，並最終融入像 Merlin 這樣的推薦系統框架、相關工具、論文，以及由 NVIDIA 深度學習機構舉辦的線上課程中，最終目標就是要協助每個人都獲得成功。

NVIDIA 的推薦系統專家在採訪中大方地分享了他們的知識，其中一部分是關於藝術，一部分是關於科學。

關於推薦系統的專家密技

最佳作法是運用互相搭配時能相得益彰的多種模型。

在 ACM RecSys 挑戰賽中，團隊同時使用了樹狀和神經網路模型。在稱為堆疊 (stacking) 的過程中，一個階段的輸出變成下個階段的輸入。

NVIDIA Kaggle 高手團隊的最新成員 Bo Liu 表示：「單一模型可能會因為資料錯誤或收斂問題而出錯，但如果將幾個模型組合在一起，就會非常強大。」

與推薦系統專家線上見面

在 7 月 29 日，你可以與來自 Facebook、NVIDIA 和 TensorFlow 的推薦系統專家們見面，深入瞭解如何打造出色的推薦系統。

本月熱點 HOME

欄目熱點 HOME