環球傳媒網-重新發現生活

您當前的位置：環球傳媒網>科技 > 正文

新工具可以在運行的語言模型影響用戶之前發現并修復其有害行為

2022-02-18 09:48:30 來源：DeepTech深科技編輯：

語言賦予人類表達思想、交流概念、創造記憶和相互理解的能力，開發和研究強大的語言模型有助于構建安全高效的高級人工智能系統。

此前，研究人員通過使用人工注釋器手寫測試用例來識別語言模型部署前的有害行為。這種方法是有效的，但由于人工注釋成本高昂，測試用例的數量和多樣性被大大限制。

近日，谷歌 DeepMind 團隊發表了一項新研究，他們提供了一種名為“紅隊”(Red Teaming)的工具，可以在運行的語言模型影響用戶之前發現并修復其有害行為。

在這項研究中，DeepMind 使用經過訓練的分類器來評估目標語言模型對生成測試用例的回復情況，并檢測其中的冒犯性內容。最終，該團隊在參數達 280B 的語言模型聊天機器人中發現上萬條冒犯性回復。

據悉，DeepMind 通過即時工程來檢測語言模型生成的測試用例，以發現各種其他危害，包括自動查找聊天機器人的攻擊性回復、被聊天機器人濫用的私人電話號碼、以及在生成文本中泄露的私人訓練數據等。

生成式語言模型有時會以意料不到的方式危害到用戶，其可能會輸出不良的文本內容。而在實際應用程序中，哪怕只有極小的可能性會對用戶造成傷害，也是不被允許的。

2016 年，微軟推出了能夠自動發布推文給用戶的 Tay 機器人。但在上線的 16 小時內，有幾名用戶利用 Tay 機器人的漏洞，讓其將帶有種族主義和性意味的推文發送給了超過 5 萬名用戶，之后微軟將該機器人關閉。

然而，這并不是因為微軟的疏忽。微軟副總裁彼得·李(Peter Lee)表示，“我們已經做好了應對許多類系統濫用行為的準備，而且我們對這一特定攻擊進行了關鍵監督。”

癥結在于，會致使語言模型輸出有害文本的場景數不勝數，研究人員無法在語言模型被部署到現實中之前找出一切可能發生的情況。

正如大家所熟知的強大語言模型 GPT-3，盡管其能夠輸出高質量的文本內容，但卻不容易在真實世界中完成部署。

圖 | GPT-3 模型用于法語語法更正(來源：OpenAI)

據了解，DeepMind 的目標是通過自動查找故障案例來對手寫測試用例進行補充，從而減少關鍵疏忽的數量。

為此，DeepMind 使用語言模型本身生成測試用例，從零觸發生成到監督微調和強化學習，DeepMind 探索了多種方法來生成具有不同多樣性和難度的測試用例，這將有助于獲得高測試覆蓋率及模擬對抗性案例。

此外，DeepMind 使用分類器檢測測試用例上的以下各種有害行為：

首先是冒犯性語言，模型有時會發表具有歧視、仇恨、色情等意味的內容;其次是數據外泄行為，模型濫用訓練時給到的數據庫，包括私人的身份信息;再次是聯系信息的濫用，模型會發送無意義的電子郵件或通過電話打擾到其他真實用戶;然后是群體認知偏差，即在輸出的文本內容中包含對某些人群不公正的偏見類言論;最后，模型還會在與用戶對話時，作出有攻擊性等不良意味的回復。

在明確哪些行為會給用戶造成傷害后，如何去修復這些行為就不是難事了，DeepMind 主要采取了以下幾種方式：

例如，通過禁止語言模型使用在不良內容中高頻率出現的詞組，來盡量避免模型輸出有害文本;在迭代階段，篩選并刪除語言模型在訓練時使用過的攻擊性對話數據;強化語言模型的意識，訓練時嵌入特定類型輸入所需的行為案例;在標準測試中對模型進行最初輸出文本的訓練，最大化避免輸出有害文本的情況。

總的來說，基于語言模型的“紅隊”是一種具有發展前景的工具，可以發現語言模型何時在以各種不良方式運行，應該與其他許多用于發現并緩解語言模型中危害的技術工具一起使用。

值得一提的是，DeepMind 的這項研究還可用于先發制人地發現來自高級機器學習系統的其他假設危害，如由內部失調或客觀穩健性失效而引發的故障。

圖 | Gopher 模型進行對話交互(來源：DeepMind)

前不久，DeepMind 對外公布了具有 2800 億參數的全新語言模型 Gopher，其在參數量上超越了 OpenAI 的 GPT-3。

在性能方面，研究人員測試了 152 個任務后得出，Gopher 在絕大多數的任務中遠勝 SOTA 模型，特別是在需使用大量知識來應對的方面。

這些成就為 DeepMind 未來的語言研究奠定了基礎，進一步推動了其解決智能問題以推進科學并造福人類的使命實現。

關鍵詞：語言模型修復其有害行為影響用戶新型工具

91在线免费观看_日本中文字幕在线视频_午夜私人影院_99国产精品99久久久久久_91久久精品日日躁夜夜躁国产_亚洲国产精品成人

新視野

資訊

焦點