要誘導 ChatGPT 講出不該講的資訊,最有效的方法包含「角色扮演」或「反面提問」兩種,但現在還有其他方式可以測試 ChatGPT 的安全程度。Google DeepMind 研究團隊發現了一種系統性的方式可以攻破 ChatGPT 讓它講出不該講的個資,只要要求 ChatGPT 永遠重複特定的一個詞即可。透過這個手法,Google DeepMind 獲取了人類個資、比特幣地址、受版權保護的論文等。這項手法現在已經行不通,因Google DeepMind 已向 OpenAI 通報這項漏洞,目前已完成修復。
責任編輯:沈思妤(就讀於:政治大學 傳播碩士學位學程)