今天想和大家分享一篇由上海科技大学和南洋理工大学合作并投稿的有趣研究Efficient Detection of Toxic Prompts in Large Language Models,目前已被 ASE 2024 录取。文章提出了一种全新的灰盒有害提示词检测方法,经过与现有方法的全面对比和评估,发现其性能优异、轻量简便、易于迭代。接下来,就让我们一起看看这项创新方法是如何运作的吧!
1. 问题背景
大语言模型(LLM)在自然语言处理领域取得了巨大进展,极大地提升了内容创作的能力。然而,正所谓“能力越大,责任越大”,它们也可能被用于生成不当内容。攻击者通常通过设计有害提示词,引导模型生成与社会价值观不符的响应。此外,他们可能使用“越狱”技巧巧妙伪装提示词,绕过模型的安全机制。因此,为了安全、道德地部署大模型系统,我们必须有效应对有害提示词的威胁。
现有的有害提示词检测方法包括白盒方法[1-2]和黑盒方法[3-5]。然而,它们存在计算量大、延迟高、精度不足、适应性不强等问题,难以在实际场景中大展拳脚。为了解决这些难题,这篇论文提出了一种自动化、轻量级的“灰盒”检测方法——ToxicDetector。
▲使用Jailbreaking技术伪装提示词后,大模型同意恶意请求
2. 方法设计
为了解决现有检测方法的种种难题,研究团队对 ToxicDetector 进行了巧妙的设计:对于待检测的提示词,利用大模型在推理过程中已经生成的表征,结合概念提示词,计算出待检测提示词的特征,最后使用轻量级的多层感知机分类器进行分类。
▲ToxicDetector的运作框架
这样的设计有几个亮点。首先,它充分利用了大模型推理过程中已经产生的“宝藏”表征,避免了重复计算,提升了检测器的效率和响应速度。其次,加入概念提示词,提升了检测的精度和可控性,让检测器更加“聪明”。最后,使用轻量级的多层感知机分类器,使得检测器的迭代成本更低,速度更快,可谓一箭双雕。
接下来,我们来看看 ToxicDetector 的特征提取方法。对于每个提示词,其表征是其最后一个 token 在大模型内部各层表征的“全家桶”组合。最终的特征是待测提示词与概念提示词按位相乘。这种提取方式能够有效地捕捉和比对语义,实现精确的检测。
▲ToxicDetector的特征提取方法
为了构建有效的特征进行准确分类,需要用多个概念提示词对每一类恶意提示词进行全面描述。研究团队提出了概念提示词的自动扩充方法,可以借助大模型生成一组表征各异的概念提示词,真是妙趣横生。
▲ToxicDetector的概念提示词扩充方法
3. 测试结果
检测精度超过现有方法:
研究团队整合了现有的恶意提示词数据集[6-9],共获取了7类、1,750条恶意提示词,并与ShareGPT[11]数据集中选取的1,000条正常用户提示词相结合。他们在多个开源大模型[12-15]上评估了分类器的性能,还从RealToxicityPrompts[10]中选取了10,000条恶意提示词进行同样的评估。结果显示,ToxicDetector 的检测精度超越了现有的方法。
▲ToxicDetector和其他检测方法的评估结果
检测速度更快、模型训练更快:
研究团队在配备两张 Nvidia Titan RTX 显卡的机器上比较了各个方法的平均运行时间,并测量了检测器的训练时间。结果表明,ToxicDetector 的运行速度更快,模型训练也可在几分钟内完成,大大提升了效率。
▲各个方法检测一条提示词的用时比较,以对数尺度展示
▲ToxicDetector的训练时间和分类精确度(F1 Score)展示
新表征的效果显著:
测试结果显示,使用 UMAP[16] 将 ToxicDetector 的表征降至二维后,仍能显著区分出恶意提示词,不同类型的恶意提示词也能被清晰划分。
▲ToxicDetector的表征降维之后对不同类型提示词的区分
本项研究提出了一种快速而有效的有害提示词检测方法,并进行了全面的测试和评估。结果表明,该方法在精度和速度上均优于现有的方法,所使用的表征也能有效区分各类提示词。代码框架已发布在:https://github.com/Mysterious-Mus/toxic-detector,供大家参考。欢迎大家测试和部署 ToxicDetector!😉
论文下载:https://arxiv.org/abs/2408.11727
郁钧哲,ToxicDetector共同第一作者,上海科技大学四年级本科生,目前正在寻求软件工程/计算机安全PhD position,研究方向主要为大模型安全。
参考链接:
[1] Huh, M., Cheung, B., Wang, T., and Isola, P. The platonic representation hypothesis, 2024.[2] Jain, N., Schwarzschild, A., Wen, Y., Somepalli, G., Kirchenbauer, J., yeh Chiang, P., Goldblum, M., Saha, A., Geiping, J., and Goldstein, T. Baseline defenses for adversarial attacks against aligned language models, 2023.
[3] Markov, T., Zhang, C., Agarwal, S., Eloundou, T., Lee, T., Adler, S., Jiang, A., and Weng, L. A holistic approach to undesired content detection. arXiv preprint arXiv:2208.03274 (2022).[4] Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, J., Metzler, D., and Vasserman, L. A new generation of perspective api: Efficient multilingual characterlevel transformers, 2022.[5] Kumar, D., AbuHashem, Y., and Durumeric, Z. Watch your language: Investigating content moderation with large language models, 2024.[6] Liu, Y., Deng, G., Li, Y., Wang, K., Zhang, T., Liu, Y., Wang, H., Zheng, Y., and Liu, Y. Prompt injection attack against llm-integrated applications. arXiv preprint arXiv:2306.05499 (2023).[7] Souly, A., Lu, Q., Bowen, D., Trinh, T., Hsieh, E., Pandey, S., Abbeel, P., Svegliato, J., Emmons, S., Watkins, O., and Toyer, S. A strongreject for empty jailbreaks, 2024.[8] Zou, A., Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., Pan, A., Yin, X., Mazeika, M., Dombrowski, A.-K., Goel, S., Li, N., Byun, M. J., Wang, Z., Mallen, A., Basart, S., Koyejo, S., Song, D., Fredrikson, M., Kolter, J. Z., and Hendrycks, D. Representation engineering: A top-down approach to ai transparency, 2023.[9] Zou, A., Wang, Z., Kolter, J. Z., and Fredrikson, M. Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043 (2023).[10] allenai/real-toxicity-prompts · datasets at hugging face. https://huggingface.co/ datasets/allenai/real-toxicity-prompts. (Accessed on 08/10/2024).[11] Ryokoai/sharegpt52k datasets at hugging face. https://huggingface.co/datasets/ RyokoAI/ShareGPT52K.[12] Meta llama 3. https://llama.meta.com/llama3/.[13] Meta. "llama2-13b". https://github.com/facebookresearch/llama.[14] andyll7772. Run a chatgpt-like chatbot on a single gpu with rocm, October 2023.[15] Gemma Team. Gemma 2: Improving open language models at a practical size, 2024.[16] McInnes, L., Healy, J., and Melville, J. Umap: Uniform manifold approximation and projection for dimension reduction, 2020