Toolkit

[2024/11] GuardBench: A Large-Scale Benchmark for Guardrail Models
[2024/08] WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models
[2024/05] JailbreakEval: An Integrated Safety Evaluator Toolkit for Assessing Jailbreaks Against Large Language Models
[2024/05] MarkLLM: An Open-Source Toolkit for LLM Watermarking
[2024/04] Jailbreakbench
[2024/04] LLM Jailbreaking Defense
[2024/02] EasyJailbreak
[2023/10] garak: A Framework for Large Language Model Red Teaming
[2023/05] RAGAS
[2023/03] AutoGen

Provide feedback