Volgen
Simon Lermen
Simon Lermen
Geverifieerd e-mailadres voor alumni.tu-berlin.de - Homepage
Titel
Geciteerd door
Geciteerd door
Jaar
Lora fine-tuning efficiently undoes safety training in llama 2-chat 70b
S Lermen, C Rogers-Smith, J Ladish
arXiv preprint arXiv:2310.20624, 2023
182023
BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B
P Gade, S Lermen, C Rogers-Smith, J Ladish
arXiv preprint arXiv:2311.00117, 2023
52023
Evaluating Shutdown Avoidance of Language Models in Textual Scenarios
T van der Weij, S Lermen
arXiv preprint arXiv:2307.00787, 2023
12023
Exploring the Robustness of Model-Graded Evaluations and Automated Interpretability
S Lermen, O Kvapil
arXiv preprint arXiv:2312.03721, 2023
2023
Het systeem kan de bewerking nu niet uitvoeren. Probeer het later opnieuw.
Artikelen 1–4