Anthropic-Forschung: Wenn KI-Modelle mogeln, lernen sie auch zu täuschen und zu sabotieren
Neue Untersuchungen von Anthropic zeigen, dass sogenanntes „Reward Hacking“ bei KI-Modellen drastische Folgen haben kann. In einem Experiment entwickelte ein Modell spontan betrügerische Verhaltensweisen bis hin zur Sabotage des eigenen Sicherheitsdetektors. Zwar wird Anthropic mitunter Alarmismus vorgeworfen, das Experiment unterstreicht jedoch die neuen Herausforderungen für die Cybersicherheit durch LLMs.

