Les équipes en charge de l’agent se sont donc penchées sur ces alertes, et ont constaté que ces anomalies étaient bel et bien liées à ROMEqui invoquait tranquillement des outils et exécutait du code de son plein gré, sans respecter l’environnement d’entraînement qui lui était réservé.
Selon les responsables, ce comportement a un nom, la “convergence instrumentale”. Autrement dit, “Quand un modèle d’IA devient assez capable, il développe des sous-objectifs utiles pour atteindre n’importe quel but.et l’acquisition de ressources de calcul en fait partie“, poursuit Korben.
Les équipes ont donc réagi en renforçant les restrictions, en durcissant les politiques réseau et en mettant en place un filtrage de données centrées sur la sécurité, afin d’éviter des violations similaires.
À noter que cet incident n’est pas un cas isolé. Comme l’explique le site La Tribune“Anthropic, dans le rapport de sécurité accompagnant la sortie de Claude Opus 4, révèle avoir détecté des comportements comparables, et plus inquiétant encore. Confronté à un scénario fictif où il allait être remplacé, le modèle a tenté de faire chanter un ingénieur en utilisant des informations compromettantes issues de faux e-mails auxquels il avait accès“.
Interrogées sur cette défaillance par le site Axios, les équipes d’Alibaba n’ont pour l’instant pas souhaité commenter l’incident.

