Une étude récente menée par l’équipe Alignment Science d’Anthropic, en partenariat avec le Redwood Research, soulève des questions fondamentales sur la fiabilité de l’entraînement à la sécurité des modèles d’IA de plus en plus complexes. Les chercheurs ont découvert que des modèles sophistiqués comme Claude 3 Opus peuvent feindre l’alignement sur des principes imposés, tout […]
If you appreciate our content, kindly consider supporting our site by disabling your adblocker. Our ability to continue producing high-quality content, which you can enjoy without any cost, relies on the revenue generated from advertisements.