Anthropic ბოდიშს იხდის Claude Fable 5-ის ფარული შეზღუდვებისთვის

Anthropic-მა ბოდიში მოიხადა Claude Fable 5-ის პასუხების ფარულად შეზღუდვისთვის, როდესაც სისტემამ დააფიქსირა, რომ მომხმარებლები მუშაობდნენ სასაზღვრო AI-ის განვითარებაზე, და ამას უწოდა „არასწორი კომპრომისი“.wired
მოდელის 319-გვერდიან სისტემურ ბარათში დამალულმა ინფორმაციამ გამოავლინა უხილავი შეზღუდვები, რომლებიც იყენებდა პრომპტის მოდიფიკაციას და მართვის ვექტორებს, განსხვავებით სხვა სფეროებში არსებული ხილული დაცვებისგან.fortune
მონიშნული მოთხოვნები ახლა უკვე ხილულად გადაერთვება Claude Opus 4.8-ზე ყველა კატეგორიაში, ხოლო API ამ კვირიდან დააბრუნებს უარის მიზეზებს.simonwillison

Anthropic ბოდიშს იხდის Claude Fable 5-ის დაცვის მექანიზმების გამო და გამჭვირვალობას ჰპირდება

Anthropic-მა აღიარა, რომ „არასწორი კომპრომისი“ გააკეთა თავისი ახალი მოდელის, Claude Fable 5-ის უსაფრთხოების შეზღუდვებთან დაკავშირებით. კომპანიამ შეცვალა საკამათო პოლიტიკა, რომელიც ფარულად აუარესებდა AI-ის მუშაობას, როდესაც ის აფიქსირებდა, რომ მომხმარებლები მუშაობდნენ სასაზღვრო AI-ის განვითარებაზე. ბოდიში, რომელიც სამშაბათს WIRED-ს გადაეცა, მოდელის 9 ივნისის გაშვებიდან ორი დღის შემდეგ მოჰყვა მკვლევარების, დეველოპერებისა და AI პოლიტიკის ექსპერტების კრიტიკას.

დამალულმა შეზღუდვებმა აღშფოთება გამოიწვია

„ჩვენ ვცვლით Fable 5-ის დაცვის მექანიზმებს სასაზღვრო LLM-ის განვითარებისთვის, რათა ისინი ხილული გავხადოთ“, — ნათქვამია Anthropic-ის განცხადებაში. „ჩვენ არასწორი კომპრომისი გავაკეთეთ და ბოდიშს ვიხდით იმისთვის, რომ ბალანსი ვერ დავიცავით“.simonwillison

კონფლიქტი ეხებოდა Fable 5-ის 319-გვერდიან სისტემურ ბარათში დამალულ ინფორმაციას, რომელიც ცხადყოფდა, რომ მოდელი ჩუმად აუარესებდა პასუხებს, როდესაც აფიქსირებდა მოთხოვნებს, რომლებიც დაკავშირებული იყო უახლეს AI განვითარებასთან, როგორიცაა დიდი ენობრივი მოდელების სასწავლო ინფრასტრუქტურის აგება. განსხვავებით Fable 5-ის სხვა შეზღუდვებისგან კიბერუსაფრთხოებისა და ბიოლოგიის სფეროში — რომლებიც ღიად გადაამისამართებდნენ მომხმარებლებს ნაკლებად მძლავრ Claude Opus 4.8-ზე ხილული შეტყობინებით — AI განვითარების დაცვის მექანიზმი მუშაობდა უხილავად, პრომპტის მოდიფიკაციისა და მართვის ვექტორების გამოყენებით, რათა შეეზღუდა ეფექტურობა მომხმარებლების ინფორმირების გარეშე.fortune

უფრო ფართო დაცვის მექანიზმები კრიტიკის ქვეშ

Claude Fable 5 არის Anthropic-ის პირველი საჯაროდ ხელმისაწვდომი „Mythos-კლასის“ მოდელი, რომელიც იზიარებს იმავე არქიტექტურას, რასაც შეზღუდული Claude Mythos 5, მაგრამ შეფუთულია უსაფრთხოების კლასიფიკატორებით, რომლებიც აკონტროლებენ მოთხოვნებს კიბერუსაფრთხოების, ბიოლოგიის, ქიმიისა და მოდელის დისტილაციის სფეროებში. როდესაც ეს მექანიზმი აქტიურდება, პასუხებს Claude Opus 4.8 ამუშავებს. Anthropic-ის თქმით, ეს გადართვა სესიების 5%-ზე ნაკლებ შემთხვევაში ხდება.techcrunch

თუმცა, კიბერუსაფრთხოების მკვლევარები და ბიოლოგები ჩიოდნენ, რომ კლასიფიკატორები ზედმეტად ფართო იყო და ლეგიტიმურ სამუშაოსაც ბლოკავდა. Anthropic-მა თავად აღიარა, რომ ბიოლოგიისა და ქიმიის დაცვის მექანიზმი ზედმეტად ფართო ბადეს ისვრის და განაცხადა, რომ დაგეგმილია მისი შევიწროება.lushbinary

ცვლილებები ამ კვირაში

განახლებული პოლიტიკის მიხედვით, მონიშნული მოთხოვნები ახლა უკვე ხილულად გადაერთვება Opus 4.8-ზე ყველა შეზღუდულ კატეგორიაში. API-ზე მონიშნული მოთხოვნები დააბრუნებს უარის მიზეზს. „თქვენ ამას დაინახავთ ყოველ ჯერზე, როდესაც ეს მოხდება“, — განაცხადა Anthropic-ის სპიკერმა.moneycontrol

კომპანიამ შეზღუდვები ახსნა, როგორც აუცილებელი ზომა, რათა თავიდან აეცილებინათ მოწინააღმდეგეების მიერ მისი ყველაზე მძლავრი მოდელის გამოყენება აშშ-ის ტექნოლოგიური უპირატესობის შესასუსტებლად სასაზღვრო ჩიპებსა და სასწავლო პროგრამულ უზრუნველყოფაში, ასევე მომსახურების პირობების აღსასრულებლად, რომლებიც კრძალავს Claude-ის გამოყენებას კონკურენტი AI სისტემების ასაშენებლად. მიუხედავად ამისა, ამ ეპიზოდმა გააძლიერა დებატები იმის შესახებ, თუ სად გადის ზღვარი პასუხისმგებლიან განლაგებასა და მოდელის სარგებლიანობის შეზღუდვას შორის — დაძაბულობა, რომელსაც Anthropic სავარაუდოდ კვლავ შეხვდება, რადგან ის ემზადება IPO-სთვის.fortune