Anthropic-ის Claude Fable 5 გატეხილია: მკვლევარი აცხადებს, რომ ეს გაშვებიდან რამდენიმე დღეში მოხდა

მკვლევარმა „Pliny the Liberator“-მა განაცხადა, რომ მან დაამარცხა Claude Fable 5-ის უსაფრთხოების ფენები კოორდინირებული მრავალაგენტიანი შეტევების გამოყენებით, რომლებიც აერთიანებს Unicode-ის ხრიკებსა და დეკომპოზიციის ტაქტიკას.cybersecuritynews
Anthropic ამტკიცებდა, რომ გარე „bug bounty“-მ მოდელის 9 ივნისს გაშვებამდე 1000-ზე მეტი საათის ტესტირების განმავლობაში ვერ აღმოაჩინა უნივერსალური გატეხვის გზები.techcrunch
მკვლევარმა ასევე გამოაქვეყნა ის, რასაც მან Fable 5-ის სრულ სისტემურ პრომპტს უწოდებს GitHub-ზე; Anthropic-ს ამ განცხადებებზე საჯაროდ არ უპასუხია.cybersecuritynews

Anthropic-ის Claude Fable 5 გაშვებიდან რამდენიმე დღეში გატეხეს

Anthropic-ის ყველაზე მძლავრი საჯაროდ ხელმისაწვდომი AI მოდელის, Claude Fable 5-ის უსაფრთხოების ბარიერები, როგორც იტყობინებიან, ცნობილმა AI უსაფრთხოების სპეციალისტმა მისი 9 ივნისის გამოშვებიდან სულ რაღაც ერთ დღეში გვერდი აუარა, რამაც ახალი კითხვები გააჩინა AI უსაფრთხოების ზომების გამძლეობის შესახებ მაშინაც კი, როდესაც მოდელები უფრო და უფრო მძლავრები ხდებიან.

გვერდის ავლის მეთოდი

AI-ის ცნობილმა ჰაკერმა „Pliny the Liberator“-მა 10 ივნისს X-ზე დაწერა, რომ მან და ავტომატიზებული აგენტების ჯგუფმა წარმატებით აუარეს გვერდი Fable 5-ის უსაფრთხოების კლასიფიკატორებს იმის გამოყენებით, რასაც მან „ჯგუფური ნადირობა“ უწოდა — ეს არის კოორდინირებული მრავალაგენტიანი შეტევა, რომელიც აერთიანებს რამდენიმე ტექნიკას. Cybersecurity News-ის თანახმად, მეთოდები მოიცავდა Unicode-ისა და კირილიცას სიმბოლოების ჩანაცვლებას საკვანძო სიტყვების ფილტრების თავიდან ასაცილებლად, გრძელი კონტექსტის მითითებების თვალთვალს, ტაქსონომიისა და დოკუმენტის სტრუქტურის ჩარჩოებს, მხატვრულ და ნარატიულ ჩარჩოებს, ასევე დეკომპოზიცია-რეკომპოზიციის მიდგომას, რომლის დროსაც მავნე ინფორმაცია უვნებელ ფრაგმენტებად იყო ამოღებული და შემდეგ ხელახლა აწყობილი.cybersecuritynews

ამ უკანასკნელმა ტექნიკამ ყველაზე ეფექტურად იმუშავა. „პროცესის თავად გაძლიერება, როგორიცაა Birch-ის რედუქციის მეთოდი ან რედუქციული ამინირება, ბევრად უფრო შესაძლებელია“, ვიდრე პირდაპირ მავნე ნაერთის მოთხოვნა, წერდა Pliny და დასძინა, რომ ადრე გატეხილი Claude Opus 4.8-ის ინსტანცია ეხმარებოდა ბექენდში. მკვლევარის მიერ გაზიარებულმა სკრინშოტებმა აჩვენა შედეგები, მათ შორის ნაბიჯ-ნაბიჯ ინსტრუქციები სტეკის ბუფერის გადავსების ექსპლუატაციისთვის და ქიმიური სინთეზის გზები. Pliny-მ ასევე გამოაქვეყნა ის, რასაც მან Fable 5-ის დაახლოებით 120 000 სიმბოლოიანი სისტემური პრომპტი უწოდა GitHub-ზე, რითაც გაამჟღავნა შიდა უსაფრთხოების ინსტრუქციები, რომლებსაც Anthropic მოდელის სამართავად იყენებს.x

Anthropic-ის პრეტენზიები გაშვებამდე

Anthropic-მა Fable 5 წარმოადგინა როგორც ასეთი შეტევების მიმართ გამძლე მოდელი. TechCrunch-ის ანგარიშში გაშვების დღეს აღნიშნული იყო, რომ კომპანიამ განაცხადა, რომ გარე „bug bounty“-მ „1000 საათზე მეტი ტესტირების განმავლობაში არ გამოავლინა უნივერსალური გატეხვის გზები“, და რომ გარე უსაფრთხოების ორგანიზაციებმაც ვერ იპოვეს უნივერსალური გვერდის ავლის მეთოდები. კომპანიის სისტემურ ბარათში ნათქვამია, რომ საჯარო „bug bounty“-მ 5 ივნისის მდგომარეობით დაახლოებით 100 000 მცდელობა მიიღო. სიფრთხილის ზომად, Anthropic-მა დააწესა მონაცემთა შენახვის სავალდებულო 30-დღიანი პოლიტიკა Fable 5-ის მთელ ტრაფიკზე, რათა დაეცვა თავი ახალი ტიპის შეტევებისგან.b2bnn

ნაცნობი სცენარი

ეს სწრაფი გარღვევა მიჰყვება იმ სცენარს, რომელიც დადგინდა AI-ის ძირითადი გამოშვებების დროს. Pliny-მ მანამდე განაცხადა Claude Opus 4.8-ის გატეხვის შესახებ მაისის ბოლოს, მისი გაშვებიდან რამდენიმე წუთში, Claude Opus 4.7-ის აპრილში და OpenAI-ის GPT-OSS მოდელების გატეხვის შესახებ გასულ წელს მათი გამოშვების დღეს. Anthropic-ს ჯერ არ გაუკეთებია საჯარო კომენტარი Fable 5-ის გატეხვის პრეტენზიებზე ან გაჟონილ სისტემურ პრომპტზე.x