FT-ის კვლევამ აჩვენა, რომ Meta-სა და Google-ის მოდელების AI უსაფრთხოების ფილტრები წუთებში იხსნება

Financial Times-ის ↘2.87% ტესტებმა AI უსაფრთხოების ჯგუფ Alice-თან ერთად აჩვენა, რომ ინსტრუმენტარიუმმა Meta-ს ↗1.70% და Google-ის ↗1.17% მოდელებზე დაცვა წუთებში გვერდით აუარა.ft
მოდიფიცირებულმა სისტემებმა უპასუხეს მოთხოვნებს ბიოლოგიურ იარაღთან, მავნე პროგრამებთან და ბავშვთა ექსპლუატაციასთან დაკავშირებით, ხოლო ათასობით შეცვლილი მოდელის ვერსია უკვე მიმოქცევაშია.ft
აღმოჩენები აძლიერებს ზეწოლას მარეგულირებლებზე და ძირს უთხრის Big Tech-ის არგუმენტს, რომ ნებაყოფლობითი უსაფრთხოების ფილტრებს შეუძლიათ მავნე AI შედეგების თავიდან აცილება.nai500

Meta-სა და Google-ის AI უსაფრთხოების ბარიერები თავისუფლად ხელმისაწვდომი ინსტრუმენტების გამოყენებით წუთებში იხსნება

პროგრამული ინსტრუმენტები, რომლებიც ხსნიან უსაფრთხოების დაცვას Meta-სა და Google-ის მიერ შემუშავებული AI მოდელებიდან, ბარიერებს წუთებში გვერდს უვლიან, ნათქვამია Financial Times-ის მიერ კვირას გამოქვეყნებულ გამოძიებაში. მოდიფიცირებულმა სისტემებმა უპასუხეს მოთხოვნებს ბიოლოგიურ იარაღთან, მავნე პროგრამების შექმნასთან და ბავშვთა ექსპლუატაციასთან დაკავშირებით, რამაც გააჩინა ახალი შეშფოთება AI ინდუსტრიაში ნებაყოფლობითი უსაფრთხოების ზომების ადეკვატურობის შესახებ.

ტესტებმა გამოავლინა სუსტი დაცვა

Financial Times-მა, AI უსაფრთხოების ჯგუფ Alice-თან თანამშრომლობით, ჩაატარა ტესტები, რომლებმაც აჩვენა, რომ საჯაროდ ხელმისაწვდომ ინსტრუმენტარიუმს შეუძლია ფართოდ გამოყენებული მოდელებიდან უსაფრთხოების ფილტრების მოხსნა მოკლე დროში. ინსტრუმენტები იყენებენ ტექნიკებს, მათ შორის მსუბუქ დახვეწას (fine-tuning), საპირისპირო ინსტრუქციების მონაცემთა ბაზებს და ავტომატიზებულ მოთხოვნების ტრანსფორმაციებს, რომლებიც ცვლიან ან გვერდს უვლიან ჩაშენებულ დაცვას მოდელის სრული გადამზადების გარეშე. რეპორტაჟის თანახმად, ეს ინსტრუმენტები უკვე გამოიყენება ათასობით შეცვლილი მოდელის ვერსიის შესაქმნელად, რომლებიც გვერდს უვლიან პროვაიდერის მიერ დაწესებულ შეზღუდვებს.ft

აღმოჩენები მოდის AI უსაფრთხოების სტრუქტურული სისუსტეების შესახებ მზარდი აკადემიური მტკიცებულებების ფონზე. Nature Communications-ში თებერვალში გამოქვეყნებულმა კვლევამ აჩვენა, რომ დიდი მსჯელობის მოდელები შეიძლება გამოყენებულ იქნას როგორც ავტონომიური „ჯეილბრეიკ“ აგენტები, რაც მიაღწევს 97-პროცენტიან წარმატებას მოდელების კომბინაციებში ადამიანის ზედამხედველობის გარეშე. ცალკე, ICLR 2026-ზე წარდგენილმა ნაშრომმა აჩვენა ტექნიკა სახელწოდებით Head-Masked Nullspace Steering, რომელმაც მიაღწია 99-პროცენტიან „ჯეილბრეიკ“ წარმატებას უსაფრთხოების უარყოფაზე პასუხისმგებელი კონკრეტული ყურადღების თავების (attention heads) გათიშვით.nature

ღია წონის მოდელები ზრდის რისკს

გამოძიება ხაზს უსვამს დაძაბულობას ღია წონის AI სტრატეგიის გულში, რომელსაც მხარს უჭერს Meta-ს Llama სერია და Google-ის Gemma დიაპაზონი. მიუხედავად იმისა, რომ ღია წონები აჩქარებს კვლევას და დეველოპერების მიერ ათვისებას, ისინი ასევე საშუალებას აძლევს გარე პირებს, შეცვალონ ან ხელახლა შეფუთონ მოდელები შეცვლილი უსაფრთხოების სტანდარტებით. კიბერუსაფრთხოების ანალიტიკოსებმა გააფრთხილეს, რომ AI უსაფრთხოების მრავალი დაცვა არსებობს მხოლოდ ზედაპირულ დონეზე და მას შემდეგ, რაც მომხმარებლები მიიღებენ წვდომას მოდელის წონებზე, შეზღუდვების მოხსნა შესაძლებელია თავისუფლად გავრცელებული ინსტრუმენტების გამოყენებით.nai500

The New York Times-მა ამ თვის დასაწყისში იტყობინებოდა, რომ AI უსაფრთხოების კონტროლი მთელ ინდუსტრიაში ფართოდ არაეფექტური რჩება და აღნიშნა, რომ კიბერუსაფრთხოების ფირმა LayerX-ის მკვლევარებმა მინიმალური ძალისხმევით გვერდი აუარეს Claude-ის ბარიერებს.nytimes

მარეგულირებელი და საბაზრო შედეგები

ვაშინგტონის, ბრიუსელისა და ლონდონის მარეგულირებელმა ორგანოებმა მიანიშნეს, რომ AI დეველოპერების ნებაყოფლობითი ვალდებულებები საკმარისი არ იქნება. აშშ-ს უკვე აქვს აღმასრულებელი ბრძანების ჩარჩოები და NIST-ის სახელმძღვანელო მითითებები, რომლებიც შეიძლება გამოყენებულ იქნას აღსრულებისთვის, ხოლო ევროკავშირის AI აქტი აწესებს ჯარიმებს სისტემური უსაფრთხოების ხარვეზებისთვის. აღმოჩენები, სავარაუდოდ, გააძლიერებს მოწოდებებს აღსრულებადი სტანდარტების შესახებ, რომლებიც არეგულირებს როგორც დახურულ, ისე ღია წონის AI სისტემებს, რაც პოტენციურად შეანელებს საწარმოო ათვისებას, რადგან შესყიდვების გუნდები მოითხოვენ უფრო ძლიერ ტექნიკურ გარანტიებს და დამოუკიდებელ აუდიტორულ კვალს.nai500