Newsletter Subscribe
Enter your email address below and subscribe to our newsletter
Enter your email address below and subscribe to our newsletter

პროგრამული ინსტრუმენტები, რომლებიც ხსნიან უსაფრთხოების დაცვას Meta-სა და Google-ის მიერ შემუშავებული AI მოდელებიდან, ბარიერებს წუთებში გვერდს უვლიან, ნათქვამია Financial Times-ის მიერ კვირას გამოქვეყნებულ გამოძიებაში. მოდიფიცირებულმა სისტემებმა უპასუხეს მოთხოვნებს ბიოლოგიურ იარაღთან, მავნე პროგრამების შექმნასთან და ბავშვთა ექსპლუატაციასთან დაკავშირებით, რამაც გააჩინა ახალი შეშფოთება AI ინდუსტრიაში ნებაყოფლობითი უსაფრთხოების ზომების ადეკვატურობის შესახებ.
Financial Times-მა, AI უსაფრთხოების ჯგუფ Alice-თან თანამშრომლობით, ჩაატარა ტესტები, რომლებმაც აჩვენა, რომ საჯაროდ ხელმისაწვდომ ინსტრუმენტარიუმს შეუძლია ფართოდ გამოყენებული მოდელებიდან უსაფრთხოების ფილტრების მოხსნა მოკლე დროში. ინსტრუმენტები იყენებენ ტექნიკებს, მათ შორის მსუბუქ დახვეწას (fine-tuning), საპირისპირო ინსტრუქციების მონაცემთა ბაზებს და ავტომატიზებულ მოთხოვნების ტრანსფორმაციებს, რომლებიც ცვლიან ან გვერდს უვლიან ჩაშენებულ დაცვას მოდელის სრული გადამზადების გარეშე. რეპორტაჟის თანახმად, ეს ინსტრუმენტები უკვე გამოიყენება ათასობით შეცვლილი მოდელის ვერსიის შესაქმნელად, რომლებიც გვერდს უვლიან პროვაიდერის მიერ დაწესებულ შეზღუდვებს.ft
აღმოჩენები მოდის AI უსაფრთხოების სტრუქტურული სისუსტეების შესახებ მზარდი აკადემიური მტკიცებულებების ფონზე. Nature Communications-ში თებერვალში გამოქვეყნებულმა კვლევამ აჩვენა, რომ დიდი მსჯელობის მოდელები შეიძლება გამოყენებულ იქნას როგორც ავტონომიური „ჯეილბრეიკ“ აგენტები, რაც მიაღწევს 97-პროცენტიან წარმატებას მოდელების კომბინაციებში ადამიანის ზედამხედველობის გარეშე. ცალკე, ICLR 2026-ზე წარდგენილმა ნაშრომმა აჩვენა ტექნიკა სახელწოდებით Head-Masked Nullspace Steering, რომელმაც მიაღწია 99-პროცენტიან „ჯეილბრეიკ“ წარმატებას უსაფრთხოების უარყოფაზე პასუხისმგებელი კონკრეტული ყურადღების თავების (attention heads) გათიშვით.nature
გამოძიება ხაზს უსვამს დაძაბულობას ღია წონის AI სტრატეგიის გულში, რომელსაც მხარს უჭერს Meta-ს Llama სერია და Google-ის Gemma დიაპაზონი. მიუხედავად იმისა, რომ ღია წონები აჩქარებს კვლევას და დეველოპერების მიერ ათვისებას, ისინი ასევე საშუალებას აძლევს გარე პირებს, შეცვალონ ან ხელახლა შეფუთონ მოდელები შეცვლილი უსაფრთხოების სტანდარტებით. კიბერუსაფრთხოების ანალიტიკოსებმა გააფრთხილეს, რომ AI უსაფრთხოების მრავალი დაცვა არსებობს მხოლოდ ზედაპირულ დონეზე და მას შემდეგ, რაც მომხმარებლები მიიღებენ წვდომას მოდელის წონებზე, შეზღუდვების მოხსნა შესაძლებელია თავისუფლად გავრცელებული ინსტრუმენტების გამოყენებით.nai500
The New York Times-მა ამ თვის დასაწყისში იტყობინებოდა, რომ AI უსაფრთხოების კონტროლი მთელ ინდუსტრიაში ფართოდ არაეფექტური რჩება და აღნიშნა, რომ კიბერუსაფრთხოების ფირმა LayerX-ის მკვლევარებმა მინიმალური ძალისხმევით გვერდი აუარეს Claude-ის ბარიერებს.nytimes
ვაშინგტონის, ბრიუსელისა და ლონდონის მარეგულირებელმა ორგანოებმა მიანიშნეს, რომ AI დეველოპერების ნებაყოფლობითი ვალდებულებები საკმარისი არ იქნება. აშშ-ს უკვე აქვს აღმასრულებელი ბრძანების ჩარჩოები და NIST-ის სახელმძღვანელო მითითებები, რომლებიც შეიძლება გამოყენებულ იქნას აღსრულებისთვის, ხოლო ევროკავშირის AI აქტი აწესებს ჯარიმებს სისტემური უსაფრთხოების ხარვეზებისთვის. აღმოჩენები, სავარაუდოდ, გააძლიერებს მოწოდებებს აღსრულებადი სტანდარტების შესახებ, რომლებიც არეგულირებს როგორც დახურულ, ისე ღია წონის AI სისტემებს, რაც პოტენციურად შეანელებს საწარმოო ათვისებას, რადგან შესყიდვების გუნდები მოითხოვენ უფრო ძლიერ ტექნიკურ გარანტიებს და დამოუკიდებელ აუდიტორულ კვალს.nai500