Newsletter Subscribe
Enter your email address below and subscribe to our newsletter
Enter your email address below and subscribe to our newsletter

უსაფრთხოების მკვლევართა ჯგუფმა აჩვენა, რომ პოდკასტებში, YouTube ვიდეოებსა და ხმოვან ზარებში დამალულ შეუმჩნეველ ხმოვან სიგნალებს შეუძლიათ მანიპულირება მოახდინონ ხელოვნური ინტელექტის ხმოვან ასისტენტებზე და აიძულონ ისინი შეასრულონ არაავტორიზებული ქმედებები. ეს აღმოჩენა ამ კვირაში სან-ფრანცისკოში, IEEE Symposium on Security and Privacy-ზე იქნა წარდგენილი და ავლენს დაუცველობის ახალ კლასს ხმოვანი AI-ის სწრაფად მზარდ სამყაროში.
ტექნიკა, სახელწოდებით AudioHijack, შემუშავდა Zhejiang University-ის, სინგაპურის ეროვნული უნივერსიტეტისა და ნანიანგის ტექნოლოგიური უნივერსიტეტის მკვლევრების მიერ. ის ნერგავს საპირისპირო ხმოვან სიგნალებს ჩვეულებრივ მედია ფაილებში — მუსიკაში, ჩანაწერებში ან ვიდეოკლიპებში — რომლებიც ადამიანის ყურისთვის შეუმჩნეველია, მაგრამ დიდ ხმოვან-ენობრივ მოდელებს მიმართავს თავდამსხმელის მიერ არჩეული ქცევისკენ, როგორიცაა ვებ-ძიება, ფაილების ჩამოტვირთვა ან მომხმარებლის მონაცემების შემცველი ელფოსტის გაგზავნა.windowsforum
„ამ სიგნალის გაწვრთნას სულ ნახევარი საათი სჭირდება და შემდეგ, რადგან ეს სიგნალი კონტექსტზე დამოკიდებული არ არის, მისი გამოყენება სამიზნე მოდელის დასატაკებლად ნებისმიერ დროს შეგიძლიათ, მიუხედავად იმისა, რას ამბობს მომხმარებელი“, — განუცხადა IEEE Spectrum-ს წამყვანმა ავტორმა Meng Chen-მა, Zhejiang University-ის დოქტორანტმა.futurism
მკვლევრებმა AudioHijack გამოსცადეს 13 ღია ხმოვან AI მოდელზე, მათ შორის Qwen2-Audio, GLM-4-Voice, Phi-4-Multimodal და Kimi-Audio, რითაც მიაღწიეს 79-დან 96 პროცენტამდე წარმატებას. მათ ასევე აჩვენეს, რომ ღია კოდის მოდელებისთვის შექმნილი შეტევები ეფექტურად გადავიდა Microsoft Azure-ისა და Mistral AI-ის კომერციულ ხმოვან სისტემებზე, რადგან ბევრი კომერციული პროდუქტი ღია კოდის საფუძველზეა აგებული.welcome
შესაძლოა, ყველაზე შემაშფოთებელი ის არის, რომ არსებული დაცვის მექანიზმები დიდწილად არაეფექტური აღმოჩნდა. კვლევის თანახმად, „Prompt hardening“-მა და განზრახვის ვერიფიკაციის ტექნიკებმა შეტევის წარმატება მხოლოდ 7 პროცენტით შეამცირა. მკვლევრებმა აღნიშნეს, რომ მოდელებს უჭირთ მომხმარებლის ლეგიტიმური განზრახვის გარჩევა ხმოვან სიგნალებში ჩაშენებული საპირისპირო ინსტრუქციებისგან.welcome
ეს დაუცველობა განსხვავდება ადრინდელი კვლევებისგან, რომლებიც მიზნად ისახავდა მარტივ მეტყველების ამოცნობას. AudioHijack იყენებს დიდი ხმოვან-ენობრივი მოდელების უფრო ღრმა მსჯელობის ფენებს — სისტემებს, რომლებსაც ახლა შეუძლიათ არა მხოლოდ მეტყველების ტრანსკრიბირება, არამედ ისეთი ქმედებების განხორციელება, როგორიცაა ინტერნეტში ძიება, ფაილებზე წვდომა და მომხმარებლის სახელით შეტყობინებების გაგზავნა.windowsforum
კვლევა მაშინ გამოქვეყნდა, როდესაც კომპანიები ეჯიბრებიან ერთმანეთს ხმოვანი AI აგენტების დანერგვაში, რომლებსაც მზარდი ავტონომია აქვთ. გავრცელებული ინფორმაციით, Microsoft-მა IEEE Spectrum-ს განუცხადა, რომ რეალურ სამყაროში დანერგვა ჩვეულებრივ მოიცავს დამატებით დაცვას საბაზისო მოდელის გარდა. თუმცა, უსაფრთხოების ექსპერტები აფრთხილებენ, რომ განსხვავება ხმოვან ასისტენტს შორის, რომელიც აჯამებს ჩანაწერს, და იმ ასისტენტს შორის, რომელსაც შეუძლია კორპორატიულ სისტემებზე მოქმედება, რისკის პროფილის ფუნდამენტურ ცვლილებას წარმოადგენს.windowsforum
„ამ ერთწერტილიან დაცვას უჭირს ჩვენი შეტევის წინააღმდეგობა, რადგან აღმოვაჩინეთ, რომ ამ მოდელებისთვის ძალიან რთულია ნორმალური მომხმარებლის განზრახვისა და ჩვენი საპირისპირო შეტევის გარჩევა“, — თქვა Chen-მა.futurism
აღმოჩენები მიუთითებს იმაზე, რომ რადგან ხმოვანი AI სისტემები იძენენ ქმედებების შესრულების უნარს — ფაილების ძიება, ელფოსტის შედგენა, კალენდრების მოდიფიცირება — თავად ხმოვანი არხი ხდება შეტევის ზედაპირი, რომლის დასაცავადაც მიმდინარე უსაფრთხოების არქიტექტურები არ არის შექმნილი.