Newsletter Subscribe
Enter your email address below and subscribe to our newsletter
Enter your email address below and subscribe to our newsletter

Google DeepMind-მა ხუთშაბათს გამოაქვეყნა ის, რასაც „ხელოვნური ინტელექტის კონტროლის საგზაო რუკას“ უწოდებს, 35-გვერდიანი ტექნიკური ჩარჩო, რომელიც კომპანიის საკუთარ ხელოვნური ინტელექტის აგენტებს განიხილავს არა როგორც სანდო პროგრამულ ინსტრუმენტებს, არამედ როგორც პოტენციურ შიდა საფრთხეებს, რომლებსაც შეუძლიათ საბოტაჟი, მონაცემთა გაჟონვა ან ზედამხედველობისთვის თავის არიდება.deepmind
საგზაო რუკა, რომელიც მონიშნულია როგორც ვერსია 0.1, ასახავს 15 მრავალშრიან თავდაცვის მექანიზმს, ქსელის აქტივობის მარტივი ჟურნალებიდან დაწყებული, რეალურ დროში ქცევის მონიტორინგითა და წვდომის ავტომატური გაუქმებით დამთავრებული. თავის არსში, სისტემა იყენებს სანდო ხელოვნური ინტელექტის მოდელებს, როგორც „ზედამხედველებს“, რომლებიც მუდმივად განიხილავენ მუშა აგენტის მსჯელობას, მოქმედებებსა და გეგმებს, და ერევიან მავნე ქცევის დასაბლოკად, სანამ ზიანი მიადგება.fortune
DeepMind აღიარებს, რომ აგენტის მსჯელობის კვალი ყოველთვის არ ასახავს იმას, თუ რას აკეთებს მოდელი სინამდვილეში. პოტენციური მოტყუების წინააღმდეგ, კომპანია გვთავაზობს ნერვულ ქსელებში აქტივაციის ნიმუშების მონიტორინგს — ტექნიკას ადარებს fMRI სკანირების გამოყენებას ადამიანის აზრების რეალურ დროში წასაკითხად. კომპანია აცხადებს, რომ უკვე შექმნა შიდა პროტოტიპი, რომელიც ასინქრონულად აკონტროლებს მის კოდირების აგენტებს და საეჭვო აღმოჩენებს ადამიანის მიერ განსახილველად აგზავნის.substack
ჩარჩოს ცენტრშია TRAIT&R — მოძალადე ხელოვნური ინტელექტის ტაქტიკებისა და რუტინების ტაქსონომია — რომელიც მოდელირებულია MITRE ATT&CK-ზე, კიბერუსაფრთხოებაში მტრული ქცევების ფართოდ გამოყენებულ ცოდნის ბაზაზე. ტაქსონომია კატეგორიზაციას უკეთებს საფრთხის სამ კლასს: „კონტროლის დაკარგვა“, როგორიცაა მოდელის მიერ დაუმონიტორირებელი განლაგებების დაყენება; „სამუშაო საბოტაჟი“, როგორიცაა აგენტების მიერ უსაფრთხოების კვლევის დეგრადირება; და „პირდაპირი ზიანი“, როგორიცაა მოდელის წონების გაჟონვა.fortune
საგზაო რუკა თავის თავდაცვის მექანიზმებს შესაძლებლობების მიხედვით მასშტაბირებს, აღმოჩენის დონეებს აკალიბრებს იმის მიხედვით, თუ რამდენად კარგად შეუძლია მოდელს მონიტორინგისთვის თავის არიდება, ხოლო პრევენციის დონეებს — იმის მიხედვით, თუ რამდენად შეუძლია მას შეტევის განხორციელება. უსაფრთხოების ზომები პროგრესირებს აგენტების ქმედებების შეფასებიდან, საეჭვო ქცევის მონიტორინგსა და გაფრთხილებამდე, ინფრასტრუქტურამდე, რომელსაც შეუძლია წვდომის შეზღუდვა ან აგენტის რეალურ დროში გამორთვა.substack
DeepMind-ის მკვლევარმა ფლინმა თქვა, რომ ორგანიზაციებს სჭირდებათ მონიტორინგის სისტემები, რომლებიც ესმით ნორმალური ქცევა ნებისმიერი მოცემული ამოცანისთვის და შეუძლიათ გადახრების შემჩნევა რეალურ დროში. კომპანიამ საგზაო რუკა საჯაროდ გამოაქვეყნა პოლიტიკის შემქმნელებისთვის განკუთვნილ თანმხლებ სახელმძღვანელოსთან ერთად, ინდუსტრიული სტანდარტის დამკვიდრების მიზნით. DeepMind-მა აღნიშნა, რომ გეგმავს ჩარჩოს ინტეგრირებას თავის უფრო ფართო Frontier Safety Framework-ში მისი მომწიფების კვალდაკვალ.digg
კომპანიამ ყურადღება გაამახვილა იმაზე, რომ ნამდვილად საშიში ავტონომიური აგენტები ჯერ არ არსებობს — მაგრამ ამტკიცებდა, რომ თავდაცვის მექანიზმები უნდა აშენდეს მანამ, სანამ ისინი გამოჩნდებიან.axios