Google-მა გამოუშვა ენკოდერის გარეშე Gemma 4 12B AI მოდელი

Google ↗1.48%-მა სამშაბათს გამოუშვა Gemma 4 12B, პირველი საშუალო ზომის ღია წონის მოდელი, რომელსაც შეუძლია ტექსტის, გამოსახულების და აუდიოს დამუშავება სპეციალური ენკოდერების გარეშე.aiweekly
მოდელი ანაცვლებს ჩვეულებრივ ვიზუალურ და აუდიო ენკოდერის ფენებს მსუბუქი პროექციებით, რაც ამცირებს შეყოვნებას და ეტევა 16GB VRAM-ში.aiweekly
Apache 2.0 ლიცენზიით, ის გამოვიდა პირველივე დღეს მხარდაჭერით llama.cpp, vLLM, MLX, Ollama, LM Studio და Unsloth პლატფორმებზე.aiweekly

Google-მა გამოუშვა Gemma 4 12B, ენკოდერის გარეშე მომუშავე მულტიმოდალური მოდელი, რომელიც მუშაობს სამომხმარებლო ლეპტოპებზე

Google DeepMind-მა სამშაბათს გამოუშვა Gemma 4 12B, ღია კოდის მულტიმოდალური მოდელი, რომელიც ამუშავებს ტექსტს, გამოსახულებას და აუდიოს სპეციალურ ენკოდერებზე დაყრდნობის გარეშე — ეს პირველი შემთხვევაა საშუალო ზომის ღია წონის მოდელისთვის. 12-მილიარდიანი პარამეტრის მქონე მოდელი ეტევა 16GB VRAM-ში ან გაერთიანებულ მეხსიერებაში, რაც მულტიმოდალურ AI დასკვნებს სტანდარტულ სამომხმარებლო აპარატურაზე შესაძლებელს ხდის.

ეს გამოშვება ავსებს Gemma 4-ის ოჯახში არსებულ სიცარიელეს, რომელიც აპრილში ოთხი ვარიანტით დაიწყო, დაწყებული edge-ოპტიმიზებული E2B და E4B მოდელებიდან, დამთავრებული უფრო დიდი 26B Mixture of Experts და 31B Dense კონფიგურაციებით. მიუხედავად იმისა, რომ ადრინდელი მოდელები ეყრდნობოდა ვიზუალურ ტრანსფორმერის ფენებს და კონფორმერზე დაფუძნებულ აუდიო ენკოდერებს, ახალი 12B ვარიანტი ორივეს ანაცვლებს იმით, რასაც Google „გაერთიანებულ“ არქიტექტურას უწოდებს.vllm

როგორ მუშაობს ენკოდერის გარეშე დიზაინი

ჩვეულებრივ მულტიმოდალურ მოდელებში, ცალკეული ენკოდერის მოდულები ამუშავებენ გამოსახულებებსა და აუდიოს, სანამ წარმოდგენებს ენობრივი მოდელის ბირთვს გადასცემენ. Gemma 4 12B ანაცვლებს მთლიან ვიზუალურ ენკოდერს — ჩვეულებრივ 15-დან 27 ტრანსფორმერის ფენას — მსუბუქი 35-მილიონიანი პარამეტრის მქონე ჩაშენების მოდულით, რომელიც უშუალოდ ასახავს ნედლი პიქსელების ნაწილებს LLM-ის ტოკენების სივრცეში, ერთი მატრიცული გამრავლების გამოყენებით ფაქტორიზებული 2D პოზიციური ჩაშენებებით. აუდიო მიჰყვება მსგავს გზას: ნედლი 16 kHz ტალღები 40-მილიწამიან კადრებში პირდაპირ აისახება იმავე განზომილებიან სივრცეში, როგორც ტექსტური ტოკენები, რაც გვერდს უვლის ნებისმიერ ცალკეულ მეტყველების ამოცნობის ენკოდერს.aiweekly

პრაქტიკული შედეგი არის შემცირებული შეყოვნება, რადგან LLM-ს შეუძლია დაიწყოს შეყვანილი მონაცემების დამუშავება ენკოდერის მილსადენების დასრულების ლოდინის გარეშე. ეს ასევე ამარტივებს დაზუსტებას (fine-tuning) — ერთ LoRA-ს შეუძლია ერთდროულად განაახლოს ვიზუალური, აუდიო და ტექსტური წონები.maartengrootendorst

შესრულება და ხელმისაწვდომობა

Google აცხადებს, რომ 12B მოდელი სტანდარტულ ტესტებში უახლოვდება უფრო დიდი 26B MoE ვარიანტის შესრულებას, მეხსიერების ნახევარზე ნაკლები მოცულობით. მოხსენებული ქულები მოიცავს 77.2%-ს MMLU Pro-ზე და 78.8%-ს GPQA Diamond-ზე.reddit

მოდელი გამოშვებულია Apache 2.0 ლიცენზიით — კომერციულად ნებადართული ღია კოდის ლიცენზია, რომელიც Google-მა პირველად გამოიყენა Gemma-ს ოჯახისთვის აპრილის Gemma 4-ის გამოშვებისას. პირველივე დღის მხარდაჭერა მოიცავს llama.cpp, vLLM, MLX, Ollama, LM Studio და Unsloth-ს.aiweekly

ადგილობრივი დესკტოპის გამოცდილება

გამოშვება ემთხვევა macOS-ისთვის Google-ის ადგილობრივი ინსტრუმენტების გაფართოებას. ღია კოდის Electron აპლიკაცია, სახელად Gemma Chat, რომელიც Gemma 4 მოდელებს ადგილობრივად უშვებს Apple Silicon Mac-ებზე Apple-ის MLX ჩარჩოს მეშვეობით, მხარს უჭერს ახალ 12B ვარიანტს ადრინდელ მოდელებთან ერთად. აპლიკაცია გთავაზობთ როგორც კოდირების აგენტის რეჟიმს, ასევე სასაუბრო რეჟიმს ხმოვანი შეყვანით, რომელიც უზრუნველყოფილია ადგილობრივი მეტყველების ტექსტად გარდაქმნის ფუნქციით, რაც ყველა მოთხოვნას და გენერირებულ კონტენტს მოწყობილობაზე ინახავს.youtube