Google-მა გამოუშვა DiffusionGemma, ღია AI მოდელი, რომელიც ტექსტს პარალელურად გენერირებს

Google DeepMind-მა გამოუშვა DiffusionGemma, ღია კოდის მოდელი Apache 2.0 ლიცენზიით, რომელიც დიფუზიაზე დაფუძნებულ დეკოდირებას იყენებს ტექსტური ბლოკების ერთდროულად გენერირებისთვის.letsdatascience
26B Mixture of Experts მოდელი დასკვნის (inference) დროს მხოლოდ 3.8B პარამეტრს ააქტიურებს, რაც კვანტიზაციის შემდეგ სამომხმარებლო GPU-ების 18GB VRAM-ში ეტევა.google
Google აცხადებს, რომ მოდელი ჩამორჩება Gemma 4-ს საორიენტაციო ხარისხით და მიზნად ისახავს მკვლევრებს, რომლებიც სწრაფ ამოცანებს იკვლევენ, როგორიცაა კოდის შევსება და ჩასმული რედაქტირება.letsdatascience

Google DeepMind-მა გამოუშვა DiffusionGemma, ღია მოდელი, რომელიც ტექსტს პარალელურად გენერირებს

Google DeepMind-მა სამშაბათს გამოუშვა DiffusionGemma, ექსპერიმენტული ღია კოდის ენობრივი მოდელი, რომელიც უარს ამბობს ჩვეულებრივი AI სისტემების „თითო-ტოკენი“ მიდგომაზე და სანაცვლოდ ტექსტის მთლიან ბლოკებს ერთდროულად გენერირებს, რაც კომპანიის თქმით, სპეციალიზებულ GPU-ებზე ოთხჯერ უფრო სწრაფ დასკვნას უზრუნველყოფს.

სიჩქარის ახალი არქიტექტურა

სტანდარტული ავტორეგრესიული მოდელებისგან განსხვავებით, რომლებიც ტექსტს თანმიმდევრულად ქმნიან, DiffusionGemma იყენებს დიფუზიაზე დაფუძნებულ დეკოდერს, რომელიც ყოველი წინსვლითი ნაბიჯისას 256 ტოკენს პარალელურად ამზადებს, რაც დასკვნის შეფერხებას მეხსიერების გამტარუნარიანობიდან გამოთვლით სიმძლავრეზე გადააქვს. მოდელი არის 26-მილიარდ-პარამეტრიანი Mixture of Experts დიზაინი, რომელიც დასკვნის დროს მხოლოდ 3.8 მილიარდ პარამეტრს ააქტიურებს, რაც მას საშუალებას აძლევს, კვანტიზაციის შემდეგ მაღალი კლასის სამომხმარებლო GPU-ების 18GB VRAM-ში მოთავსდეს.letsdatascience

Google იტყობინება 1,000-ზე მეტი ტოკენის გამტარუნარიანობის შესახებ წამში ერთ Nvidia H100 ამაჩქარებელზე და 700-ზე მეტი ტოკენის წამში Nvidia GeForce RTX 5090-ზე. კომპანიამ ეს მაჩვენებლები შეაფასა, როგორც დაახლოებით ოთხჯერ უფრო სწრაფი, ვიდრე მსგავსი ზომის ავტორეგრესიული Gemma მოდელების სიჩქარე ერთმომხმარებლიან დატვირთვებში.blog

Nvidia-ს ოპტიმიზაცია და ხელმისაწვდომობა

Google-მა განაცხადა, რომ პირდაპირ Nvidia-სთან იმუშავა DiffusionGemma-ს ოპტიმიზაციისთვის ჩიპების მწარმოებლის აპარატურულ ხაზზე, სამომხმარებლო GeForce RTX 4090 და 5090 GPU-ებიდან დაწყებული, საწარმოო Hopper და Blackwell სისტემებით დამთავრებული, მათ შორის DGX Spark და DGX Station ადგილობრივი განლაგებისთვის. Nvidia-ს NVFP4 ოთხბიტიანი მცოცავი მძიმის ფორმატის მხარდაჭერა აჩქარებს გამოთვლებს იმით, რასაც Google „თითქმის დანაკარგების გარეშე სიზუსტეს“ უწოდებს.blog

მოდელის წონები ხელმისაწვდომია Apache 2.0 ლიცენზიით Hugging Face-ზე, ხოლო დეველოპერებს ასევე შეუძლიათ DiffusionGemma-ზე წვდომა Nvidia NIM-ის მეშვეობით. სერვირება მხარდაჭერილია vLLM, MLX და Hugging Face Transformers-ის საშუალებით.google

კომპრომისები და მიზნობრივი გამოყენება

Google-მა მკაფიოდ განაცხადა, რომ DiffusionGemma ჩამორჩება თავის სტანდარტულ Gemma 4 მოდელებს საერთო გამომავალი ხარისხით, რაც ამ გამოშვებას ექსპერიმენტულად აქცევს და მიმართულია იმ მკვლევრებისკენ, რომლებიც იკვლევენ სიჩქარეზე კრიტიკულ სამუშაო პროცესებს, როგორიცაა ჩასმული რედაქტირება, კოდის შევსება და არაწრფივი ტექსტური სტრუქტურების გენერირება. პარალელური დეკოდირების უპირატესობა ასევე მცირდება მაღალი კონკურენციის ღრუბლოვან სერვირებაში, სადაც ავტორეგრესიულ მოდელებს უკვე შეუძლიათ აპარატურის გაჯერება მოთხოვნების დაჯგუფებით.letsdatascience

ეს გამოშვება ეფუძნება Google-ის უფრო ფართო კვლევას ტექსტის დიფუზიაზე, რომელიც საჯაროდ დაიწყო Gemini Diffusion-ის დემოთი 2025 წლის მაისში და აფართოებს Gemma 4 ღია მოდელების ოჯახს, რომელიც ამ თვის დასაწყისში გამოვიდა.sunbposolutions