Google Gemma 4 MTP texnologiyası ilə 3 dəfə sürətləndi

Based.az Redaksiya•02:00•7 may 2026•121 baxış

Google, Gemma 4 açıq mənbəli modelləri üçün Multi-Token Prediction (MTP) texnologiyasını təqdim edərək yerli süni intellekt performansını 3 dəfəyə qədər artırır.

Google Gemma 4 modelləri üçün təqdim olunan MTP (Multi-Token Prediction) texnologiyası yerli avadanlıqlarda süni intellekt sürətini 3 dəfəyə qədər artırmağa imkan verir. Şirkət, spekulyativ kod açma metodundan istifadə edən bu eksperimental drafter modellərini tərtibatçıların istifadəsinə açıb.

Yeni modellər, proqnozlaşdırma yanaşması olan spekulyativ kod açma texnologiyasından faydalanır. Bu sayədə modellər standart generasiya prosesləri ilə müqayisədə mətn yaratma sürətlərini əhəmiyyətli dərəcədə artıra bilir.

Yerli avadanlıqlarda yüksək performans hədəfi

Gemma 4 modelləri, Google-un təkmilləşdirilmiş Gemini süni intellekt texnologiyasının əsasını təşkil edən infrastrukturla oxşar arxitekturanı paylaşır. Gemini modelləri Google-un nəhəng məlumat mərkəzlərindəki xüsusi TPU çiplərində işləmək üçün optimallaşdırılıb.

Gemma isə istifadəçilərə bu texnologiyanı öz yerli avadanlıqlarında, məlumatlarını bulud sistemlərinə ötürmədən işlətmək imkanı yaradır. Google, Gemma 4 ilə birlikdə lisenziya siyasətində də dəyişiklik edərək Apache 2.0 lisenziyasına keçid həyata keçirib. Bu yeni lisenziya strukturu əvvəlki versiyalarda istifadə olunan xüsusi lisenziyalarla müqayisədə daha geniş istifadə sahəsi və çeviklik təklif edir.

Lakin yerli sistemlərdə işləyən modellər korporativ avadanlıqların təqdim etdiyi yüksək bant genişlikli yaddaş (HBM) üstünlüyünə malik deyil. Bu vəziyyət prosessorların parametrləri VRAM-dan hesablama vahidlərinə daşıyarkən vaxt itirməsinə və əməliyyat dövrlərinin səmərəsiz istifadəsinə səbəb olur.

MTP texnologiyası necə işləyir?

Ənənəvi böyük dil modelləri token adlanan vahidləri avtoreqressiv strukturda, yəni hər dəfə bir ədəd olmaqla istehsal edir. Hər bir token, məzmundan asılı olmayaraq eyni miqdarda hesablama gücü tələb edir.

MTP texnologiyası bu nöqtədə işə düşərək ağır modelin yükünü yüngülləşdirir və daha yüngül bir drafter modeli vasitəsilə spekulyativ tokenlər yaradır. Məsələn, Gemma 4 E2B kimi cəmi 74 milyon parametrə sahib olan bu kiçik modellər spekulyativ token istehsalını sürətləndirmək üçün xüsusi olaraq optimallaşdırılıb.

Drafter modelləri əsas modelin artıq üzərində işlədiyi konteksti yenidən hesablamamaq üçün əsas modellə eyni açar-dəyər keşini paylaşır. Bundan əlavə, E2B və E4B drafter modelləri mümkün token çoxluqlarını daraltmaq məqsədilə seyrək kod açma texnikasından istifadə edir.

Bu texnikalar sayəsində NVIDIA RTX PRO 6000 kimi avadanlıqlarda aparılan testlərdə çıxış keyfiyyətindən güzəştə getmədən gözləmə müddətinin yarıya endirildiyi müşahidə olunub.

Nəticə və perspektivlər

MTP texnologiyası yerli süni intellekt tətbiqlərinin gələcəyi baxımından mühüm bir addımdır. Xüsusilə məxfilik həssas olan ssenarilərdə məlumatların buludda deyil, birbaşa istifadəçinin avadanlığında emal edilməsi böyük əhəmiyyət daşıyır. Google-un bu yanaşması açıq mənbəli süni intellekt ekosistemine ciddi töhfə verir.

Süni intellekt alətlərindən maksimum faydalanmaq istəyirsinizsə, based.az platformasında ChatGPT Plus, Canva Pro və digər premium süni intellekt xidmətlərinin abunəliklərini sərfəli şərtlərlə aktivləşdirə bilərsiniz.

Google Gemma 4 MTP texnologiyası ilə 3 dəfə sürətləndi

Yerli avadanlıqlarda yüksək performans hədəfi

MTP texnologiyası necə işləyir?

Nəticə və perspektivlər

Şərh yazmaq üçün daxil olun