Kini AMD Ryzen AI Max bisa jalankan AI hingga model 128B

Oleh: Nur Chandra Laksana - Rabu, 30 Juli 2025 10:02

AMD mengumumkan jajaran Ryzen AI Max tertinggi bisa jalankan AI hingga model 128B.

AMD kembali menetapkan tonggak baru dalam dunia komputasi AI dengan pengumuman upgrade besar pada teknologi Variable Graphics Memory (VGM)-nya. Inovasi ini memungkinkan pemrosesan model AI hingga 128 miliar parameter, tepatnya di lingkungan Vulkan llama.cpp pada Windows, melalui driver AMD Software: Adrenalin Edition™ 25.8.1 WHQL yang akan datang. Dengan peningkatan ini, perangkat seperti AMD Ryzen™ AI Max+ 395 (128GB) kini siap menangani beban kerja AI paling intensif, menandai debut PC Windows pertama di dunia yang mampu menjalankan model Meta Llama 4 Scout 109B (17B aktif) secara lokal—lengkap dengan dukungan visi dan Multi-Call Plugin (MCP).

Prosesor AMD Ryzen™ AI Max+ 395 (128GB) mengusung fleksibilitas luar biasa untuk deployment LLM (Large Language Model) langsung di perangkat tipis dan ringan Windows, mulai dari model ringan (1B parameter) hingga model raksasa seperti Mistral Large. Ini dimungkinkan berkat sistem quantization GGUF yang dapat disesuaikan kebutuhan pengguna: semakin tinggi parameter model, semakin berkualitas output-nya. AMD juga memberi keleluasaan penuh untuk menjalankan model hingga 16-bit melalui llama.cpp, asalkan kapasitas memori mencukupi.

Salah satu inovasi utama dari Llama 4 Scout adalah arsitektur Mixture-of-Experts (MoE), di mana hanya 17 miliar parameter yang aktif pada satu waktu, meski seluruh parameter (109B) tetap harus tersimpan di memori. Implementasi ini mendukung kecepatan hingga 15 tokens per detik, menjadikannya asisten AI lokal yang sangat andal. Pengguna tetap punya opsi untuk beralih ke model lebih kecil jika membutuhkan performa ekstra cepat, atau memilih model yang lebih besar demi kualitas pemrosesan dan respons yang lebih baik.

Selain ukuran model, AMD menyoroti pentingnya context size dalam konteks penggunaan LLM modern. Default context LM Studio di 4096 token biasanya sudah cukup, tapi dengan aplikasi yang semakin token-heavy (misal: Retrieval-Augmented Generation/RAG atau MCP), dukungan context length yang lebih besar sangat krusial. AMD Ryzen™ AI Max+ 395 (128GB) dengan Adrenalin Edition 25.8.1 WHQL mampu menjalankan Llama 4 Scout pada context length hingga 256.000 token (Flash Attention ON, KV Cache Q8), memungkinkan task agentic berskala besar dan multi-layered berlangsung lancar di lokal.

Untuk pemakaian biasa, pengguna mungkin cukup dengan context 32.000 token pada model ringan. Namun power user dan profesional yang menginginkan kestabilan context ekstra dalam skenario kerja yang kompleks, kini punya solusi perangkat dan software lokal yang mumpuni—tanpa harus bergantung pada inferensi cloud.