AMD lança plugin vLLM-ATOM para otimizar o desempenho de inferência em modelos de IA
A AMD lançou o vLLM-ATOM, plugin de otimização de inferência para modelos de linguagem de IA e de visão. A ferramenta opera com as GPUs Instinct MI350 e MI400, integrando roteamento MoE, GEMM quantizado e atenção fundida

A AMD disponibilizou o vLLM-ATOM, um novo plugin focado na otimização do desempenho de inferência para modelos de linguagem de IA e Modelos de Linguagem de Visão (VLMs). A ferramenta foi desenvolvida para operar com os aceleradores de GPU Instinct MI350 e MI400, podendo atuar tanto como um servidor de inferência independente quanto como um backend de plugin.
A solução permite que as otimizações nativas de núcleos e modelos da AMD sejam aplicadas sem a necessidade de alterar o banco de dados central do vLLM. Para isso, o vLLM-ATOM utiliza uma arquitetura dividida em três camadas, integrando o suporte a diferentes modelos por meio de um pipeline de serviço unificado.
Entre as melhorias técnicas implementadas, o plugin entrega roteamento otimizado para Mistura de Especialistas (MoE), GEMM quantizado e atenção fundida. Essa estrutura visa conciliar a compatibilidade com o framework e a otimização específica de hardware, mantendo os recursos necessários para ambientes de produção.
O vLLM-ATOM também funciona como um ambiente de validação para inovações de software e hardware da companhia. As otimizações testadas no modo de plugin são posteriormente incorporadas ao backend nativo ROCm do vLLM, o que beneficia a comunidade de modelos de código aberto e o ecossistema ROCm. Na prática, a implementação reduz a espera por ciclos de integração, garantindo que os usuários acessem as capacidades mais recentes do hardware da AMD de forma imediata.