AMD lança plugin vLLM-ATOM para otimizar o desempenho de inferência em modelos de IA

Redação Correio Diário 11 de Maio de 2026 às 18:29

A AMD lançou o vLLM-ATOM, plugin de otimização de inferência para modelos de linguagem de IA e de visão. A ferramenta opera com as GPUs Instinct MI350 e MI400, integrando roteamento MoE, GEMM quantizado e atenção fundida

AMD lança plugin vLLM-ATOM para otimizar o desempenho de inferência em modelos de IA — wccftech.com

A AMD disponibilizou o vLLM-ATOM, um novo plugin focado na otimização do desempenho de inferência para modelos de linguagem de IA e Modelos de Linguagem de Visão (VLMs). A ferramenta foi desenvolvida para operar com os aceleradores de GPU Instinct MI350 e MI400, podendo atuar tanto como um servidor de inferência independente quanto como um backend de plugin.

A solução permite que as otimizações nativas de núcleos e modelos da AMD sejam aplicadas sem a necessidade de alterar o banco de dados central do vLLM. Para isso, o vLLM-ATOM utiliza uma arquitetura dividida em três camadas, integrando o suporte a diferentes modelos por meio de um pipeline de serviço unificado.

Entre as melhorias técnicas implementadas, o plugin entrega roteamento otimizado para Mistura de Especialistas (MoE), GEMM quantizado e atenção fundida. Essa estrutura visa conciliar a compatibilidade com o framework e a otimização específica de hardware, mantendo os recursos necessários para ambientes de produção.

O vLLM-ATOM também funciona como um ambiente de validação para inovações de software e hardware da companhia. As otimizações testadas no modo de plugin são posteriormente incorporadas ao backend nativo ROCm do vLLM, o que beneficia a comunidade de modelos de código aberto e o ecossistema ROCm. Na prática, a implementação reduz a espera por ciclos de integração, garantindo que os usuários acessem as capacidades mais recentes do hardware da AMD de forma imediata.

AMD lança plugin vLLM-ATOM para otimizar o desempenho de inferência em modelos de IA

Notícias Relacionadas

Qualcomm e MediaTek planejam adotar chips de 2 nanômetros da TSMC para superar a Apple

Zyphra lança plataforma de inteligência artificial de código aberto para competir com a DeepSeek

Apple lança iOS 26.5 com correções de segurança e novo plano de assinatura na App Store

Robô chinês vence meia maratona em navegação autônoma com tempo superior ao recorde mundial masculino

Coreia do Sul desenvolve plataforma nuclear flutuante para geração de energia em alto-mar