NVIDIA apresenta Cosmos 3, modelo aberto que integra raciocínio visual com geração de saídas multimodais
A NVIDIA lançou o Cosmos 3, modelo aberto que integra raciocínio visual com geração de texto, imagem, vídeo e som. A tecnologia utiliza transformadores para auxiliar robôs e veículos autônomos na compreensão de ambientes. O sistema possui as versões Super e Nano, com a variante Edge prevista para dispositivos de borda

A NVIDIA apresentou na GTC Taipei o Cosmos 3, descrito como o primeiro modelo "omnimal" totalmente aberto do mundo. A tecnologia integra a capacidade de raciocínio baseado em visão com a geração de saídas multimodais, abrangendo texto, imagem, vídeo e som ambiente.
O objetivo central do sistema é solucionar a dificuldade de robôs, agentes de visão e veículos autônomos na compreensão de seus arredores, especialmente em contextos onde as simulações são fragmentadas e os dados de treinamento são escassos. Para viabilizar isso, a arquitetura do Cosmos 3 une transformadores de raciocínio aos de geração. Essa estrutura permite que a ferramenta analise relações espácio-temporais, movimentos e interações entre objetos antes de produzir trajetórias de ação ou vídeos com precisão física.
A base do funcionamento reside em redes neurais de aprendizado profundo, conhecidas como transformadores, que processam dados sequenciais e contextos simultaneamente por meio de processamento paralelo, o que agiliza a entrega dos resultados.
O ecossistema do modelo já conta com as versões Cosmos 3 Super, focada em respostas de alta fidelidade, e Cosmos 3 Nano, ambas disponíveis. A NVIDIA prevê ainda o lançamento do Cosmos 3 Edge, desenvolvido especificamente para dispositivos de borda e inferência em tempo real.