Visão computacional permite que robôs interpretem imagens para tomar decisões em tempo real
A visão computacional permite que robôs interpretem imagens e vídeos para tomar decisões em tempo real em setores como indústria, saúde e agricultura. O sistema utiliza sensores, LiDAR e redes neurais para reconhecimento de padrões e mapeamento 3D. Pesquisadores da PUC-Rio propuseram uma metodologia para otimizar o treinamento desses sistemas em casos de incerteza
A visão computacional está transformando a robótica ao permitir que máquinas interpretem imagens e vídeos para reagir ao ambiente e tomar decisões em tempo real. Diferente de câmeras convencionais, que apenas registram cenas, esses sistemas analisam conteúdos visuais para identificar objetos, pessoas, distâncias, movimentos e comportamentos, integrando-se a setores como a indústria, hospitais, agricultura, segurança e veículos autônomos.
A operação começa com a captura de dados por sensores e câmeras. Enquanto câmeras RGB registram cores, sensores infravermelhos e térmicos permitem a operação em ambientes escuros ou a detecção de calor. Para a percepção de profundidade e distância, utilizam-se desde modelos simples, presentes em aspiradores robôs, até sistemas LiDAR, que empregam feixes de laser para criar mapas tridimensionais precisos, ou a visão estéreo, que mimetiza a percepção humana ao combinar duas câmeras.
O processamento dessas informações é realizado por inteligência artificial, especificamente por redes neurais profundas treinadas com milhões de imagens para reconhecer e classificar padrões visuais. Embora compartilhem a base de redes neurais com os Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT, a visão computacional foca na interpretação de pixels e formas para a navegação física, e não no processamento de texto. Um dos pilares dessa evolução é o SLAM (*Simultaneous Localization and Mapping*), que possibilita a reconstrução 3D e o mapeamento de locais em tempo real.
O desenvolvimento dessa tecnologia foi impulsionado pelas Unidades de Processamento Gráfico (GPUs), microprocessadores originalmente voltados para videogames. No entanto, a área ainda enfrenta desafios, como a dificuldade de interpretação contextual diante de mudanças de iluminação ou objetos parcialmente ocultos, além do alto custo e tempo necessários para a rotulagem de dados. Para mitigar esse gargalo, pesquisadores da PUC-Rio propuseram, em publicação no *Journal Of Imaging Informatics In Medicine*, uma metodologia baseada no ensino construtivista para otimizar a intervenção humana durante o treinamento de sistemas em casos incertos.
Na aplicação prática, a tecnologia viabiliza que carros autônomos identifiquem pedestres, placas e condições climáticas em milissegundos. No setor industrial, robôs detectam falhas invisíveis ao olho humano, enquanto na medicina, sistemas analisam exames para diagnóstico precoce de doenças. Já no campo, drones monitoram pragas e falhas de irrigação, consolidando a transição de máquinas automatizadas para sistemas capazes de interagir ativamente com o mundo físico.