A Nvidia anunciou na quarta-feira (2) a chegada de uma nova LLM (Grande Modelo de Linguagem) open-source para competir com o GPT-4o. Chamada de NVLM 1.0, essa família de modelos multimodais aposta em versatilidade e facilidade para os desenvolvedores poderem explorar suas capacidades.
O material foi divulgado em um artigo pela companhia, que destaca os 72 bilhões de parâmetros presentes no modelo NVLM-D-72B. A tecnologia, totalmente focada em inteligência artificial, consegue interpretar imagens e gerar respostas precisas sobre o conteúdo, mas por enquanto só consegue fornecer os resultados em formato de texto.
Em um dos exemplos utilizados pela Nvidia, a marca utiliza um meme de gatinho e pede para o modelo explicar o motivo pelo qual a imagem é engraçada. Resumidamente, a LLM pôde interpretar e explicar o meme de forma descontraída e engraçada, revelando o poderio do novo lançamento da Nvidia.
O NVLM 1.0 supera concorrentes em até 4,3 pontos nos principais benchmarks da indústria.Fonte: Nvidia
Modelo pode servir como padrão na indústria
A chegada de um grande modelo de linguagem como o NVLM 1.0 em formato aberto é uma boa notícia para desenvolvedores e pesquisadores da área. Diferente de outros modelos disponíveis, que possuem sua estrutura privada, o lançamento do time verde pode ajudar empresas menores e independentes a melhorar sua infraestrutura.
Para explicar o sucesso da nova família, a Nvidia explica que “criou integrou um conjunto de dados somente de texto de alta qualidade em treinamento multimodal, juntamente com uma quantidade substancial de dados matemáticos e de raciocínio multimodais, levando a recursos aprimorados de matemática e codificação”.
Um modelo poderoso em open-source pode pressionar outras grandes empresas de tecnologia a seguirem o mesmo caminho. Considerando o poderio de hardware e software que a Nvidia alavancou nos últimos anos com a ascensão da IA, a família NVLM 1.0 pode criar um novo padrão na indústria.