A Microsoft lançou recentemente os novos modelos Phi-3.5, que incluem o Phi-3.5-MoE-instruct, Phi-3.5-mini-instruct e o Phi-3.5-vision-instruct. Estes modelos se destacam em diversas tarefas, com capacidades que vão desde o raciocínio básico até o avançado, bem como a análise de imagens e vídeos.
O Phi-3.5-mini-instruct, com 3,82 bilhões de parâmetros, é projetado para tarefas que exigem raciocínio rápido e eficiente. Por outro lado, o Phi-3.5-MoE-instruct, que conta com 41,9 bilhões de parâmetros, é destinado a operações mais complexas de raciocínio. Já o Phi-3.5-vision-instruct, com 4,15 bilhões de parâmetros, é focado em tarefas visuais, como a análise de imagens e vídeos.
Phi-3.5-MoE-instruct
O modelo Phi-3.5-MoE-instruct é uma plataforma de código aberto com 42 bilhões de parâmetros. Ele conta com 16 especialistas, dos quais dois são ativados durante a geração, empregando 6,6 bilhões de parâmetros em cada inferência. Este modelo apresenta melhorias significativas nas capacidades de raciocínio, superando modelos maiores, como o Llama 3.1 8B e o Gemma 2 9B, em vários testes de desempenho.
Embora o Phi-3.5-MoE-instruct ofereça suporte para aplicações multilíngues e estenda seu comprimento de contexto para 128.000 tokens, os idiomas específicos que abrange ainda não estão totalmente claros. Comparado a outros modelos, ele fica ligeiramente atrás do GPT-4o-mini, mas supera o Gemini 1.5 Flash em diversos benchmarks.
Este modelo foi criado para ambientes com restrições de memória e computação, além de cenários sensíveis à latência. As principais aplicações incluem sistemas de IA de uso geral, aplicações que exigem raciocínio robusto em código, matemática, lógica, e como um componente fundamental para recursos gerados por IA.
Phi-3.5-mini-instruct
Com 3,8 bilhões de parâmetros, o Phi-3.5-mini-instruct é um modelo leve, mas poderoso. Ele supera modelos maiores, como o Llama 3.1 8B e o Mistral 7B. Além disso, suporta um comprimento de contexto de 128.000 tokens, significativamente maior que seus principais concorrentes, que geralmente suportam até 8.000 tokens.
Este modelo se destaca em tarefas de longo contexto, como a sumarização de documentos e a recuperação de informações, superando modelos maiores como o Llama-3.1-8B-instruct e o Mistral-Nemo-12B-instruct-2407 em vários benchmarks. Ele é projetado tanto para uso comercial quanto para pesquisa, especialmente em ambientes com restrições de memória e computação, cenários limitados pela latência, e aplicações que requerem raciocínio robusto em código, matemática e lógica.
Phi-3.5-vision-instruct
O Phi-3.5-vision-instruct é um modelo com 4,2 bilhões de parâmetros que se destaca na compreensão e no raciocínio de imagens em múltiplos quadros. Ele mostrou melhoras significativas em benchmarks como MMMU, MMBench e TextVQA, demonstrando sua capacidade em tarefas visuais. O modelo supera até mesmo o OpenAI GPT-4o em diversos testes de desempenho.
Este modelo integra um codificador de imagem, um conector, um projetor e o modelo de linguagem Phi-3.5-mini. Com um comprimento de contexto de 128.000 tokens, ele suporta entradas de texto e imagem, sendo otimizado para prompts em formato de chat. O treinamento do modelo foi realizado ao longo de seis dias, utilizando 256 GPUs A100-80G, processando 500 bilhões de tokens que incluíam dados visuais e textuais.
Os modelos Phi-3.5 já estão disponíveis na plataforma de IA Hugging Face sob uma licença MIT, sendo acessíveis para uma ampla gama de aplicações. O lançamento desses modelos está alinhado com o compromisso da Microsoft de fornecer ferramentas de IA open-source que sejam eficientes e versáteis.