Classificações de modelo no portal Microsoft Foundry (prévia)

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

As classificações de modelos (prévia) no portal do Foundry ajudam você a comparar modelos no catálogo de modelos do Foundry usando referências padrão do setor para modelos.

Para começar, compare e selecione modelos usando o ranking de modelos no portal Foundry.

Você pode revisar a metodologia detalhada de benchmarking para cada categoria de ranking.

Benchmarking de qualidade de modelos de linguagem para entender o desempenho dos modelos em tarefas principais, incluindo raciocínio, conhecimento, resposta a perguntas, matemática e codificação.
Benchmarking de segurança de modelos de linguagem para entender quão seguros os modelos são contra a geração de comportamento prejudicial.
Benchmarking de desempenho de modelos de linguagem para entender como os modelos são executados em termos de latência e taxa de transferência.
Parâmetro de comparação de custos de modelos de linguagem para entender o custo estimado do uso de modelos.
O benchmarking de classificação de cenários de modelos de linguagem para ajudá-lo a encontrar o melhor modelo para seu caso de uso específico ou cenário.
Benchmarking de qualidade de modelos de incorporação para avaliar o desempenho dos modelos em tarefas baseadas em incorporação, incluindo pesquisa e recuperação.

Ao encontrar um modelo adequado, você pode abrir seus resultados detalhados de benchmarking no catálogo de modelos. A partir daí, você pode implantar o modelo, experimentá-lo no playground ou avaliá-lo em seus próprios dados. As classificações dão suporte ao benchmarking para modelos de linguagem de texto (incluindo modelos de linguagem grande (LLMs) e modelos de linguagem pequenos (SLMs)) e modelos de incorporação.

Os parâmetros de comparação de modelo avaliam LLMs e SLMs em qualidade, segurança, custo e taxa de transferência. Os modelos de inserção são avaliados usando parâmetros de comparação de qualidade padrão. Os placares de líderes são atualizados à medida que novos modelos e conjuntos de dados de parâmetro de comparação ficam disponíveis.

Escopo de benchmarking de modelo

As classificações de modelos apresentam uma seleção curada de modelos de linguagem baseados em texto do catálogo de modelos do Foundry. Os modelos são incluídos com base nos seguintes critérios:

Azure Modelos Diretos priorizados: Azure Modelos Diretos são selecionados para relevância para cenários comuns de IA generativa.
Aplicabilidade de parâmetro de comparação principal: os modelos devem dar suporte a tarefas de linguagem de uso geral, como raciocínio, conhecimento, resposta a perguntas, raciocínio matemático e codificação. Não há suporte para modelos especializados (por exemplo, dobramento proteico ou QA específico do domínio) e outras modalidades.

Esse escopo garante que os rankings reflitam modelos atuais e de alta qualidade relevantes para cenários principais de IA.

Interpretar os resultados do placar de líderes

As tabelas de classificação ajudam você a comparar modelos em várias dimensões para que possa escolher o modelo certo para sua aplicação. Aqui estão algumas diretrizes para interpretar os resultados:

Índice de qualidade: um índice de qualidade mais alto indica um desempenho geral mais forte nas tarefas de raciocínio, codificação, matemática e conhecimento. Compare o índice de qualidade entre modelos para identificar os principais desempenhos para tarefas de linguagem de uso geral.
Pontuações de segurança: taxas de sucesso de ataque mais baixas indicam modelos mais robustos. Considere as pontuações de segurança juntamente com as pontuações de qualidade, especialmente para aplicativos voltados para o cliente, em que a saída prejudicial é uma preocupação significativa.
Compensações de desempenho: use as métricas de latência e taxa de transferência para entender a capacidade de resposta real de um modelo. Um modelo com alta qualidade, mas alta latência, pode não atender a aplicativos em tempo real.
Considerações de custo: a métrica de custo estimada usa uma taxa de token de entrada para saída de três para um. Ajuste suas expectativas com base na taxa de entrada e saída da carga de trabalho real.
Classificação de Cenário: se o seu caso de uso estiver associado a um cenário específico (por exemplo, codificação ou matemática), comece com a classificação de cenário para identificar modelos otimizados para essa tarefa ao invés de se basear apenas no índice de qualidade geral.

Dica

Benchmarks de tabela de classificação oferecem comparações padronizadas entre modelos usando conjuntos de dados públicos. Para avaliar o desempenho do modelo em seus dados específicos e caso de uso, consulte Avaliar seus aplicativos de IA generativos.

Parâmetros de comparação de qualidade de modelos de linguagem

A Foundry avalia a qualidade de LLMs e SLMs usando pontuações de precisão de conjuntos de dados de benchmark padrão que medem recursos de raciocínio, conhecimento, resposta a perguntas, matemática e codificação.

Índice	Descrição
Índice de qualidade	Calculado pela média de pontuações de precisão aplicáveis (`exact_match`, `pass@1`, `arena_hard`) em conjuntos de dados de parâmetro de comparação.

Os valores de índice de qualidade variam de zero a um, em que valores mais altos indicam melhor desempenho. Os conjuntos de dados incluídos no índice de qualidade são:

Nome do conjunto de dados	Categoria
bigbench_hard (reduzido para 1.000 exemplos)	Raciocínio
chembench	Química
frontierscience	Raciocínio científico
gpqa	controle de qualidade
mbppplus	Codificação
mmlu_pro (reduzido para 1.000 exemplos)	Conhecimento geral
musr	Raciocínio
tau2_telecom	Seleção de agentic e chamadas de ferramenta

Veja mais detalhes em pontuações de precisão:

Métrica Descrição

Precisão As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é exact_match em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma pass@1 métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, retornando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A pass@1 métrica mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.

Métrica	Descrição
Precisão	As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é `exact_match` em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma `pass@1` métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, retornando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A `pass@1` métrica mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.

As pontuações de precisão variam de zero a um, em que valores mais altos são melhores.

Parâmetros de comparação de segurança de modelos de linguagem

Os parâmetros de comparação de segurança são selecionados por meio de um processo estruturado de filtragem e validação projetado para garantir relevância e rigor. Um parâmetro de comparação se qualifica para integração se ele resolver riscos de alta prioridade. As classificações de segurança incluem parâmetros de referência confiáveis o suficiente para fornecer sinais significativos sobre tópicos de interesse em relação à segurança. Os rankings utilizam HarmBench como proxy para a segurança do modelo e organizam as classificações de liderança da seguinte maneira:

Nome do conjunto de dados	Cenário de Tabela de Classificação	Métrica	Interpretação
HarmBench (standard)	Comportamentos nocivos padrão	Taxa de sucesso de ataque	Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo nocivo padrão
HarmBench (contextual)	Comportamentos contextualmente prejudiciais	Taxa de sucesso de ataque	Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo contextualmente prejudicial
HarmBench (violações de direitos autorais)	Violações de direitos autorais	Taxa de sucesso de ataque	Valores mais baixos indicam robustez mais forte contra violações de direitos autorais
WMDP	Conhecimento em domínios confidenciais	Precisão	Valores mais altos indicam maior conhecimento em domínios confidenciais
Toxigen	Detecção de conteúdo tóxico	Pontuação F1	Valores mais altos indicam melhor desempenho de detecção

Detecção de comportamento prejudicial

O parâmetro de comparação HarmBench mede comportamentos prejudiciais usando prompts projetados para provocar respostas não seguras. Ele abrange sete categorias semânticas:

Crimes cibernéticos e intrusão não autorizada
Armas químicas e biológicas ou drogas
Violações de direitos autorais
Informação incorreta e desinformação
Assédio e intimidação
Atividades ilegais
Dano geral

Essas categorias são agrupadas em três áreas funcionais:

Comportamentos nocivos padrão
Comportamentos contextualmente prejudiciais
Violações de direitos autorais

Cada categoria funcional é destacada em um ranking de cenário distinto. A avaliação usa prompts diretos do HarmBench (sem ataques) e dos avaliadores do HarmBench para calcular a Taxa de Sucesso de Ataque (ASR). Valores asr mais baixos significam modelos mais seguros. Nenhuma estratégia de ataque é utilizada para a avaliação, e o benchmarking do modelo é realizado com o Foundry Guardrails (antes chamados de filtros de conteúdo) desativados.

Detecção de conteúdo tóxico

Toxigen é um conjunto de dados em grande escala para detectar discursos de ódio implícitos e adversários. Inclui sentenças implicitamente tóxicas e benignas que fazem referência a 13 grupos minoritários. A Foundry utiliza exemplos de Toxigen anotados e calcula pontuações F1 para medir o desempenho de classificação. Pontuações mais altas indicam melhor detecção de conteúdo tóxico. O benchmarking é executado com o Foundry Guardrails (anteriormente filtros de conteúdo) desativados.

Conhecimento de domínio confidencial

O benchmark Proxy de Armas de Destruição em Massa (WMDP) mede o conhecimento do modelo em domínios sensíveis, incluindo biossegurança, segurança cibernética e segurança química. A classificação usa as médias das pontuações de precisão em segurança cibernética, biossegurança e segurança química. Uma pontuação de precisão de WMDP mais alta indica mais conhecimento de funcionalidades perigosas (pior comportamento do ponto de vista de segurança). O benchmarking de modelo é executado com os Foundry Guardrails padrão (anteriormente filtros de conteúdo) ativados. Esses guardrails detectam e bloqueiam danos de conteúdo em violência, automutilação, sexual, ódio e injustiça, mas não visam categorias em segurança cibernética, biossegurança e segurança química.

Limitações dos parâmetros de comparação de segurança

Segurança é um tópico complexo com várias dimensões. Nenhum parâmetro de comparação de software livre pode testar ou representar a segurança total de um sistema em todos os cenários. Além disso, muitos parâmetros de comparação sofrem de saturação ou desalinhamento entre design de parâmetro de comparação e definição de risco. Alguns parâmetros de comparação também não têm documentação clara sobre como os riscos de destino são conceituados e operacionalizados, dificultando a avaliação de se os resultados capturam com precisão as nuances dos riscos do mundo real. Essas limitações podem levar à superestimação ou à subestimação do desempenho do modelo em cenários de segurança do mundo real.

Parâmetros de comparação de desempenho de modelos de linguagem

As métricas de desempenho são agregadas ao longo de 14 dias usando 24 avaliações por dia, com duas solicitações por avaliação enviadas em intervalos de uma hora. A menos que observado de outra forma, os seguintes parâmetros padrão se aplicam a implantações de API sem servidor e Azure OpenAI:

Parâmetro	Valor	Aplicável para
Região	Leste EUA/Leste EUA2	Implantações de API sem servidor e Azure OpenAI
Limite de taxa de tokens por minuto (TPM)	30 mil (180 RPM com base em Azure OpenAI) para modelos que não envolvem raciocínio e 100 mil para modelos que fazem uso de raciocínio N/A (implantações de API sem servidor)	Para modelos OpenAI do Azure, a seleção está disponível para usuários com intervalos de limite de taxa de requisição com base no tipo de implantação (API sem servidor, global, global padrão e assim por diante). Para implantações de API sem servidor, essa configuração é abstraida.
Número de solicitações	Duas requisições em um teste por hora (24 testes por dia)	Implantações de API sem servidor, Azure OpenAI
Número de tentativas/iterações	14 dias com 24 testes por dia para 336 realizações	Implantações de API sem servidor, Azure OpenAI
Comprimento do prompt/contexto	Comprimento moderado	Implantações de API sem servidor, Azure OpenAI
Número de tokens processados (moderado)	Taxa de 80:20 para tokens de entrada para saída, ou seja, 800 tokens de entrada para 200 tokens de saída.	Implantações de API sem servidor, Azure OpenAI
Número de solicitações simultâneas	Uma (as solicitações são enviadas sequencialmente uma após a outra)	Implantações de API sem servidor, Azure OpenAI
Dados	Sintético (prompts de entrada preparados a partir de texto estático)	Implantações de API sem servidor, Azure OpenAI
Tipo de implantação	API sem servidor	Aplicável somente para Azure OpenAI
Streaming	Verdade	Aplica-se a implantações de API sem servidor e Azure OpenAI. Para modelos implantados por meio de computação gerenciada ou para pontos de extremidade quando não há suporte para streaming, o TTFT é representado como o P50 da métrica de latência.
SKU	Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, 64 GB de armazenamento)	Aplicável somente para Computação Gerenciada (para estimar as métricas de custo e desempenho)

O desempenho de LLMs e SLMs é avaliado nas seguintes métricas:

Métrica	Descrição
Média de latência	Tempo médio em segundos para processar uma solicitação, computada em várias solicitações. Uma solicitação é enviada ao ponto de extremidade a cada hora durante duas semanas e a média é computada.
Latência P50	Latência mediana (50º percentil). 50% de solicitações concluídas neste momento.
Latência P90	Latência de percentil 90. 90% de solicitações concluídas neste momento.
Latência P95	Latência do 95º percentil 95% de solicitações concluídas neste momento.
Latência P99	Latência de percentil 99. 99% de solicitações concluídas neste momento.
Throughput GTPS	Os tokens gerados por segundo (GTPS) é o número de tokens de saída que estão sendo gerados por segundo a partir do momento em que a solicitação é enviada para o ponto de extremidade.
TTPS de rendimento	O total de tokens por segundo (TTPS) é o número total de tokens processados por segundo, incluindo tanto do prompt de entrada quanto dos tokens de saída gerados. Para modelos que não dão suporte ao streaming, o tempo para o primeiro token (ttft) representa o valor P50 de latência (tempo necessário para receber a resposta)
Latência TTFT	O tempo total até o primeiro token (TTFT) é o tempo necessário para que o primeiro token na resposta seja retornado do endpoint quando o streaming estiver habilitado.
Tempo entre tokens	Essa métrica é o tempo entre os tokens recebidos.

O Foundry resume o desempenho usando:

Métrica	Descrição
Latência	Tempo médio até o primeiro token. Mais baixo é melhor.
Transferência	Tokens médios gerados por segundo. Mais alto é melhor.

Para métricas de desempenho, como latência ou taxa de transferência, o tempo para o primeiro token e os tokens gerados por segundo dão uma melhor noção geral do desempenho e comportamento típicos do modelo. Os números de desempenho são atualizados periodicamente para refletir as configurações de implantação mais recentes.

Parâmetros de comparação de custo de modelos de linguagem

Os parâmetros de comparação de custo medem o custo real para executar cada modelo nos conjuntos de dados de parâmetro de comparação de qualidade, em vez de um custo estimado com base no preço do token.

O custo de parâmetro de comparação é calculado usando:

Número real de tokens de entrada, raciocínio e saída consumidos durante a execução do benchmark.
Configuração de esforço de raciocínio específica do modelo usada para avaliação (normalmente high ou xhigh).
Características e complexidade do conjunto de dados, que afetam o uso e o runtime do token.

Ao contrário das estimativas baseadas em uma relação fixa de tokens, essa abordagem reflete o verdadeiro custo total da execução dos benchmarks de cargas de trabalho.

Como interpretar os resultados de custo

O custo é relatado em USD por execução de benchmark nos conjuntos de dados de qualidade padrão.
Os valores representam o custo real de execução e permitem a comparação direta entre modelos.
Valores mais baixos indicam um desempenho mais econômico no pacote de parâmetros de comparação.

Benchmarking do ranking de líderes em cenários

Classificações de cenários agrupam conjuntos de dados de benchmark por objetivos comuns de avaliação do mundo real. Você pode identificar rapidamente os pontos fortes e fracos de um modelo por caso de uso. Cada cenário agrega um ou mais conjuntos de dados de benchmark públicos.

Use a tabela a seguir para encontrar seu caso de uso na coluna Cenário e, em seguida, examine os conjuntos de dados de parâmetro de comparação associados e o que os resultados indicam. A tabela a seguir resume os rankings de cenário disponíveis e seus conjuntos de dados associados e descrições:

Cenário	Conjuntos de Dados	Descrição
Comportamento nocivo padrão	HarmBench (padrão)	Taxa de sucesso de ataque em prompts nocivos padrão. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Comportamento contextualmente nocivo	HarmBench (contextual)	Taxa de sucesso de ataque em prompts contextuais nocivos. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Violações de direitos autorais	HarmBench (direitos autorais)	Taxa de sucesso de ataque para solicitações de violação de direitos autorais. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Conhecimento em domínios confidenciais	WMDP (biossegurança, segurança química, segurança cibernética)	Precisão em três subconjuntos de domínio confidenciais. Maior precisão indica mais conhecimento de capacidades sensíveis. Consulte conhecimento de domínio confidencial.
Detecção de toxicidade	ToxiGen (anotado)	Pontuação F1 para capacidade de detecção de conteúdo tóxico. Mais alto é melhor. Consulte a detecção de conteúdo tóxico.
Raciocínio	BIG-Bench Hard (1000 subsample)	Avaliação de recursos de raciocínio. Valores mais altos são melhores.
Codificação	BigCodeBench (instrução), LiveBench (codificação), LiveCodeBench médio MBPPPlus	Mede a precisão em tarefas relacionadas ao código. Valores mais altos são melhores.
Conhecimento geral	MMLU-Pro (subamostra de 1K em inglês)	1,000 exemplos de subamostra apenas em inglês do MMLU-Pro.
Perguntas e respostas	Arena-Hard, GPQA (diamante)	QA de preferência humana adversária (Arena-Hard) e QA a nível de pós-graduação multidisciplinar (GPQA diamante). Valores mais altos são melhores.
Matemática	MATH (500 subsample)	Mede os recursos de raciocínio matemático de modelos de linguagem. Valores mais altos são melhores.
Estabilidade	TrueQA (MC1)	Avaliação de fundamentação/veracidade de múltipla escolha dos modelos de linguagem. Valores mais altos são melhores.

Parâmetros de comparação de qualidade de modelos de inserção

O índice de qualidade dos modelos de incorporação é definido como as pontuações médias de precisão de um conjunto abrangente de conjuntos de dados de benchmark de API sem servidor direcionados a tarefas de Recuperação de Informações, Clustering de Documentos e Sumarização.

Métrica	Descrição
Precisão	A precisão é a proporção de previsões corretas entre o número total de previsões processadas.
Pontuação F1	F1 Score é a média ponderada da precisão e recall, onde o melhor valor é um (precisão perfeita e recall), e o pior é zero.
Precisão Média (MAP)	O MAP avalia a qualidade dos sistemas de classificação e de recomendação. Ele mede tanto a relevância dos itens sugeridos quanto o quão bom o sistema é em colocar itens mais relevantes na parte superior. Os valores podem variar de zero a um e, quanto maior o MAP, melhor o sistema pode colocar itens relevantes no alto da lista.
Ganho cumulativo com desconto normalizado (NDCG)	O NDCG avalia a capacidade de um algoritmo de machine learning de classificar itens com base na relevância. Ele compara classificações a uma ordem ideal em que todos os itens relevantes estão no topo da lista, onde k é o comprimento da lista ao avaliar a qualidade da classificação. Nesses parâmetros de comparação, k=10, indicado por uma métrica de `ndcg_at_10`, o que significa que os 10 principais itens são avaliados.
Precisão	A precisão mede a capacidade do modelo de identificar instâncias de uma determinada classe corretamente. A precisão mostra a frequência com que um modelo de machine learning está correto ao prever a classe de destino.
Correlação de Spearman	A correlação de Spearman com base na similaridade de cosseno é calculada primeiro computando a similaridade de cosseno entre as variáveis, depois classificando os escores e usando essas classificações para calcular a correlação de Spearman.
Medida V	A medida V é uma métrica usada para avaliar a qualidade do clustering. A medida V é calculada como uma média harmônica de homogeneidade e completude, garantindo um equilíbrio entre os dois para um valor significativo. As pontuações possíveis estão entre zero e um, sendo um a rotulagem perfeitamente completa.

Cálculo de pontuações

Pontuações individuais

Os resultados de parâmetro de comparação são provenientes de conjuntos de dados públicos que geralmente são usados para avaliação do modelo de linguagem. Na maioria dos casos, os dados são hospedados em GitHub repositórios mantidos pelos criadores ou curadores dos dados. Os processos de avaliação de fundições baixam dados de suas fontes originais, extraem prompts de cada linha de exemplo, geram respostas de modelo e calculam as métricas de precisão relevantes.

A construção de prompts segue as melhores práticas para cada conjunto de dados, conforme especificado no artigo que apresenta o conjunto de dados e os padrões do setor. Na maioria dos casos, cada prompt contém várias capturas, ou seja, vários exemplos de perguntas e respostas completas para aprimorar o modelo para a tarefa. O número de capturas varia de acordo com o conjunto de dados e segue a metodologia especificada na publicação original de cada conjunto de dados. Os pipelines de avaliação criam tomas amostrando perguntas e respostas de uma parte dos dados reservados para avaliação.

Limitações de parâmetro de comparação

Todos os parâmetros de comparação têm limitações inerentes que você deve considerar ao interpretar os resultados:

Parâmetros de comparação de qualidade: os conjuntos de dados de benchmark podem ficar saturados ao longo do tempo à medida que os modelos são treinados ou ajustados em dados semelhantes. Os resultados da avaliação também podem variar dependendo da construção do prompt e do número de exemplos de poucas capturas usados.
Parâmetros de comparação de desempenho: as métricas são coletadas usando cargas de trabalho sintéticas com uma taxa de token de entrada para saída fixa e implantações de região única. O desempenho do mundo real pode ser diferente com base em padrões de carga de trabalho, simultaneidade, região e configuração de implantação.
Parâmetros de comparação de custo: as estimativas de custo são baseadas em uma taxa de token de entrada para saída de três para um e preços atuais no momento da medição. Os custos reais dependem da carga de trabalho e estão sujeitos a alterações de preços.

Comentários

Esta página foi útil?

Last updated on 2026-05-01