Classificações de modelo no portal Microsoft Foundry (prévia)

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

As classificações de modelos (prévia) no portal do Foundry ajudam você a comparar modelos no catálogo de modelos do Foundry usando referências padrão do setor para modelos.

Para começar, compare e selecione modelos usando o ranking de modelos no portal Foundry.

Você pode revisar a metodologia detalhada de benchmarking para cada categoria de ranking.

  • Benchmarking de qualidade de modelos de linguagem para entender o desempenho dos modelos em tarefas principais, incluindo raciocínio, conhecimento, resposta a perguntas, matemática e codificação.
  • Benchmarking de segurança de modelos de linguagem para entender quão seguros os modelos são contra a geração de comportamento prejudicial.
  • Benchmarking de desempenho de modelos de linguagem para entender como os modelos são executados em termos de latência e taxa de transferência.
  • Parâmetro de comparação de custos de modelos de linguagem para entender o custo estimado do uso de modelos.
  • O benchmarking de classificação de cenários de modelos de linguagem para ajudá-lo a encontrar o melhor modelo para seu caso de uso específico ou cenário.
  • Benchmarking de qualidade de modelos de incorporação para avaliar o desempenho dos modelos em tarefas baseadas em incorporação, incluindo pesquisa e recuperação.

Ao encontrar um modelo adequado, você pode abrir seus resultados detalhados de benchmarking no catálogo de modelos. A partir daí, você pode implantar o modelo, experimentá-lo no playground ou avaliá-lo em seus próprios dados. As classificações dão suporte ao benchmarking para modelos de linguagem de texto (incluindo modelos de linguagem grande (LLMs) e modelos de linguagem pequenos (SLMs)) e modelos de incorporação.

Os parâmetros de comparação de modelo avaliam LLMs e SLMs em qualidade, segurança, custo e taxa de transferência. Os modelos de inserção são avaliados usando parâmetros de comparação de qualidade padrão. Os placares de líderes são atualizados à medida que novos modelos e conjuntos de dados de parâmetro de comparação ficam disponíveis.

Escopo de benchmarking de modelo

As classificações de modelos apresentam uma seleção curada de modelos de linguagem baseados em texto do catálogo de modelos do Foundry. Os modelos são incluídos com base nos seguintes critérios:

  • Azure Modelos Diretos priorizados: Azure Modelos Diretos são selecionados para relevância para cenários comuns de IA generativa.
  • Aplicabilidade de parâmetro de comparação principal: os modelos devem dar suporte a tarefas de linguagem de uso geral, como raciocínio, conhecimento, resposta a perguntas, raciocínio matemático e codificação. Não há suporte para modelos especializados (por exemplo, dobramento proteico ou QA específico do domínio) e outras modalidades.

Esse escopo garante que os rankings reflitam modelos atuais e de alta qualidade relevantes para cenários principais de IA.

Interpretar os resultados do placar de líderes

As tabelas de classificação ajudam você a comparar modelos em várias dimensões para que possa escolher o modelo certo para sua aplicação. Aqui estão algumas diretrizes para interpretar os resultados:

  • Índice de qualidade: um índice de qualidade mais alto indica um desempenho geral mais forte nas tarefas de raciocínio, codificação, matemática e conhecimento. Compare o índice de qualidade entre modelos para identificar os principais desempenhos para tarefas de linguagem de uso geral.
  • Pontuações de segurança: taxas de sucesso de ataque mais baixas indicam modelos mais robustos. Considere as pontuações de segurança juntamente com as pontuações de qualidade, especialmente para aplicativos voltados para o cliente, em que a saída prejudicial é uma preocupação significativa.
  • Compensações de desempenho: use as métricas de latência e taxa de transferência para entender a capacidade de resposta real de um modelo. Um modelo com alta qualidade, mas alta latência, pode não atender a aplicativos em tempo real.
  • Considerações de custo: a métrica de custo estimada usa uma taxa de token de entrada para saída de três para um. Ajuste suas expectativas com base na taxa de entrada e saída da carga de trabalho real.
  • Classificação de Cenário: se o seu caso de uso estiver associado a um cenário específico (por exemplo, codificação ou matemática), comece com a classificação de cenário para identificar modelos otimizados para essa tarefa ao invés de se basear apenas no índice de qualidade geral.

Dica

Benchmarks de tabela de classificação oferecem comparações padronizadas entre modelos usando conjuntos de dados públicos. Para avaliar o desempenho do modelo em seus dados específicos e caso de uso, consulte Avaliar seus aplicativos de IA generativos.

Parâmetros de comparação de qualidade de modelos de linguagem

A Foundry avalia a qualidade de LLMs e SLMs usando pontuações de precisão de conjuntos de dados de benchmark padrão que medem recursos de raciocínio, conhecimento, resposta a perguntas, matemática e codificação.

Índice Descrição
Índice de qualidade Calculado pela média de pontuações de precisão aplicáveis (exact_match, pass@1, arena_hard) em conjuntos de dados de parâmetro de comparação.

Os valores de índice de qualidade variam de zero a um, em que valores mais altos indicam melhor desempenho. Os conjuntos de dados incluídos no índice de qualidade são:

Nome do conjunto de dados Categoria
bigbench_hard (reduzido para 1.000 exemplos) Raciocínio
chembench Química
frontierscience Raciocínio científico
gpqa controle de qualidade
mbppplus Codificação
mmlu_pro (reduzido para 1.000 exemplos) Conhecimento geral
musr Raciocínio
tau2_telecom Seleção de agentic e chamadas de ferramenta

Veja mais detalhes em pontuações de precisão:

Métrica Descrição
Precisão As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é exact_match em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma pass@1 métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, retornando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A pass@1 métrica mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.

As pontuações de precisão variam de zero a um, em que valores mais altos são melhores.

Parâmetros de comparação de segurança de modelos de linguagem

Os parâmetros de comparação de segurança são selecionados por meio de um processo estruturado de filtragem e validação projetado para garantir relevância e rigor. Um parâmetro de comparação se qualifica para integração se ele resolver riscos de alta prioridade. As classificações de segurança incluem parâmetros de referência confiáveis o suficiente para fornecer sinais significativos sobre tópicos de interesse em relação à segurança. Os rankings utilizam HarmBench como proxy para a segurança do modelo e organizam as classificações de liderança da seguinte maneira:

Nome do conjunto de dados Cenário de Tabela de Classificação Métrica Interpretação
HarmBench (standard) Comportamentos nocivos padrão Taxa de sucesso de ataque Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo nocivo padrão
HarmBench (contextual) Comportamentos contextualmente prejudiciais Taxa de sucesso de ataque Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo contextualmente prejudicial
HarmBench (violações de direitos autorais) Violações de direitos autorais Taxa de sucesso de ataque Valores mais baixos indicam robustez mais forte contra violações de direitos autorais
WMDP Conhecimento em domínios confidenciais Precisão Valores mais altos indicam maior conhecimento em domínios confidenciais
Toxigen Detecção de conteúdo tóxico Pontuação F1 Valores mais altos indicam melhor desempenho de detecção

Detecção de comportamento prejudicial

O parâmetro de comparação HarmBench mede comportamentos prejudiciais usando prompts projetados para provocar respostas não seguras. Ele abrange sete categorias semânticas:

  • Crimes cibernéticos e intrusão não autorizada
  • Armas químicas e biológicas ou drogas
  • Violações de direitos autorais
  • Informação incorreta e desinformação
  • Assédio e intimidação
  • Atividades ilegais
  • Dano geral

Essas categorias são agrupadas em três áreas funcionais:

  • Comportamentos nocivos padrão
  • Comportamentos contextualmente prejudiciais
  • Violações de direitos autorais

Cada categoria funcional é destacada em um ranking de cenário distinto. A avaliação usa prompts diretos do HarmBench (sem ataques) e dos avaliadores do HarmBench para calcular a Taxa de Sucesso de Ataque (ASR). Valores asr mais baixos significam modelos mais seguros. Nenhuma estratégia de ataque é utilizada para a avaliação, e o benchmarking do modelo é realizado com o Foundry Guardrails (antes chamados de filtros de conteúdo) desativados.

Detecção de conteúdo tóxico

Toxigen é um conjunto de dados em grande escala para detectar discursos de ódio implícitos e adversários. Inclui sentenças implicitamente tóxicas e benignas que fazem referência a 13 grupos minoritários. A Foundry utiliza exemplos de Toxigen anotados e calcula pontuações F1 para medir o desempenho de classificação. Pontuações mais altas indicam melhor detecção de conteúdo tóxico. O benchmarking é executado com o Foundry Guardrails (anteriormente filtros de conteúdo) desativados.

Conhecimento de domínio confidencial

O benchmark Proxy de Armas de Destruição em Massa (WMDP) mede o conhecimento do modelo em domínios sensíveis, incluindo biossegurança, segurança cibernética e segurança química. A classificação usa as médias das pontuações de precisão em segurança cibernética, biossegurança e segurança química. Uma pontuação de precisão de WMDP mais alta indica mais conhecimento de funcionalidades perigosas (pior comportamento do ponto de vista de segurança). O benchmarking de modelo é executado com os Foundry Guardrails padrão (anteriormente filtros de conteúdo) ativados. Esses guardrails detectam e bloqueiam danos de conteúdo em violência, automutilação, sexual, ódio e injustiça, mas não visam categorias em segurança cibernética, biossegurança e segurança química.

Limitações dos parâmetros de comparação de segurança

Segurança é um tópico complexo com várias dimensões. Nenhum parâmetro de comparação de software livre pode testar ou representar a segurança total de um sistema em todos os cenários. Além disso, muitos parâmetros de comparação sofrem de saturação ou desalinhamento entre design de parâmetro de comparação e definição de risco. Alguns parâmetros de comparação também não têm documentação clara sobre como os riscos de destino são conceituados e operacionalizados, dificultando a avaliação de se os resultados capturam com precisão as nuances dos riscos do mundo real. Essas limitações podem levar à superestimação ou à subestimação do desempenho do modelo em cenários de segurança do mundo real.

Parâmetros de comparação de desempenho de modelos de linguagem

As métricas de desempenho são agregadas ao longo de 14 dias usando 24 avaliações por dia, com duas solicitações por avaliação enviadas em intervalos de uma hora. A menos que observado de outra forma, os seguintes parâmetros padrão se aplicam a implantações de API sem servidor e Azure OpenAI:

Parâmetro Valor Aplicável para
Região Leste EUA/Leste EUA2 Implantações de API sem servidor e Azure OpenAI
Limite de taxa de tokens por minuto (TPM) 30 mil (180 RPM com base em Azure OpenAI) para modelos que não envolvem raciocínio e 100 mil para modelos que fazem uso de raciocínio
N/A (implantações de API sem servidor)
Para modelos OpenAI do Azure, a seleção está disponível para usuários com intervalos de limite de taxa de requisição com base no tipo de implantação (API sem servidor, global, global padrão e assim por diante).
Para implantações de API sem servidor, essa configuração é abstraida.
Número de solicitações Duas requisições em um teste por hora (24 testes por dia) Implantações de API sem servidor, Azure OpenAI
Número de tentativas/iterações 14 dias com 24 testes por dia para 336 realizações Implantações de API sem servidor, Azure OpenAI
Comprimento do prompt/contexto Comprimento moderado Implantações de API sem servidor, Azure OpenAI
Número de tokens processados (moderado) Taxa de 80:20 para tokens de entrada para saída, ou seja, 800 tokens de entrada para 200 tokens de saída. Implantações de API sem servidor, Azure OpenAI
Número de solicitações simultâneas Uma (as solicitações são enviadas sequencialmente uma após a outra) Implantações de API sem servidor, Azure OpenAI
Dados Sintético (prompts de entrada preparados a partir de texto estático) Implantações de API sem servidor, Azure OpenAI
Tipo de implantação API sem servidor Aplicável somente para Azure OpenAI
Streaming Verdade Aplica-se a implantações de API sem servidor e Azure OpenAI. Para modelos implantados por meio de computação gerenciada ou para pontos de extremidade quando não há suporte para streaming, o TTFT é representado como o P50 da métrica de latência.
SKU Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, 64 GB de armazenamento) Aplicável somente para Computação Gerenciada (para estimar as métricas de custo e desempenho)

O desempenho de LLMs e SLMs é avaliado nas seguintes métricas:

Métrica Descrição
Média de latência Tempo médio em segundos para processar uma solicitação, computada em várias solicitações. Uma solicitação é enviada ao ponto de extremidade a cada hora durante duas semanas e a média é computada.
Latência P50 Latência mediana (50º percentil). 50% de solicitações concluídas neste momento.
Latência P90 Latência de percentil 90. 90% de solicitações concluídas neste momento.
Latência P95 Latência do 95º percentil 95% de solicitações concluídas neste momento.
Latência P99 Latência de percentil 99. 99% de solicitações concluídas neste momento.
Throughput GTPS Os tokens gerados por segundo (GTPS) é o número de tokens de saída que estão sendo gerados por segundo a partir do momento em que a solicitação é enviada para o ponto de extremidade.
TTPS de rendimento O total de tokens por segundo (TTPS) é o número total de tokens processados por segundo, incluindo tanto do prompt de entrada quanto dos tokens de saída gerados. Para modelos que não dão suporte ao streaming, o tempo para o primeiro token (ttft) representa o valor P50 de latência (tempo necessário para receber a resposta)
Latência TTFT O tempo total até o primeiro token (TTFT) é o tempo necessário para que o primeiro token na resposta seja retornado do endpoint quando o streaming estiver habilitado.
Tempo entre tokens Essa métrica é o tempo entre os tokens recebidos.

O Foundry resume o desempenho usando:

Métrica Descrição
Latência Tempo médio até o primeiro token. Mais baixo é melhor.
Transferência Tokens médios gerados por segundo. Mais alto é melhor.

Para métricas de desempenho, como latência ou taxa de transferência, o tempo para o primeiro token e os tokens gerados por segundo dão uma melhor noção geral do desempenho e comportamento típicos do modelo. Os números de desempenho são atualizados periodicamente para refletir as configurações de implantação mais recentes.

Parâmetros de comparação de custo de modelos de linguagem

Os parâmetros de comparação de custo medem o custo real para executar cada modelo nos conjuntos de dados de parâmetro de comparação de qualidade, em vez de um custo estimado com base no preço do token.

O custo de parâmetro de comparação é calculado usando:

  • Número real de tokens de entrada, raciocínio e saída consumidos durante a execução do benchmark.
  • Configuração de esforço de raciocínio específica do modelo usada para avaliação (normalmente high ou xhigh).
  • Características e complexidade do conjunto de dados, que afetam o uso e o runtime do token.

Ao contrário das estimativas baseadas em uma relação fixa de tokens, essa abordagem reflete o verdadeiro custo total da execução dos benchmarks de cargas de trabalho.

Como interpretar os resultados de custo

  • O custo é relatado em USD por execução de benchmark nos conjuntos de dados de qualidade padrão.
  • Os valores representam o custo real de execução e permitem a comparação direta entre modelos.
  • Valores mais baixos indicam um desempenho mais econômico no pacote de parâmetros de comparação.

Benchmarking do ranking de líderes em cenários

Classificações de cenários agrupam conjuntos de dados de benchmark por objetivos comuns de avaliação do mundo real. Você pode identificar rapidamente os pontos fortes e fracos de um modelo por caso de uso. Cada cenário agrega um ou mais conjuntos de dados de benchmark públicos.

Use a tabela a seguir para encontrar seu caso de uso na coluna Cenário e, em seguida, examine os conjuntos de dados de parâmetro de comparação associados e o que os resultados indicam. A tabela a seguir resume os rankings de cenário disponíveis e seus conjuntos de dados associados e descrições:

Cenário Conjuntos de Dados Descrição
Comportamento nocivo padrão HarmBench (padrão) Taxa de sucesso de ataque em prompts nocivos padrão. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Comportamento contextualmente nocivo HarmBench (contextual) Taxa de sucesso de ataque em prompts contextuais nocivos. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Violações de direitos autorais HarmBench (direitos autorais) Taxa de sucesso de ataque para solicitações de violação de direitos autorais. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Conhecimento em domínios confidenciais WMDP (biossegurança, segurança química, segurança cibernética) Precisão em três subconjuntos de domínio confidenciais. Maior precisão indica mais conhecimento de capacidades sensíveis. Consulte conhecimento de domínio confidencial.
Detecção de toxicidade ToxiGen (anotado) Pontuação F1 para capacidade de detecção de conteúdo tóxico. Mais alto é melhor. Consulte a detecção de conteúdo tóxico.
Raciocínio BIG-Bench Hard (1000 subsample) Avaliação de recursos de raciocínio. Valores mais altos são melhores.
Codificação BigCodeBench (instrução), LiveBench (codificação), LiveCodeBench médioMBPPPlus Mede a precisão em tarefas relacionadas ao código. Valores mais altos são melhores.
Conhecimento geral MMLU-Pro (subamostra de 1K em inglês) 1,000 exemplos de subamostra apenas em inglês do MMLU-Pro.
Perguntas e respostas Arena-Hard, GPQA (diamante) QA de preferência humana adversária (Arena-Hard) e QA a nível de pós-graduação multidisciplinar (GPQA diamante). Valores mais altos são melhores.
Matemática MATH (500 subsample) Mede os recursos de raciocínio matemático de modelos de linguagem. Valores mais altos são melhores.
Estabilidade TrueQA (MC1) Avaliação de fundamentação/veracidade de múltipla escolha dos modelos de linguagem. Valores mais altos são melhores.

Parâmetros de comparação de qualidade de modelos de inserção

O índice de qualidade dos modelos de incorporação é definido como as pontuações médias de precisão de um conjunto abrangente de conjuntos de dados de benchmark de API sem servidor direcionados a tarefas de Recuperação de Informações, Clustering de Documentos e Sumarização.

Métrica Descrição
Precisão A precisão é a proporção de previsões corretas entre o número total de previsões processadas.
Pontuação F1 F1 Score é a média ponderada da precisão e recall, onde o melhor valor é um (precisão perfeita e recall), e o pior é zero.
Precisão Média (MAP) O MAP avalia a qualidade dos sistemas de classificação e de recomendação. Ele mede tanto a relevância dos itens sugeridos quanto o quão bom o sistema é em colocar itens mais relevantes na parte superior. Os valores podem variar de zero a um e, quanto maior o MAP, melhor o sistema pode colocar itens relevantes no alto da lista.
Ganho cumulativo com desconto normalizado (NDCG) O NDCG avalia a capacidade de um algoritmo de machine learning de classificar itens com base na relevância. Ele compara classificações a uma ordem ideal em que todos os itens relevantes estão no topo da lista, onde k é o comprimento da lista ao avaliar a qualidade da classificação. Nesses parâmetros de comparação, k=10, indicado por uma métrica de ndcg_at_10, o que significa que os 10 principais itens são avaliados.
Precisão A precisão mede a capacidade do modelo de identificar instâncias de uma determinada classe corretamente. A precisão mostra a frequência com que um modelo de machine learning está correto ao prever a classe de destino.
Correlação de Spearman A correlação de Spearman com base na similaridade de cosseno é calculada primeiro computando a similaridade de cosseno entre as variáveis, depois classificando os escores e usando essas classificações para calcular a correlação de Spearman.
Medida V A medida V é uma métrica usada para avaliar a qualidade do clustering. A medida V é calculada como uma média harmônica de homogeneidade e completude, garantindo um equilíbrio entre os dois para um valor significativo. As pontuações possíveis estão entre zero e um, sendo um a rotulagem perfeitamente completa.

Cálculo de pontuações

Pontuações individuais

Os resultados de parâmetro de comparação são provenientes de conjuntos de dados públicos que geralmente são usados para avaliação do modelo de linguagem. Na maioria dos casos, os dados são hospedados em GitHub repositórios mantidos pelos criadores ou curadores dos dados. Os processos de avaliação de fundições baixam dados de suas fontes originais, extraem prompts de cada linha de exemplo, geram respostas de modelo e calculam as métricas de precisão relevantes.

A construção de prompts segue as melhores práticas para cada conjunto de dados, conforme especificado no artigo que apresenta o conjunto de dados e os padrões do setor. Na maioria dos casos, cada prompt contém várias capturas, ou seja, vários exemplos de perguntas e respostas completas para aprimorar o modelo para a tarefa. O número de capturas varia de acordo com o conjunto de dados e segue a metodologia especificada na publicação original de cada conjunto de dados. Os pipelines de avaliação criam tomas amostrando perguntas e respostas de uma parte dos dados reservados para avaliação.

Limitações de parâmetro de comparação

Todos os parâmetros de comparação têm limitações inerentes que você deve considerar ao interpretar os resultados:

  • Parâmetros de comparação de qualidade: os conjuntos de dados de benchmark podem ficar saturados ao longo do tempo à medida que os modelos são treinados ou ajustados em dados semelhantes. Os resultados da avaliação também podem variar dependendo da construção do prompt e do número de exemplos de poucas capturas usados.
  • Parâmetros de comparação de desempenho: as métricas são coletadas usando cargas de trabalho sintéticas com uma taxa de token de entrada para saída fixa e implantações de região única. O desempenho do mundo real pode ser diferente com base em padrões de carga de trabalho, simultaneidade, região e configuração de implantação.
  • Parâmetros de comparação de custo: as estimativas de custo são baseadas em uma taxa de token de entrada para saída de três para um e preços atuais no momento da medição. Os custos reais dependem da carga de trabalho e estão sujeitos a alterações de preços.