Classificações de modelos no portal Microsoft Foundry (pré-visualização)

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

Os rankings de modelos (pré-visualização) no portal Foundry ajudam-no a comparar modelos no catálogo de modelos Foundry usando benchmarks de modelos padrão da indústria.

Para começar, compare e selecione modelos usando a tabela de classificação de modelos no portal Foundry.

Pode rever a metodologia detalhada de benchmarking para cada categoria de classificação:

  • Benchmarking de qualidade de modelos de linguagem para avaliar o quão bem os modelos executam tarefas centrais, incluindo raciocínio, conhecimento, resposta a perguntas, matemática e programação.
  • Benchmarking de segurança de modelos de linguagem para avaliar quão seguros são os modelos contra a geração de comportamentos prejudiciais.
  • Benchmarking de desempenho de modelos de linguagem para compreender como os modelos se comportam em termos de latência e rendimento.
  • Benchmarking de custos de modelos de linguagem para compreender o custo estimado de utilização de modelos.
  • Benchmarking de modelos de linguagem em rankings de cenários para o ajudar a encontrar o melhor modelo para o seu caso de uso ou cenário específico.
  • Benchmarking de qualidade dos modelos de incorporação para compreender o desempenho em tarefas que utilizam incorporações, incluindo pesquisa e recuperação.

Quando encontrar um modelo adequado, pode abrir os seus resultados detalhados de benchmarking no catálogo de modelos. A partir daí, podes implementar o modelo, experimentá-lo no playground ou avaliá-lo com base nos teus próprios dados. Os rankingboards suportam benchmarking para modelos de linguagem de texto (incluindo grandes modelos de linguagem (LLMs) e pequenos modelos de linguagem (SLMs)) e modelos de incorporação.

Os benchmarks de modelos avaliam LLMs e SLMs em termos de qualidade, segurança, custo e rendimento. Os modelos de embedding são avaliados usando benchmarks de qualidade padrão. Os rankings são atualizados à medida que novos modelos e conjuntos de dados de benchmark ficam disponíveis.

Âmbito do benchmarking de modelos

Os rankings de modelos apresentam uma seleção selecionada de modelos de linguagem baseados em texto do catálogo de modelos Foundry. Os modelos são incluídos com base nos seguintes critérios:

  • Azure Modelos Diretos priorizados: Azure Modelos Diretos são selecionados pela sua relevância para cenários comuns de IA generativa.
  • Aplicabilidade de benchmarks básicos: Os modelos devem suportar tarefas de linguagem de uso geral, como raciocínio, conhecimento, resposta a perguntas, raciocínio matemático e programação. Modelos especializados (por exemplo, dobramento de proteínas ou QA específico de domínio) e outras modalidades não são suportados.

Este escopo garante que as classificações reflitam modelos atuais e de alta qualidade, relevantes para cenários centrais de IA.

Interpretar os resultados do painel de líderes

Os rankings ajudam-no a comparar modelos em várias dimensões para que possa escolher o modelo certo para o seu caso de uso. Aqui estão algumas orientações para interpretar os resultados:

  • Índice de qualidade: Um índice de qualidade mais elevado indica um desempenho global mais forte em tarefas de raciocínio, programação, matemática e conhecimento. Compare o índice de qualidade entre modelos para identificar os melhores desempenhos para tarefas linguísticas de uso geral.
  • Pontuações de segurança: Taxas de sucesso de ataque mais baixas indicam modelos mais robustos. Considere as pontuações de segurança juntamente com as pontuações de qualidade, especialmente para aplicações direcionadas ao cliente onde a produção nociva é uma preocupação significativa.
  • Compromissos de desempenho: Usar as métricas de latência e taxa de transferência para compreender a responsividade real de um modelo. Um modelo com alta qualidade mas alta latência pode não se adequar a aplicações em tempo real.
  • Considerações de custo: A métrica de custo estimado utiliza uma relação de tokens de entrada para saída de três para um. Ajusta as tuas expectativas com base na relação entrada/saída real da tua carga de trabalho.
  • Tabelas de classificação de cenários: Se o seu caso de uso corresponde a um cenário específico (por exemplo, programação ou matemática), comece pelo quadro de classificação de cenários para encontrar modelos otimizados para essa tarefa em vez de depender apenas do índice global de qualidade.

Dica

Os benchmarks de classificação fornecem comparações padronizadas entre modelos usando conjuntos de dados públicos. Para avaliar o desempenho do modelo nos seus dados e casos de uso específicos, consulte Avaliar as suas aplicações de IA generativa.

Referências de qualidade dos modelos de linguagem

A Foundry avalia a qualidade dos LLMs e SLMs utilizando pontuações de precisão de conjuntos de dados de referência padrão que medem raciocínio, conhecimento, resposta a perguntas, matemática e capacidades de programação.

Índice Descrição
Índice de qualidade Calculado através da média das pontuações de precisão aplicáveis (exact_match, pass@1, arena_hard) entre conjuntos de dados de referência.

Os valores do índice de qualidade variam de zero a um, onde valores mais altos indicam melhor desempenho. Os conjuntos de dados incluídos no índice de qualidade são:

Nome do Conjunto de Dados Categoria
bigbench_hard (reduzido para 1.000 exemplos) Fundamentação
Chembench Química
FrontierScience Raciocínio científico
GPQA GQ
mbppplus Programação
mmlu_pro (reduzido para 1.000 exemplos) Conhecimentos gerais
Musr Fundamentação
tau2_telecom Seleção de agentes e chamadas de ferramenta

Veja mais detalhes nas pontuações de precisão:

Métrica Descrição
Precisão As pontuações de precisão estão disponíveis ao nível do conjunto de dados e do modelo. Ao nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão calculada em todos os exemplos do conjunto de dados. A métrica de precisão utilizada é exact_match em todos os casos, exceto nos conjuntos de dados HumanEval e MBPP que utilizam uma pass@1 métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, reportando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A pass@1 métrica mede a proporção de soluções modelo que passam num conjunto de testes unitários numa tarefa de geração de código. Ao nível do modelo, a pontuação de precisão é a média das precisões ao nível do conjunto de dados para cada modelo.

As pontuações de precisão variam de zero a um, onde valores mais altos são melhores.

Avaliações de segurança dos modelos de linguagem

Os parâmetros de segurança são selecionados através de um processo estruturado de filtragem e validação, concebido para garantir tanto a relevância como o rigor. Um benchmark qualifica-se para integração se abordar riscos de alta prioridade. Os rankings de segurança incluem referências suficientemente fiáveis para fornecer sinais significativos sobre temas de interesse relacionados com a segurança. As tabelas de classificação usam HarmBench como proxy para a segurança dos modelos e organizam tabelas de cenários da seguinte forma:

Nome do Conjunto de Dados Cenário do Quadro de Líderes Métrica Interpretação
HarmBench (padrão) Comportamentos prejudiciais padrão Taxa de Sucesso de Ataque Valores mais baixos significam melhor robustez contra ataques concebidos para provocar conteúdos nocivos padrão
HarmBench (contextual) Comportamentos contextualmente prejudiciais Taxa de Sucesso de Ataque Valores mais baixos significam melhor robustez contra ataques concebidos para provocar conteúdo contextualmente prejudicial
HarmBench (violações de direitos de autor) Violações de direitos de autor Taxa de Sucesso de Ataque Valores mais baixos indicam maior robustez contra violações de direitos de autor
WMDP Conhecimento em domínios sensíveis Precisão Valores mais elevados indicam maior conhecimento em domínios sensíveis
Toxigen Deteção de conteúdo tóxico Pontuação F1 Valores mais elevados indicam melhor desempenho de deteção

Deteção de comportamentos nocivos

O benchmark HarmBench mede comportamentos prejudiciais usando prompts concebidos para provocar respostas inseguras. Abrange sete categorias semânticas:

  • Cibercrime e intrusão não autorizada
  • Armas ou drogas químicas e biológicas
  • Violações de direitos de autor
  • Informação errada e desinformação
  • Assédio e bullying
  • Atividades ilegais
  • Danos gerais

Estas categorias estão agrupadas em três áreas funcionais:

  • Comportamentos prejudiciais padrão
  • Comportamentos contextualmente prejudiciais
  • Violações de direitos de autor

Cada categoria funcional é apresentada numa tabela de classificação de cenários separada. A avaliação utiliza prompts diretos do HarmBench (sem ataques) e dos avaliadores do HarmBench para calcular a Taxa de Sucesso de Ataque (ASR). Valores ASR mais baixos significam modelos mais seguros. Não são usadas estratégias de ataque para avaliação, e o benchmarking dos modelos é realizado com os Foundry Guardrails (anteriormente filtros de conteúdo) desligados.

Deteção de conteúdo tóxico

O Toxigen é um conjunto de dados de grande escala para detetar discurso de ódio adversarial e implícito. Inclui frases implicitamente tóxicas e benignas que fazem referência a 13 grupos minoritários. A Foundry utiliza amostras anotadas de Toxigen e calcula pontuações F1 para medir o desempenho na classificação. Pontuações mais elevadas indicam melhor deteção de conteúdo tóxico. O benchmarking é realizado com os Foundry Guardrails (anteriormente filtros de conteúdo) desligados.

Conhecimento sensível do domínio

O benchmark Weapons of Mass Destruction Proxy (WMDP) mede o conhecimento dos modelos em domínios sensíveis, incluindo biossegurança, cibersegurança e segurança química. A tabela de classificação utiliza pontuações médias de precisão em cibersegurança, biossegurança e segurança química. Uma pontuação de precisão mais alta em WMDP indica mais conhecimento sobre capacidades perigosas (pior comportamento do ponto de vista da segurança). O benchmarking de modelos é realizado com os Foundry Guardrails predefinidos (anteriormente filtros de conteúdo) ativados. Estas barreiras detetam e bloqueiam danos a conteúdos em violência, autoagressão, sexualidade, ódio e injustiça, mas não visam categorias em cibersegurança, biossegurança e segurança química.

Limitações dos parâmetros de segurança

A segurança é um tema complexo com várias dimensões. Nenhum único benchmark open-source pode testar ou representar a segurança total de um sistema em todos os cenários. Além disso, muitos benchmarks sofrem de saturação ou desalinhamento entre o desenho do benchmark e a definição de risco. Alguns benchmarks também carecem de documentação clara sobre como os riscos-alvo são conceptualizados e operacionalizados, tornando difícil avaliar se os resultados captam com precisão as nuances dos riscos do mundo real. Estas limitações podem levar a sobrestimar ou subestimar o desempenho do modelo em cenários de segurança do mundo real.

Parâmetros de desempenho dos modelos de linguagem

As métricas de desempenho são agregadas ao longo de 14 dias usando 24 ensaios por dia, com dois pedidos por ensaio enviados a intervalos de uma hora. Salvo indicação em contrário, os seguintes parâmetros predefinidos aplicam-se tanto às implementações de APIs serverless como ao Azure OpenAI:

Parâmetro Valor Aplicável para
Região Leste dos EUA/Leste dos EUA 2 Implementações de APIs serverless e Azure OpenAI
Limite de taxa de tokens por minuto (TPM) 30k (180 RPM baseados no Azure OpenAI) para modelos sem raciocínio e 100k para modelos de raciocínio
N/A (implementações de APIs serverless)
Para modelos OpenAI do Azure, a seleção está disponível para utilizadores com intervalos de limite de taxa baseados no tipo de implementação (API serverless, global, padrão global, etc.).
Para implementações de APIs serverless, esta definição é abstrata.
Número de pedidos Dois pedidos num teste por hora (24 testes por dia) implementações de API sem servidor, Azure OpenAI
Número de ensaios/corridas 14 dias com 24 testes por dia para 336 corridas implementações de API sem servidor, Azure OpenAI
Duração do Prompt/Contexto Comprimento moderado implementações de API sem servidor, Azure OpenAI
Número de tokens processados (moderado) Razão 80:20 para tokens de entrada/saída, ou seja, 800 tokens de entrada para 200 tokens de saída. implementações de API sem servidor, Azure OpenAI
Número de pedidos simultâneos Um (os pedidos são enviados sequencialmente um após o outro) implementações de API sem servidor, Azure OpenAI
Dados Sintético (prompts de entrada preparados a partir de texto estático) implementações de API sem servidor, Azure OpenAI
Tipo de implantação API sem servidor Aplicável apenas para Azure OpenAI
Streaming Verdade Aplica-se a implementações de APIs serverless e ao Azure OpenAI. Para modelos implementados via computação gerida, ou para endpoints quando o streaming não é suportado, a TTFT é representada como P50 da métrica de latência.
SKU Standard_NC24ads_A100_v4 (24 núcleos, 220GB de RAM, 64GB de armazenamento) Aplicável apenas para Computação Gerida (para estimar métricas de custo e desempenho)

O desempenho dos LLMs e SLMs é avaliado através das seguintes métricas:

Métrica Descrição
Média da latência Tempo médio em segundos para processar um pedido, calculado em múltiplos pedidos. Um pedido é enviado ao endpoint a cada hora durante duas semanas, e a média é calculada.
Latência P50 Latência mediana (50.º percentil). 50% de pedidos concluídos dentro deste período.
Latência P90 Latência no 90.º percentil. 90% de pedidos concluídos dentro deste período.
Latência P95 Latência no 95º percentil. 95% de pedidos concluídos dentro deste período.
Latência P99 Latência do 99.º percentil. 99% de pedidos concluídos dentro deste período.
Taxa de Transferência GTPS Tokens gerados por segundo (GTPS) é o número de tokens de saída que são gerados por segundo desde o momento em que o pedido é enviado para o terminal.
TTPS de largura de banda Tokens totais por segundo (TTPS) é o número total de tokens processados por segundo, incluindo tanto do prompt de entrada como tokens de saída gerados. Para modelos que não suportam streaming, o tempo até ao primeiro token (ttft) representa o valor P50 de latência (tempo demorado a receber a resposta)
TTFT de Latência O tempo total até ao primeiro token (TTFT) é o tempo necessário para que o primeiro token da resposta seja devolvido do endpoint quando o streaming está ativado.
Tempo entre tokens Esta métrica é o tempo entre os tokens recebidos.

A Foundry resume o desempenho utilizando:

Métrica Descrição
Latência Tempo médio até ao primeiro token. Quanto mais baixo, melhor.
Rendimento Média de tokens gerados por segundo. Quanto mais alto, melhor.

Para métricas de desempenho como latência ou throughput, o tempo até ao primeiro token e os tokens gerados por segundo dão uma melhor perceção geral do desempenho e comportamento típicos do modelo. Os números de desempenho são periodicamente atualizados para refletir as configurações de implementação mais recentes.

Parâmetros de custo dos modelos de linguagem

Os benchmarks de custo medem o custo real para executar cada modelo nos conjuntos de dados de benchmarks de qualidade, em vez de um custo estimado baseado na precificação dos tokens.

O custo de referência é calculado utilizando:

  • Número real de tokens de entrada, raciocínio e saída consumidos durante a execução do benchmark.
  • Configuração de esforço de raciocínio específica do modelo usada para avaliação (tipicamente high ou xhigh).
  • Características e complexidade do conjunto de dados, que afetam a utilização e o tempo de execução dos tokens.

Ao contrário das estimativas baseadas numa razão fixa de tokens, esta abordagem reflete o verdadeiro custo de ponta a ponta da execução das cargas de trabalho dos benchmarks.

Como interpretar resultados de custos

  • O custo é reportado em USD por execução de teste de desempenho nos conjuntos de dados padrão de qualidade.
  • Os valores representam o custo real de execução e permitem a comparação direta entre modelos.
  • Valores mais baixos indicam um desempenho mais eficiente em termos de custos no conjunto de benchmarks.

Benchmarking de tabelas de cenários

Tabelas de classificação de cenários agrupam conjuntos de dados de benchmark por objetivos comuns de avaliação do mundo real. Pode identificar rapidamente os pontos fortes e fracos de um modelo por caso de uso. Cada cenário agrega um ou mais conjuntos de dados públicos de benchmark.

Use a tabela seguinte para encontrar o seu caso de uso na coluna Cenário e depois reveja os conjuntos de dados de referência associados e o que os resultados indicam. A tabela seguinte resume os rankings de cenários disponíveis e os seus conjuntos de dados e descrições associados:

Cenário Conjuntos de dados Descrição
Comportamento prejudicial padrão HarmBench (padrão) Taxa de sucesso de ataque em prompts prejudiciais padrão. Quanto mais baixo, melhor. Ver Deteção de comportamentos prejudiciais.
Comportamento contextualmente prejudicial HarmBench (contextual) Taxa de sucesso de ataque em prompts contextuais prejudiciais. Quanto mais baixo, melhor. Ver Deteção de comportamentos prejudiciais.
Violações de direitos de autor HarmBench (direitos de autor) Taxa de sucesso de ataques a prompts de violação de direitos autorais. Quanto mais baixo, melhor. Ver Deteção de comportamentos prejudiciais.
Conhecimento em domínios sensíveis ADMP (biossegurança, segurança química, cibersegurança) Precisão em três subconjuntos de domínios sensíveis. Maior precisão indica mais conhecimento das capacidades sensíveis. Ver Conhecimento de domínio sensível.
Deteção de toxicidade ToxiGen (anotado) Pontuação F1 para capacidade de deteção de conteúdo tóxico. Quanto mais alto, melhor. Ver Deteção de conteúdo tóxico.
Fundamentação BIG-Bench Hard (1000 subamostras) Avaliação das capacidades de raciocínio. Valores mais altos são melhores.
Programação BigCodeBench (instrução), LiveBench (coding), LiveCodeBench médioMBPPPlus Mede a precisão em tarefas relacionadas com código. Valores mais altos são melhores.
Conhecimentos gerais MMLU-Pro (1K amostra parcial em inglês) Apenas em inglês, uma subamostra de 1.000 exemplos do MMLU-Pro.
Perguntas e respostas Arena-Hard, GPQA (diamante) QA de preferência humana adversarial (Arena-Hard) e QA multidisciplinar a nível de pós-graduação (diamante GPQA). Valores mais altos são melhores.
Matemática MATH (subamostra 500) Mede as capacidades de raciocínio matemático dos modelos de linguagem. Valores mais altos são melhores.
Enraizamento TruthfulQA (MC1) Avaliação de múltipla escolha sobre a fundamentação e veracidade dos modelos de linguagem. Valores mais altos são melhores.

Benchmarks de qualidade dos modelos de embedding

O índice de qualidade dos modelos de embedding é definido como as pontuações médias de precisão de um conjunto abrangente de conjuntos de dados de benchmark de APIs serverless, direcionados a tarefas de Recuperação de Informação, Clusterização de Documentos e Sumarização.

Métrica Descrição
Precisão A precisão é a proporção de previsões corretas em relação ao total de previsões processadas.
Pontuação F1 A pontuação F1 é a média ponderada da precisão e da recordação, onde o melhor valor é um (precisão perfeita e recordação), e o pior é zero.
Precisão média (MAP) O MAP avalia a qualidade dos sistemas de classificação e recomendação. Mede tanto a relevância dos itens sugeridos como a qualidade do sistema em colocar itens mais relevantes no topo. Os valores podem variar de zero a um, e quanto maior for o MAP, melhor o sistema consegue colocar os itens relevantes no topo da lista.
Ganho cumulativo descontado normalizado (NDCG) A NDCG avalia a capacidade de um algoritmo de aprendizagem automática para ordenar itens com base na relevância. Compara os rankings com uma ordem ideal onde todos os itens relevantes estão no topo da lista, onde k é o comprimento da lista enquanto avalia a qualidade do ranking. Nestes benchmarks, k=10, indicado por uma métrica de ndcg_at_10, o que significa que os 10 principais itens são avaliados.
Precisão A precisão mede a capacidade do modelo de identificar corretamente instâncias de uma determinada classe. A precisão mostra com que frequência um modelo de aprendizagem automática está correto ao prever a classe alvo.
Correlação de Spearman A correlação de Spearman baseada na similaridade cosseno é primeiramente calculada ao determinar a similaridade cosseno entre variáveis, depois ordenando essas pontuações e usando as classificações para calcular a correlação de Spearman.
Medida V A medida V é uma métrica usada para avaliar a qualidade do agrupamento. A medida V é calculada como uma média harmónica de homogeneidade e completude, garantindo um equilíbrio entre as duas para obter uma pontuação significativa. As pontuações possíveis situam-se numa escala de zero a um, sendo um uma rotulagem perfeitamente completa.

Cálculo das pontuações

Resultados individuais

Os resultados dos benchmarks têm origem em conjuntos de dados públicos que são frequentemente usados para a avaliação de modelos de linguagem. Na maioria dos casos, os dados são alojados em repositórios do GitHub mantidos pelos criadores ou curadores dos dados. Os fluxos de avaliação Foundry transferem dados das suas fontes originais, extraem prompts de cada linha de exemplo, geram respostas dos modelos e depois calculam métricas de exatidão relevantes.

A construção de prompts segue as melhores práticas para cada conjunto de dados, conforme especificado no artigo que apresenta o conjunto de dados e os padrões da indústria. Na maioria dos casos, cada prompt contém vários shots, ou seja, vários exemplos de perguntas e respostas completas para preparar o modelo para a tarefa. O número de disparos varia consoante o conjunto de dados e segue a metodologia especificada na publicação original de cada conjunto de dados. Os canais de avaliação criam imagens ao amostrar perguntas e respostas a partir de uma parte dos dados obtidos pela avaliação.

Limitações do benchmark

Todos os benchmarks têm limitações inerentes que deve considerar ao interpretar resultados:

  • Parâmetros de qualidade: Os conjuntos de dados de referência podem saturar-se com o tempo, à medida que os modelos são treinados ou ajustados com dados semelhantes. Os resultados da avaliação também podem variar dependendo da construção do prompt e do número de exemplos de poucos tiros utilizados.
  • Benchmarks de desempenho: As métricas são recolhidas usando cargas de trabalho sintéticas com uma relação fixa de tokens de entrada/saída e implementações numa única região. O desempenho no mundo real pode variar consoante os padrões de carga de trabalho, concorrência, região e configuração de implementação.
  • Referências de custo: As estimativas de custo baseiam-se numa relação de tokens de entrada para saída de três para um e no preço atual no momento da medição. Os custos reais dependem da sua carga de trabalho e estão sujeitos a alterações de preços.