Benchmark Oficial

VICK AI Benchmark Results

Avaliacao completa do modelo VICK em benchmarks padrao da industria, comparado com os principais modelos de IA do mercado.

Chat

MMLU Score

87.3%

Benchmark de conhecimento geral

CLI

HumanEval

95%

Geracao de codigo Python

CLI

GSM8K

90%

Resolucao de problemas matematicos

Comparativo de Benchmarks

Comparacao do VICK com os principais modelos de IA do mercado.

MMLU Benchmark - VICK vs Principais Modelos
Grafico comparativo MMLU
Posicao Modelo Empresa Score MMLU
1
GPT-4o
OpenAI
88.7%
2
Claude 3.5 Sonnet
Anthropic
88.7%
3
Llama 3.1 405B
Meta
88.6%
4
VICK
TechLifes
87.3%
5
Claude 3 Opus
Anthropic
86.8%
6
GPT-4 Turbo
OpenAI
86.5%
7
Gemini 1.5 Pro
Google
85.9%
8
Llama 3 70B
Meta
82.0%
9
Mistral Large
Mistral
81.2%
10
GPT-3.5 Turbo
OpenAI
70.0%
HumanEval Benchmark - VICK CLI vs Principais Modelos
Grafico comparativo HumanEval
Posicao Modelo Empresa Score HumanEval
1
VICK CLI
TechLifes
95.0%
2
Claude 3.5 Sonnet
Anthropic
92.0%
3
GPT-4o
OpenAI
90.2%
4
Llama 3.1 405B
Meta
89.0%
5
GPT-4 Turbo
OpenAI
87.1%
6
Claude 3 Opus
Anthropic
84.9%
7
Gemini 1.5 Pro
Google
84.1%
8
Llama 3 70B
Meta
81.7%
9
Mistral Large
Mistral
73.0%
10
GPT-3.5 Turbo
OpenAI
48.1%
GSM8K Benchmark - VICK CLI vs Principais Modelos
Grafico comparativo GSM8K
Posicao Modelo Empresa Score GSM8K
1
Llama 3.1 405B
Meta
96.8%
2
Claude 3.5 Sonnet
Anthropic
96.4%
3
GPT-4o
OpenAI
95.8%
4
Claude 3 Opus
Anthropic
95.0%
5
GPT-4 Turbo
OpenAI
94.2%
6
Llama 3 70B
Meta
93.0%
7
Gemini 1.5 Pro
Google
91.7%
8
VICK CLI
TechLifes
90.0%
9
Mistral Large
Mistral
81.0%
10
GPT-3.5 Turbo
OpenAI
57.1%

Performance por Categoria

Detalhamento do desempenho do VICK em cada categoria do MMLU.

VICK - Score por Categoria
Grafico de categorias MMLU
Fisica 100%
Historia 100%
Economia 100%
Psicologia 100%
Quimica 91.7%
Biologia 90.9%
Literatura 90.0%
Filosofia 90.0%

Metodologia

Detalhes sobre como os benchmarks foram conduzidos.

Parametros do Teste

Modelos Testados

VICK Conversacional: Utilizado para o benchmark MMLU (conhecimento geral).
VICK CLI: Utilizado para HumanEval (codigo) e GSM8K (matematica).

MMLU

Perguntas de multipla escolha cobrindo 12 categorias: Matematica, Fisica, Quimica, Biologia, Historia, Literatura, Filosofia, Geografia, Economia, Psicologia, Computacao e Outros.

HumanEval

Benchmark de geracao de codigo Python. O modelo recebe a assinatura da funcao e docstring, e deve completar a implementacao corretamente.

GSM8K

Problemas de matematica em linguagem natural. O modelo deve resolver passo a passo e fornecer a resposta numerica final.

Configuracao

Temperature: 0.0 (deterministic), Max tokens variavel por benchmark, API compativel com OpenAI.

Data do Teste

12 de Janeiro de 2026. Todos os testes foram executados sequencialmente com rate limiting para garantir estabilidade.