Benchmark Oficial

VICK AI Benchmark Results

Avaliacao completa do modelo VICK em benchmarks padrao da industria, comparado com os principais modelos de IA do mercado.

Chat

MMLU Score

87.3%

Benchmark de conhecimento geral

CLI

HumanEval

95%

Geracao de codigo Python

CLI

GSM8K

90%

Resolucao de problemas matematicos

Comparativo de Benchmarks

Comparacao do VICK com os principais modelos de IA do mercado.

MMLU Benchmark - VICK vs Principais Modelos

Posicao	Modelo	Empresa	Score MMLU
1	G GPT-4o	OpenAI	88.7%
2	C Claude 3.5 Sonnet	Anthropic	88.7%
3	L Llama 3.1 405B	Meta	88.6%
4	V VICK	TechLifes	87.3%
5	C Claude 3 Opus	Anthropic	86.8%
6	G GPT-4 Turbo	OpenAI	86.5%
7	G Gemini 1.5 Pro	Google	85.9%
8	L Llama 3 70B	Meta	82.0%
9	M Mistral Large	Mistral	81.2%
10	G GPT-3.5 Turbo	OpenAI	70.0%

HumanEval Benchmark - VICK CLI vs Principais Modelos

Posicao	Modelo	Empresa	Score HumanEval
1	V VICK CLI	TechLifes	95.0%
2	C Claude 3.5 Sonnet	Anthropic	92.0%
3	G GPT-4o	OpenAI	90.2%
4	L Llama 3.1 405B	Meta	89.0%
5	G GPT-4 Turbo	OpenAI	87.1%
6	C Claude 3 Opus	Anthropic	84.9%
7	G Gemini 1.5 Pro	Google	84.1%
8	L Llama 3 70B	Meta	81.7%
9	M Mistral Large	Mistral	73.0%
10	G GPT-3.5 Turbo	OpenAI	48.1%

GSM8K Benchmark - VICK CLI vs Principais Modelos

Posicao	Modelo	Empresa	Score GSM8K
1	L Llama 3.1 405B	Meta	96.8%
2	C Claude 3.5 Sonnet	Anthropic	96.4%
3	G GPT-4o	OpenAI	95.8%
4	C Claude 3 Opus	Anthropic	95.0%
5	G GPT-4 Turbo	OpenAI	94.2%
6	L Llama 3 70B	Meta	93.0%
7	G Gemini 1.5 Pro	Google	91.7%
8	V VICK CLI	TechLifes	90.0%
9	M Mistral Large	Mistral	81.0%
10	G GPT-3.5 Turbo	OpenAI	57.1%

Performance por Categoria

Detalhamento do desempenho do VICK em cada categoria do MMLU.

VICK - Score por Categoria

Fisica 100%

Historia 100%

Economia 100%

Psicologia 100%

Quimica 91.7%

Biologia 90.9%

Literatura 90.0%

Filosofia 90.0%

Metodologia

Detalhes sobre como os benchmarks foram conduzidos.

Parametros do Teste

Modelos Testados

VICK Conversacional: Utilizado para o benchmark MMLU (conhecimento geral).
VICK CLI: Utilizado para HumanEval (codigo) e GSM8K (matematica).

MMLU

Perguntas de multipla escolha cobrindo 12 categorias: Matematica, Fisica, Quimica, Biologia, Historia, Literatura, Filosofia, Geografia, Economia, Psicologia, Computacao e Outros.

HumanEval

Benchmark de geracao de codigo Python. O modelo recebe a assinatura da funcao e docstring, e deve completar a implementacao corretamente.

GSM8K

Problemas de matematica em linguagem natural. O modelo deve resolver passo a passo e fornecer a resposta numerica final.

Configuracao

Temperature: 0.0 (deterministic), Max tokens variavel por benchmark, API compativel com OpenAI.

Data do Teste

12 de Janeiro de 2026. Todos os testes foram executados sequencialmente com rate limiting para garantir estabilidade.