leaderboard AI 基准评测

来自 Artificial Analysis 的综合模型能力评测数据，实时同步。

AA Agentic Index· agent

518 个模型 · 满分 1.0

GPT-5.5 (xhigh)

74.100

72.000

Claude Opus 4.7 (Adaptive Reasoning, Max Effort)

71.300

Gemini 3.5 Flash (high)

70.300

GPT-5.5 (medium)

69.400

GPT-5.4 (xhigh)

68.000

Claude Opus 4.6 (Adaptive Reasoning, Max Effort)

67.600

67.400

DeepSeek V4 Pro (Reasoning, Max Effort)

67.200

GLM-5.1 (Reasoning)

67.100

DeepSeek V4 Pro (Reasoning, High Effort)

66.700

66.600

66.100

66.000

GLM-5.1 (Non-reasoning)

66.000

Grok 4.3 (high)

65.900

65.500

Qwen3.6 Max Preview

64.800

Claude Opus 4.7 (Non-reasoning, High Effort)

64.600

Claude Opus 4.6 (Non-reasoning, High Effort)

64.200

DeepSeek V4 Pro (Non-reasoning)

63.300

GLM-5 (Reasoning)

63.100

Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)

63.000

Qwen3.6 27B (Reasoning)

62.900

62.800

DeepSeek V4 Flash (Reasoning, High Effort)

62.300

62.000

61.700

Claude Sonnet 4.6 (Non-reasoning, High Effort)

61.600

61.500

DeepSeek V4 Flash (Non-reasoning)

61.300

DeepSeek V4 Flash (Reasoning, Max Effort)

61.300

GLM 5V Turbo (Reasoning)

61.100

Qwen3.6 27B (Non-reasoning)

60.900

GPT-5.3 Codex (xhigh)

60.500

GLM-5 (Non-reasoning)

60.300

GPT-5.2 (xhigh)

60.200

59.700

Claude Opus 4.5 (Reasoning)

59.600

Claude Opus 4.5 (Non-reasoning)

59.200

59.100

GPT-5.5 Pro (xhigh)

59.100

Llama 3.2 Instruct 90B (Vision)

59.100

Gemini 3.1 Pro Preview

59.100

DeepSeek R1 Distill Llama 70B

59.100

59.100

Phi-4 Multimodal Instruct

59.100

Llama 3.3 Nemotron Super 49B v1 (Reasoning)

59.100

Llama 3.3 Nemotron Super 49B v1 (Non-reasoning)

59.100

Llama 3.1 Nemotron Nano 4B v1.1 (Reasoning)

59.100

59.100

Kimi Linear 48B A3B Instruct

59.100

59.100

DeepHermes 3 - Mistral 24B Preview (Non-reasoning)

59.100

DeepHermes 3 - Llama-3.1 8B Preview (Non-reasoning)

59.100

EXAONE 4.5 33B (Non-reasoning)

59.100

59.100

Cogito v2.1 (Reasoning)

59.100

Mi:dm K 2.5 Pro Preview

59.100

59.100

59.100

GPT-4o (May '24)

59.100

59.100

59.100

59.100

GPT-4o (ChatGPT)

59.100

59.100

GPT-4o Realtime (Dec '24)

59.100

GPT-5 (ChatGPT)

59.100

GPT-4o mini Realtime (Dec '24)

59.100

59.100

GPT-4o (March 2025, chatgpt-4o-latest)

59.100

59.100

GPT-4.5 (Preview)

59.100

59.100

GPT-5.4 Pro (xhigh)

59.100

GPT-3.5 Turbo (0613)

59.100

Llama 3.2 Instruct 3B

59.100

Llama 2 Chat 7B

59.100

Llama 2 Chat 70B

59.100

Llama 2 Chat 13B

59.100

Gemini 2.0 Pro Experimental (Feb '25)

59.100

Gemini 2.0 Flash (experimental)

59.100

Gemini 1.5 Pro (Sep '24)

59.100

Gemini 2.0 Flash-Lite (Preview)

59.100

Gemini 1.5 Flash (Sep '24)

59.100

Gemini 1.5 Flash-8B

59.100

59.100

Gemini 2.0 Flash-Lite (Feb '25)

59.100

Gemini 2.5 Flash Preview (Non-reasoning)

59.100

Gemini 1.5 Flash (May '24)

59.100

Gemini 2.5 Flash Preview (Reasoning)

59.100

59.100

Gemini 1.5 Pro (May '24)

59.100

Gemini 2.0 Flash Thinking Experimental (Jan '25)

59.100

Gemini 2.5 Pro Preview (Mar' 25)

59.100

Gemini 1.0 Ultra

59.100

Gemma 3n E4B Instruct Preview (May '25)

59.100

Gemini 2.0 Flash Thinking Experimental (Dec '24)

59.100

Gemini 2.5 Pro Preview (May' 25)

59.100

Claude 3.5 Sonnet (Oct '24)

59.100

Claude 3.5 Sonnet (June '24)

59.100

59.100

Claude 3 Sonnet

59.100

59.100

Claude 4.1 Opus (Non-reasoning)

59.100

59.100

Claude 4 Opus (Non-reasoning)

59.100

Claude 4.1 Opus (Reasoning)

59.100

Claude 4 Opus (Reasoning)

59.100

59.100

Mistral Large 2 (Jul '24)

59.100

59.100

Mistral Small 3

59.100

Mistral Small (Sep '24)

59.100

Mixtral 8x22B Instruct

59.100

Mistral Small (Feb '24)

59.100

Mistral Large (Feb '24)

59.100

Mixtral 8x7B Instruct

59.100

Mistral 7B Instruct

59.100

Magistral Small 1

59.100

59.100

59.100

DeepSeek R1 Distill Qwen 32B

59.100

DeepSeek R1 Distill Qwen 14B

59.100

DeepSeek-V2.5 (Dec '24)

59.100

DeepSeek-Coder-V2

59.100

DeepSeek R1 Distill Llama 8B

59.100

DeepSeek LLM 67B Chat (V1)

59.100

DeepSeek R1 Distill Qwen 1.5B

59.100

DeepSeek-V2-Chat

59.100

DeepSeek Coder V2 Lite Instruct

59.100

59.100

DeepSeek R1 0528 Qwen3 8B

59.100

59.100

59.100

Sonar Reasoning Pro

59.100

Sonar Reasoning

59.100

59.100

Grok 3 Reasoning Beta

59.100

Grok 2 (Dec '24)

59.100

OpenChat 3.5 (1210)

59.100

Phi-3 Mini Instruct 3.8B

59.100

59.100

59.100

Solar Pro 2 (Preview) (Reasoning)

59.100

Solar Pro 2 (Preview) (Non-reasoning)

59.100

59.100

59.100

Llama 3.1 Tulu3 405B

59.100

59.100

59.100

Reka Flash (Sep '24)

59.100

Hermes 3 - Llama-3.1 70B

59.100

Command-R+ (Apr '24)

59.100

Command-R (Mar '24)

59.100

Apriel-v1.5-15B-Thinker

59.100

Jamba 1.5 Large

59.100

Jamba 1.6 Large

59.100

59.100

59.100

Arctic Instruct

59.100

59.100

Qwen2.5 Instruct 72B

59.100

Qwen2.5 Coder Instruct 32B

59.100

59.100

Qwen2 Instruct 72B

59.100

Qwen3 32B (Non-reasoning)

59.100

59.100

Qwen3 4B (Non-reasoning)

59.100

GPT-5.4 mini (xhigh)

58.900

Kimi K2.5 (Reasoning)

58.900

Kimi K2.6 (Non-reasoning)

58.700

58.600

MiMo-V2-Omni-0327

58.600

Qwen3.6 35B A3B (Reasoning)

58.300

58.200

Claude Sonnet 4.6 (Non-reasoning, Low Effort)

57.500

GPT-5.2 Codex (xhigh)

56.500

Qwen3.5 397B A17B (Reasoning)

55.800

Hy3-preview (Reasoning)

55.700

55.600

GLM-4.7 (Reasoning)

55.000

GPT-5.2 (medium)

54.900

54.700

Qwen3.5 27B (Reasoning)

54.600

GLM-4.7 (Non-reasoning)

54.300

Grok 4.20 0309 v2 (Reasoning)

53.900

Qwen3.5 397B A17B (Non-reasoning)

53.300

Mistral Medium 3.5

53.200

Qwen3.5 122B A10B (Reasoning)

53.000

DeepSeek V3.2 (Reasoning)

52.900

Kimi K2.5 (Non-reasoning)

52.800

Qwen3.5 Omni Plus

52.800

GPT-5 Codex (high)

52.700

Qwen3.6 35B A3B (Non-reasoning)

52.500

52.300

MiMo-V2-Flash (Reasoning)

52.100

Gemini 3 Pro Preview (high)

52.000

52.000

Claude 4.5 Sonnet (Reasoning)

51.700

51.500

Qwen3.5 27B (Non-reasoning)

51.500

51.300

Grok 4.20 0309 (Reasoning)

50.900

MiMo-V2.5-Pro (Non-reasoning)

50.800

KAT Coder Pro V2

50.700

GPT-5.1 Codex (high)

50.700

Claude 4.5 Sonnet (Non-reasoning)

50.600

GPT-5.5 (Non-reasoning)

50.200

Qwen3 Max Thinking

50.100

Gemini 3 Flash Preview (Reasoning)

49.700

49.700

Qwen3.5 122B A10B (Non-reasoning)

49.500

Grok 4.1 Fast (Reasoning)

49.300

Grok 4.3 (Non-reasoning)

48.800

MiMo-V2-Flash (Feb 2026)

48.800

Step 3.5 Flash 2603

48.200

48.200

Qwen3.5 35B A3B (Non-reasoning)

48.000

Kimi K2 Thinking

47.900

GPT-5.4 nano (xhigh)

47.600

47.500

47.400

MiMo-V2-Flash (Non-reasoning)

47.300

Nova 2.0 Pro Preview (medium)

47.000

Hy3-preview (Non-reasoning)

46.700

GLM-4.7-Flash (Reasoning)

46.000

45.800

GPT-5 mini (high)

45.500

Gemini 3 Pro Preview (low)

45.000

Qwen3.5 35B A3B (Reasoning)

44.100

Claude 4 Sonnet (Reasoning)

43.000

43.000

Qwen3 Max Thinking (Preview)

43.000

GLM-4.6 (Non-reasoning)

42.900

Trinity Large Thinking

42.600

42.400

Qwen3 Coder Next

42.100

KAT-Coder-Pro V1

41.700

GPT-5.4 nano (medium)

41.600

Qwen3.5 Omni Flash

41.600

GLM-4.6 (Reasoning)

41.600

41.500

GLM-4.7-Flash (Non-reasoning)

41.400

Qwen3.5 9B (Non-reasoning)

41.100

Gemma 4 31B (Reasoning)

40.900

GPT-5 mini (medium)

40.900

GPT-5.4 mini (medium)

40.300

Claude 4.5 Haiku (Reasoning)

40.200

NVIDIA Nemotron 3 Super 120B A12B (Reasoning)

40.200

DeepSeek V3.2 (Non-reasoning)

39.800

39.700

ERNIE 5.0 Thinking Preview

39.700

GPT-5.2 (Non-reasoning)

39.500

Grok 4 Fast (Reasoning)

39.500

Gemma 4 31B (Non-reasoning)

39.400

Claude 4 Sonnet (Non-reasoning)

39.200

GPT-5.4 (Non-reasoning)

39.100

LongCat Flash Lite

38.800

GPT-5.1 Codex mini (high)

38.700

Grok 4.20 0309 v2 (Non-reasoning)

38.300

Nova 2.0 Omni (medium)

38.200

K-EXAONE (Reasoning)

38.100

38.100

HyperCLOVA X SEED Think (32B)

38.000

gpt-oss-120b (high)

37.900

Grok 4.20 0309 (Non-reasoning)

37.800

Nova 2.0 Pro Preview (low)

37.700

37.700

Qwen3.5 9B (Reasoning)

37.400

Nova 2.0 Lite (high)

37.300

Claude 3.7 Sonnet (Reasoning)

37.000

Mi:dm K 2.5 Pro

36.800

36.500

Doubao Seed Code

36.400

Qwen3.5 4B (Non-reasoning)

36.300

36.100

36.100

Claude 3.7 Sonnet (Non-reasoning)

35.700

Grok Code Fast 1

35.600

Gemini 3 Flash Preview (Non-reasoning)

35.000

34.900

Gemini 2.5 Flash Preview (Sep '25) (Reasoning)

34.700

Grok 4.1 Fast (Non-reasoning)

32.900

Nova 2.0 Lite (medium)

32.900

32.700

Claude 4.5 Haiku (Non-reasoning)

32.600

Qwen3.5 4B (Reasoning)

32.500

GPT-5.1 (Non-reasoning)

32.200

Gemma 4 26B A4B (Reasoning)

32.100

Grok 4 Fast (Non-reasoning)

32.000

DeepSeek V3.1 (Non-reasoning)

31.900

Grok 3 mini Reasoning (high)

31.200

K-EXAONE (Non-reasoning)

31.200

Tri-21B-think Preview

31.100

31.100

DeepSeek V3.2 Exp (Non-reasoning)

31.000

DeepSeek V3.1 Terminus (Reasoning)

29.800

Qwen3 235B A22B 2507 (Reasoning)

29.700

MiniCPM-V 4.6 1.3B

29.200

29.100

Gemma 4 26B A4B (Non-reasoning)

28.900

DeepSeek V3.2 Exp (Reasoning)

28.700

Apriel-v1.6-15B-Thinker

28.600

DeepSeek V3.1 Terminus (Non-reasoning)

28.600

gpt-oss-120b (low)

28.000

Nova 2.0 Lite (low)

27.800

Seed-OSS-36B-Instruct

27.700

gpt-oss-20B (high)

27.600

27.300

Qwen3.5 2B (Non-reasoning)

27.200

27.000

Qwen3 VL 235B A22B (Reasoning)

27.000

Nemotron Cascade 2 30B A3B

26.200

GPT-5.4 nano (Non-Reasoning)

25.900

Mistral Small 4 (Reasoning)

25.900

Gemini 3.1 Flash-Lite Preview

25.700

Mistral Medium 3.1

25.300

25.200

Devstral Small (May '25)

25.100

GPT-5.4 mini (Non-Reasoning)

25.000

Sarvam 105B (high)

24.700

24.600

Magistral Medium 1.2

24.500

Solar Open 100B (Reasoning)

24.300

24.300

Nova 2.0 Pro Preview (Non-reasoning)

23.900

Nemotron 3 Nano Omni 30B A3B Reasoning

23.900

Qwen3 Next 80B A3B (Reasoning)

23.600

Qwen3 VL 32B (Reasoning)

23.400

Qwen3 Max (Preview)

23.300

GPT-5 nano (high)

23.200

Qwen3.5 2B (Reasoning)

23.000

Gemini 2.5 Flash Preview (Sep '25) (Non-reasoning)

23.000

GPT-5 (minimal)

22.900

Qwen3 235B A22B 2507 Instruct

22.800

Nova 2.0 Omni (low)

22.600

gpt-oss-20B (low)

21.900

21.900

Qwen2.5 Instruct 32B

21.900

Qwen1.5 Chat 110B

21.900

21.900

Qwen3 4B (Reasoning)

21.900

Qwen2.5 Coder Instruct 7B

21.900

Mistral Large 3

21.700

Qwen3.5 0.8B (Non-reasoning)

21.700

Nova 2.0 Lite (Non-reasoning)

21.100

Qwen3 Coder 30B A3B Instruct

21.100

21.000

20.900

Devstral Small 2

20.800

DeepSeek R1 0528 (May '25)

20.800

19.800

Motif-2-12.7B-Reasoning

19.200

Qwen3 235B A22B (Non-reasoning)

19.200

NVIDIA Nemotron 3 Nano 30B A3B (Reasoning)

19.100

Qwen3 VL 235B A22B Instruct

19.100

DeepSeek V3.1 (Reasoning)

18.900

Gemini 2.5 Flash (Reasoning)

18.800

GLM-4.6V (Non-reasoning)

18.700

Mistral Small 4 (Non-reasoning)

18.600

Qwen3 235B A22B (Reasoning)

18.400

Qwen3 VL 8B Instruct

18.400

18.300

Qwen3 Coder 480B A35B Instruct

18.300

Claude 3.5 Haiku

17.700

Qwen3 30B A3B 2507 (Reasoning)

17.700

GLM-4.6V (Reasoning)

17.500

Ministral 3 14B

17.400

Magistral Small 1.2

17.300

GPT-5 nano (medium)

16.800

16.700

16.400

DeepSeek V3 0324

16.300

GLM-4.5 (Reasoning)

16.200

Qwen3.5 0.8B (Reasoning)

15.900

Gemini 2.0 Flash (Feb '25)

15.800

Devstral Medium

15.800

Magistral Medium 1

15.700

Qwen3 VL 8B (Reasoning)

15.600

15.300

Gemini 2.5 Flash (Non-reasoning)

15.000

Nova 2.0 Omni (Non-reasoning)

14.900

Qwen3 VL 30B A3B (Reasoning)

14.900

Qwen3 4B 2507 (Reasoning)

14.600

14.400

Qwen3 VL 4B (Reasoning)

14.400

Qwen3 14B (Reasoning)

14.400

Devstral Small (Jul '25)

14.300

Qwen3 Next 80B A3B Instruct

14.200

Granite 4.1 30B

14.000

13.900

Mistral Medium 3

13.700

Qwen3 14B (Non-reasoning)

13.600

Qwen3 32B (Reasoning)

13.500

GPT-5 mini (minimal)

13.400

Solar Pro 2 (Non-reasoning)

12.700

Hermes 4 - Llama-3.1 405B (Reasoning)

12.600

Qwen3 8B (Reasoning)

12.600

Qwen3 30B A3B (Reasoning)

12.100

Hermes 4 - Llama-3.1 405B (Non-reasoning)

11.800

11.800

Gemini 2.5 Flash-Lite Preview (Sep '25) (Reasoning)

11.700

Hermes 4 - Llama-3.1 70B (Reasoning)

11.700

Qwen3 8B (Non-reasoning)

11.600

Sarvam 30B (high)

11.500

11.400

Solar Pro 2 (Reasoning)

11.400

GLM-4.5V (Reasoning)

10.900

10.700

Qwen3 Omni 30B A3B (Reasoning)

10.600

Mistral Large 2 (Nov '24)

10.200

Gemini 2.5 Flash-Lite Preview (Sep '25) (Non-reasoning)

10.100

Hermes 4 - Llama-3.1 70B (Non-reasoning)

10.000

NVIDIA Nemotron 3 Nano 4B

9.800

Mistral Small 3.2

9.800

GPT-4o (Aug '24)

9.700

Qwen3 VL 32B Instruct

9.700

EXAONE 4.0 32B (Reasoning)

9.500

Qwen3 VL 30B A3B Instruct

9.500

Llama Nemotron Super 49B v1.5 (Reasoning)

9.400

NVIDIA Nemotron Nano 9B V2 (Reasoning)

9.400

9.300

GLM-4.5V (Non-reasoning)

9.200

Llama 3.3 Instruct 70B

9.100

Qwen3 4B 2507 Instruct

8.900

DeepSeek V3 (Dec '24)

8.800

Gemma 4 E4B (Non-reasoning)

8.700

Qwen3 1.7B (Reasoning)

8.700

GPT-5 nano (minimal)

8.600

NVIDIA Nemotron 3 Nano 30B A3B (Non-reasoning)

8.500

Llama Nemotron Super 49B v1.5 (Non-reasoning)

8.400

GPT-4o (Nov '24)

8.400

Mistral Small 3.1

8.400

8.300

NVIDIA Nemotron Nano 9B V2 (Non-reasoning)

7.800

Qwen3 VL 4B Instruct

7.800

Llama 3.1 Nemotron Instruct 70B

7.700

7.600

Gemma 4 E2B (Non-reasoning)

7.400

Qwen3 30B A3B (Non-reasoning)

7.400

Llama 4 Maverick

7.200

7.200

Qwen3 1.7B (Non-reasoning)

7.200

NVIDIA Nemotron Nano 12B v2 VL (Reasoning)

7.100

Olmo 3.1 32B Instruct

7.100

Qwen3 30B A3B 2507 Instruct

7.100

7.000

Qwen3 0.6B (Reasoning)

7.000

Gemma 4 E4B (Reasoning)

6.900

Gemma 4 E2B (Reasoning)

6.900

6.900

Exaone 4.0 1.2B (Non-reasoning)

6.800

LFM2.5-1.2B-Thinking

6.500

6.500

Granite 4.0 H 1B

6.500

NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)

6.400

Llama 3.1 Instruct 405B

6.300

Gemini 2.5 Flash-Lite (Non-reasoning)

6.300

Gemini 2.5 Flash-Lite (Reasoning)

6.100

Granite 4.0 H Small

5.800

5.800

5.800

Exaone 4.0 1.2B (Reasoning)

5.500

Qwen3 Omni 30B A3B Instruct

5.500

Llama 3.1 Instruct 8B

5.500

5.400

Jamba Reasoning 3B

5.300

5.200

5.100

Llama 3.1 Instruct 70B

5.100

Llama 3.2 Instruct 11B (Vision)

4.900

Granite 4.0 H 350M

4.900

Qwen3 0.6B (Non-reasoning)

4.900

4.700

4.700

4.500

Jamba 1.7 Large

4.500

Granite 4.0 350M

4.400

4.400

Apertus 70B Instruct

4.300

Olmo 3 7B Instruct

4.200

Granite 4.0 Micro

4.200

4.200

4.200

Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)

3.800

Apertus 8B Instruct

3.800

DeepSeek R1 (Jan '25)

3.800

3.700

LFM2.5-1.2B-Instruct

3.600

Gemma 3 12B Instruct

3.600

3.500

Gemma 3 27B Instruct

3.500

Gemma 3 1B Instruct

3.500

Granite 3.3 8B (Non-reasoning)

3.500

3.000

2.800

Phi-4 Mini Instruct

2.700

Gemma 3 4B Instruct

1.700

Gemma 3n E4B Instruct

1.700

EXAONE 4.0 32B (Non-reasoning)

1.400

Gemini 3 Deep Think

0.000

0.000

Olmo 3.1 32B Think

0.000

0.000

Olmo 3 7B Think

0.000

0.000

ERNIE 4.5 300B A47B

0.000

Tiny Aya Global

0.000

0.000

Llama 3 Instruct 70B

0.000

Llama 3 Instruct 8B

0.000

Llama 3.2 Instruct 1B

0.000

Gemma 3n E2B Instruct

0.000

DeepSeek V3.2 Speciale

0.000

Olmo 3 32B Think

0.000

Sarvam M (Reasoning)

0.000

数据来源：Artificial Analysis · 定期同步