zhchao的知识分享

主流大模型综合能力

核心参数与特性

模型	上下文	多模态	特点
GPT-4o	128K	视觉/语音	极速响应，综合最强
Claude 3.5	200K	视觉	代码与逻辑卓越
Gemini 1.5	1M~2M	全模态	超长上下文，视频理解
Llama 3.1	128K	仅文本	开源最强，可本地部署
Qwen 2.5	128K	视觉	中文开源标杆
DeepSeek V3	128K	仅文本	极高性价比，MoE架构

API价格对比 (输入$/百万Token)

各大模型简要介绍

GPT-4o

OpenAI · 2024年5月发布

GPT-4o 是 OpenAI 推出的旗舰多模态大模型，"o"代表"omni"（全能）。它实现了文本、视觉和语音的统一端到端处理，语音对话延迟低至 232 毫秒，接近人类日常交流速度。在文本推理、代码生成和多语言理解上均超越前代 GPT-4 Turbo，同时 API 成本下降 50%，速度提升 2 倍，是当前综合能力最强的通用大模型之一。

原生多模态实时语音 128K上下文函数调用

Claude 3.5 Sonnet

Anthropic · 2024年6月发布

Claude 3.5 Sonnet 是 Anthropic 的主力模型，在代码编写、逻辑推理和复杂分析任务上表现极其突出，多项基准测试超越 GPT-4o。200K 的超长上下文窗口使其能轻松处理大型代码库和长篇文档。独特的"Artifacts"功能可将生成的内容（代码、图表、文档）实时渲染在对话侧栏，极大提升了交互效率。在安全对齐方面延续了 Anthropic 的宪法AI（Constitutional AI）理念。

代码能力顶级 200K上下文 Artifacts 安全对齐

Gemini 1.5 Pro

Google DeepMind · 2024年2月发布

Gemini 1.5 Pro 最引人注目的特性是突破性的超长上下文能力——标准版支持 100 万 Token，实验版可达 200 万，这意味着它能一次性处理整本书、数小时的视频或数十万行代码。基于 MoE（混合专家）架构，仅激活相关参数，兼顾效率与能力。原生支持文本、图像、音频、视频和代码的多模态输入，与 Google 生态系统（搜索、Workspace、Android）深度集成。

百万级上下文 MoE架构视频理解 Google生态

Llama 3.1 405B

Meta · 2024年7月发布

Llama 3.1 405B 是目前参数量最大的开源大语言模型，拥有 4050 亿参数，性能可与闭源顶级模型正面竞争。Meta 同时发布了 70B 和 8B 两个小参数版本，覆盖不同算力需求。支持 128K 上下文，提供 8 种语言能力，并首次在开源模型中支持工具调用（函数调用）。其开源许可允许商业使用，推动了开源社区微调生态的蓬勃发展，是目前可本地部署的最强选择。

开源可商用 405B参数可本地部署工具调用

Qwen 2.5 72B

阿里巴巴 · 2024年9月发布

Qwen 2.5 是阿里通义千问系列的最新开源模型，覆盖 0.5B 到 72B 共 7 个参数规模。72B 版本在中文理解与生成、代码编写和数学推理上表现尤为出色，多项评测中在开源模型里名列前茅。支持 128K 上下文，具备强大的多语言能力（覆盖 29 种语言），并提供视觉-语言（Qwen2-VL）和数学专用（Qwen2-Math）等变体。中文场景下的表现使其成为国内开发者的首选开源模型。

中文最强开源系列全 29种语言视觉变体

DeepSeek-V3

深度求索 · 2024年12月发布

DeepSeek-V3 是国产大模型中的性价比之王，采用 MoE 架构，总参数 671B 但每次推理仅激活 37B，实现了性能与成本的最佳平衡。在 MMLU、HumanEval 等核心基准上达到与 GPT-4o、Claude 3.5 Sonnet 同等水平，但 API 定价仅为前者的约 1/20，输入价格低至每百万 Token 0.27 美元。训练总成本仅 557 万美元，远低于同类模型，开创了高效训练大模型的新范式，是预算敏感场景下的最优解。

极致性价比 MoE架构低成本训练国产开源