AI背景图
zhchao的知识分享
主流大模型综合能力
核心参数与特性
模型上下文多模态特点
GPT-4o128K视觉/语音极速响应,综合最强
Claude 3.5200K视觉代码与逻辑卓越
Gemini 1.51M~2M全模态超长上下文,视频理解
Llama 3.1128K仅文本开源最强,可本地部署
Qwen 2.5128K视觉中文开源标杆
DeepSeek V3128K仅文本极高性价比,MoE架构
API价格对比 (输入$/百万Token)
各大模型简要介绍

GPT-4o

OpenAI · 2024年5月发布

GPT-4o 是 OpenAI 推出的旗舰多模态大模型,"o"代表"omni"(全能)。它实现了文本、视觉和语音的统一端到端处理,语音对话延迟低至 232 毫秒,接近人类日常交流速度。在文本推理、代码生成和多语言理解上均超越前代 GPT-4 Turbo,同时 API 成本下降 50%,速度提升 2 倍,是当前综合能力最强的通用大模型之一。

原生多模态 实时语音 128K上下文 函数调用

Claude 3.5 Sonnet

Anthropic · 2024年6月发布

Claude 3.5 Sonnet 是 Anthropic 的主力模型,在代码编写、逻辑推理和复杂分析任务上表现极其突出,多项基准测试超越 GPT-4o。200K 的超长上下文窗口使其能轻松处理大型代码库和长篇文档。独特的"Artifacts"功能可将生成的内容(代码、图表、文档)实时渲染在对话侧栏,极大提升了交互效率。在安全对齐方面延续了 Anthropic 的宪法AI(Constitutional AI)理念。

代码能力顶级 200K上下文 Artifacts 安全对齐

Gemini 1.5 Pro

Google DeepMind · 2024年2月发布

Gemini 1.5 Pro 最引人注目的特性是突破性的超长上下文能力——标准版支持 100 万 Token,实验版可达 200 万,这意味着它能一次性处理整本书、数小时的视频或数十万行代码。基于 MoE(混合专家)架构,仅激活相关参数,兼顾效率与能力。原生支持文本、图像、音频、视频和代码的多模态输入,与 Google 生态系统(搜索、Workspace、Android)深度集成。

百万级上下文 MoE架构 视频理解 Google生态

Llama 3.1 405B

Meta · 2024年7月发布

Llama 3.1 405B 是目前参数量最大的开源大语言模型,拥有 4050 亿参数,性能可与闭源顶级模型正面竞争。Meta 同时发布了 70B 和 8B 两个小参数版本,覆盖不同算力需求。支持 128K 上下文,提供 8 种语言能力,并首次在开源模型中支持工具调用(函数调用)。其开源许可允许商业使用,推动了开源社区微调生态的蓬勃发展,是目前可本地部署的最强选择。

开源可商用 405B参数 可本地部署 工具调用

Qwen 2.5 72B

阿里巴巴 · 2024年9月发布

Qwen 2.5 是阿里通义千问系列的最新开源模型,覆盖 0.5B 到 72B 共 7 个参数规模。72B 版本在中文理解与生成、代码编写和数学推理上表现尤为出色,多项评测中在开源模型里名列前茅。支持 128K 上下文,具备强大的多语言能力(覆盖 29 种语言),并提供视觉-语言(Qwen2-VL)和数学专用(Qwen2-Math)等变体。中文场景下的表现使其成为国内开发者的首选开源模型。

中文最强 开源系列全 29种语言 视觉变体

DeepSeek-V3

深度求索 · 2024年12月发布

DeepSeek-V3 是国产大模型中的性价比之王,采用 MoE 架构,总参数 671B 但每次推理仅激活 37B,实现了性能与成本的最佳平衡。在 MMLU、HumanEval 等核心基准上达到与 GPT-4o、Claude 3.5 Sonnet 同等水平,但 API 定价仅为前者的约 1/20,输入价格低至每百万 Token 0.27 美元。训练总成本仅 557 万美元,远低于同类模型,开创了高效训练大模型的新范式,是预算敏感场景下的最优解。

极致性价比 MoE架构 低成本训练 国产开源