AI论文

AI领域最新论文摘要,共 5

DeepSeek-V3 Technical Report
2024/12/26
DeepSeek-V3是一个拥有6710亿参数的MoE语言模型,采用Multi-head Latent Attention和DeepSeekMoE架构。在14.8万亿token上训练,仅消耗2.788M GPU小时,性能与GPT-4o和Claude 3.5 Sonnet相当。
2024/12/26
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
2024/8/6
本文研究了在推理阶段增加计算量来提升大语言模型性能的方法。研究发现,通过在测试时分配更多计算资源,小模型可以在某些任务上超越大模型,为AI模型的高效部署提供了新思路。
2024/8/6
The Llama 3 Herd of Models
2024/7/31
Meta发布了Llama 3系列模型的技术报告,包含8B、70B和405B参数版本。Llama 3.1 405B是首个参数量超过4000亿的开源模型,在多项基准测试上与GPT-4和Claude 3.5 Sonnet表现相当。
2024/7/31
Chain-of-Thought Reasoning Without Prompting
2024/2/15
研究发现,大语言模型可以在不使用思维链提示的情况下自发进行推理。通过调整解码策略,模型能够自动生成中间推理步骤,显著提升在数学和逻辑推理任务上的表现。
2024/2/15
Constitutional AI: Harmlessness from AI Feedback
2022/12/15
Anthropic提出了Constitutional AI方法,使用AI自身反馈来训练无害的AI系统。该方法通过制定一组宪法原则,让AI自我批评和修正,减少了对人工标注的依赖。
2022/12/15