AI论文

AI领域最新论文摘要，共 5 篇

DeepSeek-V3 Technical Report

2024/12/26

DeepSeek-V3是一个拥有6710亿参数的MoE语言模型，采用Multi-head Latent Attention和DeepSeekMoE架构。在14.8万亿token上训练，仅消耗2.788M GPU小时，性能与GPT-4o和Claude 3.5 Sonnet相当。

2024/12/26

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

2024/8/6

本文研究了在推理阶段增加计算量来提升大语言模型性能的方法。研究发现，通过在测试时分配更多计算资源，小模型可以在某些任务上超越大模型，为AI模型的高效部署提供了新思路。

2024/8/6

The Llama 3 Herd of Models

2024/7/31

Meta发布了Llama 3系列模型的技术报告，包含8B、70B和405B参数版本。Llama 3.1 405B是首个参数量超过4000亿的开源模型，在多项基准测试上与GPT-4和Claude 3.5 Sonnet表现相当。

2024/7/31

Chain-of-Thought Reasoning Without Prompting

2024/2/15

研究发现，大语言模型可以在不使用思维链提示的情况下自发进行推理。通过调整解码策略，模型能够自动生成中间推理步骤，显著提升在数学和逻辑推理任务上的表现。

2024/2/15

Constitutional AI: Harmlessness from AI Feedback

2022/12/15

Anthropic提出了Constitutional AI方法，使用AI自身反馈来训练无害的AI系统。该方法通过制定一组宪法原则，让AI自我批评和修正，减少了对人工标注的依赖。

2022/12/15