karpathy/llm.c 是一个简单易用的 C/CUDA 实现的LLM(Large Language Model)训练项目,旨在为用户提供一个清晰简单的参考实现。此外,项目还包含更加优化的版本,能够接近 PyTorch 的性能,同时代码和外部依赖也大大减少。当前项目正在开发直接的CUDA实现、使用SIMD指令优化CPU版本,以及支持更多现代架构,如Llama2、Gemma等。
1. 使用简单的C/CUDA实现LLM训练;2. 提供清晰简单的参考实现;3. 包含性能接近PyTorch的优化版本;4. 支持多种现代LLM架构。
1. 简单易用,适合LLM训练的参考实现;2. 性能优化,接近PyTorch;3. 代码及外部依赖大大减少,便于部署和维护。
1. 作为LLM训练的参考实现;2. 进一步优化和扩展LLM模型的基础。
1. 实现了基于GPT-2的小规模语言模型;2. 大幅提升了训练速度;3. 支持Llama2架构的LLM训练工具开发;4. 自行开发针对特定应用场景的LLM模型。
目前还在开发中,部分功能可能尚未完全成熟。