学习资料
- 大型语言模型入门 —— Andrej Karpathy
- 短期课程 —— DeepLearning.AI
- 《从一年构建 LLM 的经验中学到的东西》:第一部分 第二部分 第三部分
- 书籍 理解 LangChain4j —— Antonio Goncalves
本地 LLMs
评估
- 你的 AI 产品需要评估
- 创建能够驱动业务结果的 LLM 评审系统
- RAG 流水线评估实用指南(第1部分:检索)
- RAG 流水线评估实用指南(第2部分:生成)
- 黄金数据集对 LLM 评估有多重要?
- 案例研究:RAG 流水线的无参考评估 vs 有参考评估
- 如何评估复杂的生成式 AI 应用:细粒度方法
- 生成合成数据以测试 LLM 应用
Agents
- 构建高效代理 —— Anthropic
排行榜
语言模型
- LMSYS Chatbot Arena
- SEAL 排行榜
- 模型比较(质量、速度、价格等)
- 幻觉检测: Vectara、Hallucinations
- 代码生成: BigCode
- 工具/函数: Gorilla、Nexus、Toolbench
- 性能(延迟、吞吐量、内存等)
- 企业场景