| secret-llama | 指标 | FlashMLA |
|---|---|---|
| 2,676 | 星标 | 12,559 |
| 92 | 评分 | 92 |
| AI | 分类 | AI |
Secret Llama 是一款完全在浏览器中运行的聊天机器人,允许用户与 Llama 3 和 Mistral 等开源模型进行交互。它通过将所有对话数据保留在用户的本地计算机上来确保完全的隐私,且无需任何服务器支持。该平台提供了一个用户友好的界面,支持离线运行并利用 WebGPU 实现高效的模型推理。
FlashMLA 是由 DeepSeek 开发的高性能注意力内核库,旨在为其 V3 和 V3.2-Exp 模型提供动力。它为预填充和解码阶段的稀疏和密集注意力机制提供了专门的实现。该库针对现代 GPU 架构进行了优化,并支持 FP8 KV 缓存等高级功能,以最大化计算吞吐量。