RAG开源工具项目集
大语言模型的快速发展以及性能的提升,为以前遥不可及的想法/功能提供了可能,同时很多都被实现出来,惊艳了世界。开源项目为世界提供了纷繁复杂的工具,极大加速了创新。对于个人开发者以及小团队,在大语言模型这个浪潮下的生存土壤,我认为就是微创新+快速迭代,不断尝试寻找机会,找到需求和买家。一些微创新和新想法来自于新工具/新事物的出现,快速组合,因此在开源世界上及时发现这些新项目,尤为重要。本文将长期更新,积累我在互联网世界中发现的好玩的/有意思的/性价比高的开源项目,同时也分享给大家。
RAG框架
- MaxKB是一款基于大语言模型和 RAG 的开源知识库问答系统,广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。
- 开箱即用:支持直接上传文档 / 自动爬取在线文档,支持文本自动拆分、向量化和 RAG(检索增强生成),有效减少大模型幻觉,智能问答交互体验好;
- 模型中立:支持对接各种大模型,包括本地私有大模型(DeepSeek R1 / Llama 3 / Qwen 2 等)、国内公共大模型(通义千问 / 腾讯混元 / 字节豆包 / 百度千帆 / 智谱 AI / Kimi 等)和国外公共大模型(OpenAI / Claude / Gemini 等);
- 灵活编排:内置强大的工作流引擎和函数库,支持编排 AI 工作过程,满足复杂业务场景下的需求;
- 无缝嵌入:支持零编码快速嵌入到第三方业务系统,让已有系统快速拥有智能问答能力,提高用户满意度。
- PIKE-RAG系统是一种检索增强生成(RAG)框架,旨在解决传统RAG系统在处理复杂、领域特定工业应用时的局限性。
- 它包括文档解析、知识提取、存储、检索、组织、推理和任务分解/协调等多个模块,相比之下,通用RAG系统通常只包含检索器和生成器两个主要部分。这种模块化设计让PIKE-RAG更灵活,能适应工业领域的多样化需求。
- 它使用上下文感知分割和多粒度知识提取技术,特别适合处理专业术语和领域特定知识。通用RAG系统更多依赖简单的检索方法,如关键词匹配或语义相似性,可能会在处理复杂领域知识时表现不佳。
- 它能生成推理逻辑路径,指导语言模型产生准确回答,并支持将复杂查询分解为小任务,适合需要多步推理的场景。通用RAG系统通常不具备这些功能,更多是直接基于检索内容生成回答。
- 它针对制造业、采矿和制药等工业领域进行了优化,处理专业术语和结构化数据的能力更强,这一点在通用RAG中不常见。
AI-Agent
- OpenManus是一个由 MetaGPT 团队开发的开源项目,旨在复刻并优化 Manus 的核心功能。Manus 是一款由中国团队开发的新型 AI 助手(AI Agent),以其强大的自主任务执行能力而闻名,例如规划旅行、分析股票、生成代码等,但它目前需要邀请码才能使用,且访问门槛较高。OpenManus 的目标是将类似的功能带入开源社区,提供一个无需邀请码、可本地部署的智能体解决方案,让更多人能够自由使用和定制。
OCR识别
- olmOCR 是一个开源的光学字符识别(OCR)项目,主要功能是将PDF和其他文档转换为纯文本,同时保留原始文档的阅读顺序。以下是关于olmOCR的一些关键信息:
- 能够处理复杂的文档布局,包括表格、数学公式和手写内容。
- 旨在提高PDF文档转换为可编辑文本的效率和准确性。
- 利用视觉语言模型(VLMs)解析和线性化复杂的PDF文档。
- 支持分布式多节点解析数百万份PDF文档。
- SmolDocling-256M-preview 是一个轻量级文档 OCR 模型。该模型以仅 256MB 的体积、0.35 秒/页 的超快处理速度,以及 <500MB VRAM 的极低显存需求,成为 RAG(检索增强生成)和端侧文档处理领域的颠覆性工具。其性能宣称超越同类模型 27 倍,并在文档转换任务中达到 SOTA 水平。
- Docling 简化了文档处理,解析各种格式(包括高级 PDF 理解),并提供与 gen AI 生态系统的无缝集成。
- 🗂️ 解析多种文档格式,包括 PDF、DOCX、XLSX、HTML、图像等
- 📑 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
- 🧬 统一、富有表现力的DoclingDocument表现格式
- ↪️ 各种导出格式和选项,包括 Markdown、HTML 和无损 JSON
- 🔒 针对敏感数据和隔离环境的本地执行能力
- 🤖 即插即用集成,包括 LangChain、LlamaIndex、Crew AI 和用于代理 AI 的 Haystack
- 🔍 广泛支持扫描的 PDF 和图像的 OCR
- 🥚 支持视觉语言模型(SmolDocling)🆕
- 💻 简单方便的 CLI
音频转文字
- SoftWhisper基于 Whisper.cpp 实现的高性能音频转文字的工具,官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。
音乐创作
- DiffRhythm是一个能够创作完整歌曲的开源基于扩散的音乐生成模型,由西北工业大学音频语音与语言处理研究组开发。