LLamaIndex
离线知识库
特点:
- 完全离线,无外部 API 依赖。
- 细粒度问答搜索。
- 多模态数据索引。
- 更好的中文支持。
入门
LlamaIndex 是一个用于 LLM 应用程序的数据框架,用于注入,结构化,并访问私有或特定领域数据。
在本质上,LLM(如 GPT)为人类和推断出的数据提供了基于自然语言的交互接口。广泛可用的大模型通常在大量公开可用的数据上进行的预训练,包括来自维基百科、邮件列表、书籍和源代码等。
构建在 LLM 模型之上的应用程序通常需要使用私有或特定领域数据来增强这些模型。不幸的是,这些数据可能分布在不同的应用程序和数据存储中。它们可能存在于 API 之后、SQL 数据库中,或者存在在 PDF 文件以及幻灯片中。
LlamaIndex 提供了五大核心工具:
- Data connectors:数据连接器
- 数据连接器支持将如 API、PDF、SQL 等数据源注入到 LlamaIndex 中。
- Data indexes:数据索引
- 用于将数据转换为 LLM 非常容易理解和消费的数据格式。目前它支持各种索引类型,如 Summary、Vector Store、Tree、Keyword Table 等。
- Engines:引擎
- 提供查询、对话等主要功能
- Data agents:数据代理
- Application integrations:应用集成
- 对接生态中的其他框架和工具,如 LangChain、Flask、ChatGPT 等。