任何机器学习应用的初始阶段都需要进行数据准备。这包括建立数据输入管道和预处理数据，使其与推理管道兼容。

在本篇文章中，我们将关注 RAG 的数据准备方面。我们的目标是有效地组织和结构化数据，确保在应用程序中定位答案的最佳性能。

步骤 1：数据输入Data Ingestion

构建消费者友好型聊天机器人始于好的数据选择。

好的选择：确定从用户到 API 的数据源，并建立推送机制，以便对 LLM 应用程序进行持续更新。

数据管理很重要：提前实施数据管理政策。对文件来源进行审计和编目，对敏感数据进行编辑，并为上下文培训奠定基础。

质量检查：评估数据的多样性、规模和噪音水平。质量较低的数据集会冲淡响应，因此有必要尽早建立分类机制。

保持领先：即使在快节奏的 LLM 开发过程中，要坚持数据治理。这可以降低风险，确保可扩展的、稳健的数据提取。

实时清理：从 Slack 等平台提取数据？实时过滤噪音、错别字和敏感内容，打造高效的 LLM 应用。

步骤 2：数据清理Data Cleaning

文件中的每个页面都会转换为文档对象，并包含两个基本组件：页面内容和元数据。page_content 和 metadata.

”页面内容“是直接从文档页面中提取的文本内容。

“元数据“是附加详细信息的重要组合，如文档的来源（源文件）、页码、文件类型和其他信息。元数据在生成答案时，会记录它所利用的特定来源。

为了实现这一目标，可以使用数据加载器等工具，这些工具由 LangChain 和 Llamaindex 等开源库提供。这些库支持各种格式，从 PDF 和 CSV 到 HTML、Markdown 甚至数据库。

这种方法的优点是可以通过页码检索文件。

步骤 3：分块Chunking

为什么要分块？

在软件世界里，改变游戏规则的关键在于如何塑造数据--无论是标记符、PDF 还是其他文本文件。

想象一下：有一份厚厚的 PDF 文件，现在就其内容提出问题。问题出在哪里？传统的方法是将整个文档和您的问题扔给模型，但效果不佳。为什么呢？让我们来谈谈模型“上下文窗口的局限性”。

把上下文窗口想象成对文档的窥视，通常仅限于一页或几页。现在，一次共享整个文档？不太现实。不过不用担心！

诀窍在于将“数据分块”。将数据分解成易于处理的部分，只将最相关的部分发送给模型。这样，就不会让模型不堪重负，而且还能获得需要的回答。

通过将结构化文件分解成易于管理的小块，我们让 LLM 能够以无与伦比的效率处理信息。这种方法不再受页数限制，可确保关键细节不会在混乱中丢失。

分块前的一些点？

文档的结构和长度：

长文档：书籍、学术文章等
短文档：社交媒体帖子、客户评论等。
嵌入模型：分块大小决定了应使用何种嵌入模型。
预期查询：使用案例是什么？

数据块大小?

Small chunk size 小块：例如：单句 → 生成的上下文信息较少：单句 → 生成的上下文信息较少。

Large chunk size 大块尺寸：例如：整页、多个段落、完整文档：整页、多个段落、完整文档。在这种情况下，语块涵盖的信息更多，可以通过更多的上下文信息提高生成效率。

LLM 上下文窗口限制？

Top-K Retrieved Chunks：假设 LLM 的上下文窗口大小为 10,000 tkens，我们为给定的用户查询保留了其中的 1000 tokens，再为指令提示和聊天记录保留了其中的 2000 tkens，这样就只剩下 7000 tkens 可用于其他信息。假设我们打算将 K = 10 的前 10 个信息块传入 LLM，这就意味着我们要将剩余的 7000 个信息块除以 10 个信息块，这样每个信息块的最大信息量将为 700 个。
分块大小范围：下一步是选择一定范围的潜在块大小进行测试。如前所述，选择时应考虑到内容的性质（如短信息或长文档）、将使用的嵌入模型及其功能（如标记限制）。目的是在保留上下文和保持准确性之间找到平衡。首先要探索各种块的大小，包括捕获更细粒度语义信息的较小块（如 128 或 256 标记）和保留更多上下文的较大块（如 512 或 1024 标记）。

评估每种分块大小的性能--要测试各种分块大小，可以使用多个索引，或者使用具有多个命名空间的单个索引。使用具有代表性的数据集，为要测试的块大小创建嵌入，并将其保存在索引（或多个索引）中。

然后，可以运行一系列可以评估质量的查询，并比较不同块大小的性能。这很可能是一个迭代的过程，在这个过程中，你会针对不同的查询测试不同的块大小，直到你能根据内容和预期查询确定性能最好的块大小。

高Context长度的限制?

由于 Transformer 模型的Self Attention 机制，高Context长度会导致时间和内存的二次增长。

在 LlamaIndex 发布的这个示例中，您可以从下表中看到，随着分块大小的增加，平均响应时间略有上升。

有趣的是，平均似乎在数据块大小为 1024 时达到顶峰，而平均相关性则随着数据块大小的增大而持续提高，同样在 1024 时达到顶峰。这表明，1024 的数据块大小可以在响应时间和响应质量之间取得最佳平衡。

分块方法

有不同的分块方法，每种方法都可能适用于不同的情况。通过研究每种方法的优缺点，我们的目标是找出适合的应用场景。

固定大小的分块

我们决定每个分块中的标记数量，同时考虑到可选的重叠。为什么要重叠？为了确保语义上下文的丰富性在各语块之间保持不变。

为什么采用固定大小？这是大多数情况下的黄金路径。它不仅计算成本低廉，节省了处理能力，而且使用起来轻而易举。无需复杂的 NLP 库，只需优雅地将固定大小的数据块无缝分解即可。

下面是使用 LangChain 执行固定大小分块的示例：

b. 专业分块

专用分块Markdown 和 LaTeX 是可能会遇到的结构化和格式化内容的两个例子。在这种情况下，可以使用专门的分块方法，在分块过程中保留内容的原始结构。

Markdown 是一种轻量级标记语言，常用于格式化文本。通过识别 Markdown 语法（如标题、列表和代码块），可以根据内容的结构和层次对其进行智能划分，从而形成语义更加连贯的分块。例如

LaTex 是一种文档编制系统和标记语言，常用于学术论文和技术文档。通过解析 LaTeX 命令和环境，可以创建尊重内容逻辑组织（如章节、小节和方程式）的语块，从而获得更准确和与上下文相关的结果。例如

https://medium.com/@vipra_singh/building-llm-applications-data-preparation-part-2-b7306d224245

MCP（模型上下文协议）是一个由Anthropic于2024年11月提出的开放标准，旨在解决AI模型与外部数据源和工具连接的标准化问题。

MCP被描述为AI助手连接到内容库、商业工具和开发环境的一种通用接口，帮助AI模型生成更相关、更准确的响应。

根据Anthropic的官方介绍 (Anthropic: Introducing the Model Context Protocol)，MCP的目标是打破数据孤岛，解决AI模型因信息孤立而受限的问题。

传统上，每个新数据源都需要自定义实现，这使得系统难以扩展。MCP通过提供一个统一的协议，取代了碎片化的集成方式，使AI系统能够更轻松地访问所需上下文。

Medium上的文章 (Medium: Getting Started with Model Context Protocol)进一步解释，MCP被比喻为AI的USB-C端口，类似于USB-C如何标准化设备连接，MCP为AI模型与各种数据源和工具的连接提供了一种标准化方法。这简化了集成，打破了数据孤岛，并释放了AI提供高质量输出的潜力。

MCP采用客户端-服务器架构，具体来说，AI应用（如Claude桌面应用）作为MCP主机，连接到MCP服务器，这些服务器暴露特定的功能。例如，MCP服务器可以提供文件系统操作、GitHub API集成、Google Drive访问或PostgreSQL数据库查询等能力 (Model Context Protocol Documentation: Core architecture)。

MCP的应用范围非常广泛，包括但不限于Blender的3D场景生成、Perplexity的实时网络搜索、QGIS的地图绘制、PubMed的学术数据库访问、Supabase数据库连接、Gradio客户端的工具集成、通知声音播放、Weaviate的向量搜索能力以及Figma设计的代码生成 (X post by Min Choi)。

MCP在学术领域的应用，例如通过PubMed数据库连接Claude，这允许AI直接访问学术文章，极大地提升了研究效率 (X post by Mushtaq Bilal, PhD)。安装过程包括下载Claude桌面应用、安装Node.js、获取Brave API密钥，并配置JSON文件以启用MCP服务器，这可以在15分钟内完成。

MCP的另一个优势是灵活性，它允许开发者在不同LLM提供商和供应商之间切换，同时遵循最佳实践来保护数据安全 (Model Context Protocol Documentation: Introduction)。GitHub上的MCP项目 (Model Context Protocol GitHub)欢迎社区贡献，提供了详细的文档和教程，鼓励开发者参与改进。

序号	应用示例	描述
1	Blender MCP	Claude可通过提示直接生成3D场景
2	Perplexity MCP	AI助手可进行实时网络搜索
3	MCP QGIS	使用QGIS进行地图绘制
4	Firecrawl MCP	通过提示克隆任何网站
5	PubMed学术数据库	连接Claude以访问学术文章
6	Supabase数据库	连接数据库进行数据查询
7	MCP Gradio客户端	使用Gradio接口与MCP服务器交互
8	通知MCP	任务完成后播放声音通知
9	Weaviate MCP	连接Weaviate的向量搜索能力
10	Figma MCP	从Figma设计轻松生成代码

‣

智汇AI

Anthropic AI Agents科普

NotebookLLM

Livebench-LLM评估和基准测试平台

RAG：数据准备

步骤 1：数据输入Data Ingestion

步骤 2：数据清理Data Cleaning

步骤 3：分块Chunking

ForesightNews的Web3中AI项目全盘点

当前 MCP的一些实际运用