Skip to content

分割器介绍

简单文档分割器

默认为 简单文档分割器,将文件内容按段进行分割,并生成多个文件块。

简单文档分割器:主要用于将长文本切分成多个较小的片段(Chunks),并支持片段之间的重叠(Overlap)。

  1. 核心参数说明

(1)chunkSize(分段长度)

  • 含义:每个文本片段(Chunk)的 最大字符长度(按 String.length() 计算)。
  • 作用:控制单段文本的大小,避免因文本过长导致模型处理困难(如超出 LLM 的上下文窗口限制)。
  • 示例
    若 chunkSize=500,则每个片段的字符数 ≤ 500。
    若剩余文本不足 500 字符,则直接截取剩余部分。

(2)overlapSize(分段重叠长度)

  • 含义:相邻两个片段之间 重叠的字符数。
  • 作用:避免因硬截断导致语义断裂(例如一个句子被截成两半)。
  • 示例

若 chunkSize=500、overlapSize=100,则:

第 1 个片段:0~500 字符

第 2 个片段:400~900 字符(前 100 字符与第 1 片段重叠)

第 3 个片段:800~1300 字符(依此类推)

正则文档分割器

正则文档分割器:采用正则表达式(Regex)作为分割规则,将文档内容按照匹配的模式进行智能拆分,特别适合处理具有规律性结构的文档。

  • 智能分割:根据用户提供的正则表达式模式进行内容分割
  • 灵活匹配:支持所有标准正则表达式语法
  • 结构保留:完美处理结构化文档(如日志、代码等)

简单分词器

这是一个基于 Token 计数 的智能文档分割器,专为处理大语言模型(LLM)输入设计。主要特点:

  • 按Token数量而非字符数分割
  • 支持重叠分割保持上下文连贯
  • 自动处理中文等Unicode字符
  • 适配OpenAI等主流模型的Token计算方式

分段长度:单段最大Token数
分段重叠长度: 分段重叠Token数

Excel片段生成器

这是一个专门用于处理 Excel表格数据 的文档分割器 分段长度:每个分块的行数,根据excel的行数进行分割