チャンキングは、LLMSを扱うときに検索のパフォーマンスに大きく影響します。プリプロセスはドキュメントを最適なテキストのチャンクに分割します。元のドキュメント構造とコンテンツセマンティクスに基づいて、PDFおよびオフィスファイルを分割します。