PDUUTは、学生と研究者向けに構築されたオープンソースPDF抽出器です。ページごとの本を分割し、テキスト、方程式、および図を構造化されたJSONにキャプチャします。これは、RAGデータセットに最適です。私たちに参加して、貢献し、学習をアクセスしやすくしてください!