Back to list
opendataloader-project

bench

by opendataloader-project

PDF Parsing for RAG — Convert to Markdown & JSON, Fast, Local, No GPU

826🍴 45📅 Jan 22, 2026

SKILL.md


name: bench description: Run benchmark and analyze PDF parsing performance

/bench

Builds Java and runs the full benchmark suite, then analyzes results.

Execution Steps

  1. Run ./scripts/bench.sh
  2. Extract metrics from tests/benchmark/prediction/opendataloader/evaluation.json using:
    jq '{summary, metrics, table_detection, speed}' tests/benchmark/prediction/opendataloader/evaluation.json
    
  3. Output summary:
    • NID (reading order)
    • TEDS (table structure)
    • MHS (heading structure)
    • Table Detection F1/Precision/Recall
    • Speed (s/doc, total time)
  4. Compare with thresholds in tests/benchmark/thresholds.json
  5. Warn if regression detected

Options

  • /bench --doc-id 01030000000189 - Run for a specific document only

Notes

  • Benchmark won't run if Java build fails
  • First run installs Python dependencies via uv sync

Score

Total Score

80/100

Based on repository quality metrics

SKILL.md

SKILL.mdファイルが含まれている

+20
LICENSE

ライセンスが設定されている

+10
説明文

100文字以上の説明がある

0/10
人気

GitHub Stars 500以上

+10
最近の活動

1ヶ月以内に更新

+10
フォーク

10回以上フォークされている

+5
Issue管理

オープンIssueが50未満

+5
言語

プログラミング言語が設定されている

+5
タグ

1つ以上のタグが設定されている

+5

Reviews

💬

Reviews coming soon