reference-indexer

Name: reference-indexer
Rating: 70
Author: arbgjr

by arbgjr

Sistema de desenvolvimento de software orientado por agentes de IA que automatiza e coordena todo o ciclo de vida do desenvolvimento.

⭐ 1🍴 0📅 Jan 25, 2026

agentic-ai sdlc

View on GitHub Run in Manus

SKILL.md

name: reference-indexer description: | Indexa documentos de referencia para uso no RAG. Extrai texto de PDFs, processa e adiciona ao corpus. Use quando: adicionar documento, buscar referencia, listar docs. allowed-tools:

Read
Write
Bash
Glob user-invocable: true

Reference Indexer Skill

Proposito

Esta skill gerencia documentos de referencia externa, indexando-os para uso no RAG.

Comandos

/ref-add {path}

Adiciona documento ao indice de referencias:

/ref-add .agentic_sdlc/references/legal/lei-13775-2018.pdf

Acoes:

Valida o arquivo
Extrai texto (se PDF/Word)
Cria resumo automatico
Adiciona ao corpus RAG
Atualiza indice

/ref-search {query}

Busca nos documentos de referencia:

/ref-search "prazo de aceite duplicata"

Retorna:

Documentos relevantes
Trechos com contexto
Score de relevancia

/ref-list

Lista todos os documentos indexados:

/ref-list

Mostra:

Documentos por categoria
Status de indexacao
Data de adicao

/ref-remove {path}

Remove documento do indice:

/ref-remove .agentic_sdlc/references/legal/documento-antigo.pdf

Formatos Suportados

Formato	Extensao	Metodo de Extracao
PDF	.pdf	pdftotext / PyPDF2
Word	.docx	python-docx
Markdown	.md	Direto
Texto	.txt	Direto
HTML	.html	BeautifulSoup

Estrutura de Referencias

.agentic_sdlc/references/
├── legal/              # Leis, regulamentos, normas
├── technical/          # RFCs, especificacoes tecnicas
├── business/           # Regras de negocio, manuais
├── internal/           # Documentos internos
└── _index.yml          # Indice de documentos

Indice de Documentos

Arquivo _index.yml:

index:
  version: 1
  updated_at: "2026-01-12T..."

documents:
  - id: "ref-001"
    path: "legal/lei-13775-2018.pdf"
    title: "Lei 13.775/2018 - Duplicatas Eletrônicas"
    category: legal
    added_at: "2026-01-12T..."
    indexed: true
    summary: "Lei que regulamenta as duplicatas escriturais..."
    keywords:
      - duplicata
      - escritural
      - eletronica
    page_count: 5

  - id: "ref-002"
    path: "technical/icp-brasil.pdf"
    title: "Padrões ICP-Brasil"
    category: technical
    added_at: "2026-01-12T..."
    indexed: true

Extracao de Texto

PDF

# Usando pdftotext (poppler-utils)
pdftotext -layout input.pdf output.txt

# Usando Python
python3 << 'EOF'
import PyPDF2

with open('input.pdf', 'rb') as f:
    reader = PyPDF2.PdfReader(f)
    text = ''
    for page in reader.pages:
        text += page.extract_text() + '\n'
    print(text)
EOF

Word (docx)

from docx import Document

doc = Document('input.docx')
text = '\n'.join([p.text for p in doc.paragraphs])
print(text)

Integracao com RAG

Documentos indexados sao adicionados ao corpus RAG:

corpus_entry:
  id: "ref-001"
  source: "references/legal/lei-13775-2018.pdf"
  type: "reference"
  category: "legal"
  content: "{texto extraido}"
  embeddings: [...]  # Gerado pelo RAG
  metadata:
    title: "Lei 13.775/2018"
    page: 1
    section: "Art. 1"

Workflow de Indexacao

indexing_workflow:
  1_validate:
    - Verificar formato suportado
    - Verificar tamanho (max 50MB)
    - Verificar permissoes

  2_extract:
    - Extrair texto do documento
    - Limpar formatacao
    - Dividir em chunks

  3_analyze:
    - Gerar resumo automatico
    - Extrair keywords
    - Classificar categoria

  4_index:
    - Adicionar ao corpus RAG
    - Gerar embeddings
    - Atualizar indice

  5_verify:
    - Testar busca
    - Verificar qualidade

Configuracao

No settings.json:

{
  "memory": {
    "rag_corpus": ".agentic_sdlc/corpus",
    "max_document_size_mb": 50,
    "chunk_size": 1000,
    "chunk_overlap": 200
  }
}

Boas Praticas

Nomeie arquivos descritivamente: lei-13775-2018-duplicatas.pdf
Organize por categoria: legal, technical, business
Mantenha versoes: Nao sobrescreva, versione
Documente a fonte: Adicione de onde veio
Resuma docs longos: Crie resumos para PDFs grandes

Troubleshooting

PDF nao extrai texto

Alguns PDFs sao imagens escaneadas. Use OCR:

ocrmypdf input.pdf output.pdf
pdftotext output.pdf -

Documento muito grande

Divida em partes menores ou aumente max_document_size_mb.

Encoding incorreto

Force UTF-8 na extracao:

pdftotext -enc UTF-8 input.pdf output.txt

Score

Total Score

70/100

Based on repository quality metrics

✓SKILL.md

SKILL.mdファイルが含まれている

+20

✓LICENSE

ライセンスが設定されている

+10

✓説明文

100文字以上の説明がある

+10

○人気

GitHub Stars 100以上

0/15

○最近の活動

3ヶ月以内に更新がある

0/10

○フォーク

10回以上フォークされている

0/5

○Issue管理

オープンIssueが50未満

0/5

✓言語

プログラミング言語が設定されている

✓タグ

1つ以上のタグが設定されている

Reviews

💬

Reviews coming soon

reference-indexer

SKILL.md

Reference Indexer Skill

Proposito

Comandos

/ref-add {path}

/ref-search {query}

/ref-list

/ref-remove {path}

Formatos Suportados

Estrutura de Referencias

Indice de Documentos

Extracao de Texto

PDF

Word (docx)

Integracao com RAG

Workflow de Indexacao

Configuracao

Boas Praticas

Troubleshooting

PDF nao extrai texto

Documento muito grande

Encoding incorreto

Score

Reviews

orpc-contract-first

component-refactoring

web-design-guidelines

frontend-code-review

frontend-testing

vercel-react-best-practices

reference-indexer

SKILL.md

Reference Indexer Skill

Proposito

Comandos

/ref-add {path}

/ref-search {query}

/ref-list

/ref-remove {path}

Formatos Suportados

Estrutura de Referencias

Indice de Documentos

Extracao de Texto

PDF

Word (docx)

Integracao com RAG

Workflow de Indexacao

Configuracao

Boas Praticas

Troubleshooting

PDF nao extrai texto

Documento muito grande

Encoding incorreto

Score

Reviews

Related

Related Skills

orpc-contract-first

component-refactoring

web-design-guidelines

frontend-code-review

frontend-testing

vercel-react-best-practices