Workflows HOROS

Pipeline de traitement documentaire HORAG. Chaque workflow est une séquence de workers supervisés. Chaque worker est un binaire indépendant.

Pipeline complet

Le flux principal transforme un document brut en claims vérifiables et en vecteurs interrogeables. Les cinq workflows couvrent l'acquisition, le pré-traitement, l'extraction, l'embedding et l'indexation.

source → fetch → triage (lang, classify) → pré-traitement (meta, entités, resolve, augment) → extraction (NER, claims, vérification) → embedding → indexation shard

Annuaire des workflows

WorkflowDescriptionÉtapes
premachage_webPré-traitement documents weblangdetect → meta_extract → regex_entities → classify → resolve → augment
premachage_documentPré-traitement documents PDF/DOCXparse → sanitize → langdetect → classify → resolve → augment
claims_extractionExtraction de claims et d'entités nomméesner_detect → claim_decompose → claim_verify
injectionEmbedding vectoriel et indexation dans les shardsembed → vec_insert → shard_sync
acquisitionCollecte depuis les sources configuréessource_registry → scheduler → fetch → triage