Valutare i sistemi RAG è complesso: il feedback umano è soggettivo, lento e non standardizzato, rendendo difficile misurare l’efficacia dei sistemi in scenari diversi. Aletheia nasce per risolvere questo problema. È un pacchetto Python che rende la valutazione dei sistemi RAG semplice, veloce e riproducibile. Grazie a metriche standardizzate, fornisce misure quantitative e oggettive delle performance.
L’intervento mostrerà come Aletheia analizzi sia la qualità dei contenuti recuperati (i chunk) sia quella delle risposte generate dai LLM, offrendo una visione completa e integrata del sistema. I team potranno così diagnosticare problemi, ottimizzare flussi di retrieval e generation e prendere decisioni basate su dati concreti.