Evaluation & Audit Platform (Langfuse)

Online evaluation, tracing, and audit trails to monitor inputs/outputs, model scores, country context, and prompt versions for safety reviews.

More Work

Helpdesk Copilot Agent-Assist

A nurse-facing AI assistant that benchmarks emergency classifiers, scores response quality, and queues doctor-reviewed labeling for continuous improvement.

Knowledge Base to Vector Store

Transformed large knowledge banks into structured, localized Q&A with a country-aware vector store and metadata tagging.

Offline Evaluation Dataset

Created ~500 labeled emergency vs non-emergency messages and a doctor-reviewed benchmark for response quality.