5

Evaluation and Security

Days 56–73 · 18 lessons

Observability & Tracing with LangSmith and Phoenix

Visualizing Token Counts and Latency

LLM-as-Judge — Part 1: Automated Evaluation

LLM-as-Judge — Part 2: Advanced Evaluation Techniques

Evaluating RAG Systems with Ragas

Evaluating Agent Trajectories

Security & Guardrails: Prompt Injection

Output Sanitization

LLM Guardrails

Safe Sandboxing with Docker — Part 1: Isolation & Resource Limits

Docker Sandboxing — Part 2: Injecting Secrets & a Production SecureSandbox

PII & Data Privacy in RAG/Agents

Production Hardening for AI Systems

Human-in-the-Loop (HITL) Patterns

Human-in-the-Loop (HITL) Patterns Part 2

Designing Breakpoints in Agent Systems

Injecting Human Feedback into Agent State

Capstone — Multi-Agent Content Pipeline with Human Review