Platform Capabilities

Data Modalities

Rubric supports evaluation across all major healthcare AI data types:

Voice & Audio

Patient calls, triage conversations, voice assistants

Clinical Notes

SOAP notes, discharge summaries, visit documentation

Medical Imaging

DICOM studies, X-rays, CT, MRI, pathology slides

Voice & Audio

Feature	Description
Audio file support	WAV, MP3, M4A, FLAC up to 2 hours
Transcript formats	JSON with speaker labels and timestamps
Real-time streaming	WebSocket API for live call evaluation
Multi-speaker	Automatic speaker diarization

Clinical Notes

Feature	Description
Document types	SOAP, H&P, Progress notes, Discharge summaries
Structured extraction	ICD-10, CPT, SNOMED CT code validation
Section parsing	Automatic section identification
Template support	Custom documentation templates

Medical Imaging (DICOM)

Feature	Description
Modalities	CR, CT, MR, US, PT, MG, DX, and more
PACS integration	DICOMweb (WADO-RS, STOW-RS)
Coordinate systems	Pixel, anatomical, and normalized coordinates
Series handling	Multi-frame and multi-series support

Evaluation Framework

The core of Rubric — automated clinical evaluation powered by healthcare-specific evaluators.

Evaluation Types

Model Output Accuracy

Validates that AI model outputs are correct and match expected results.Use cases: Classification accuracy, entity extraction, structured output validation

Clinical Safety

Evaluates whether AI outputs meet clinical safety standards and don’t cause patient harm.Checks: Red flag detection, contraindication identification, escalation appropriateness

Hallucination Detection

Identifies when AI generates information not grounded in the source data.Methods: Citation verification, fact checking, source attribution analysis

Completeness & Coverage

Measures whether AI captured all relevant information from the input.Metrics: Recall, coverage score, missing element identification

Metrics

Metric	Description
Clinical Accuracy	Validates medical information correctness against clinical guidelines
Sensitivity / Specificity	Measures true positive and true negative rates for clinical decisions
Rubric-Based Scoring	Multi-dimensional scoring using customizable clinical rubrics
Custom Metrics	Define your own metrics for specialized evaluation needs

Human Review Design

Configure how clinical experts review AI outputs:

Review templates: Pre-built forms for common clinical review tasks
Grading rubrics: Multi-criteria scoring with weighted dimensions
Annotation tools: Highlight, comment, and label AI outputs
Side-by-side comparison: View AI output alongside source data

Consensus & Disagreement Handling

When multiple reviewers evaluate the same output:

Feature	Description
Multi-reviewer assignment	Route samples to 2+ reviewers for consensus
Adjudication workflows	Escalate disagreements to senior reviewers
Inter-rater reliability	Calculate Cohen’s kappa and agreement metrics
Tie-breaking rules	Configurable resolution for split decisions

Evaluation Versioning

Track changes to your evaluation configurations over time:

Version history: Full audit trail of evaluation changes
Rollback support: Revert to previous evaluation versions
Change comparison: Diff view between evaluation versions
Release management: Tag and deploy evaluation versions

Comparing Model Runs

Compare model versions, prompts, or configurations with statistical rigor.

experiments.py

# Run A/B evaluation
experiment = client.experiments.create(
    name="Triage Model v2 vs v3",
    project="patient-triage",
    dataset="ds_golden_test",

    variants=[
        {"name": "v2-baseline", "model": "triage-v2"},
        {"name": "v3-candidate", "model": "triage-v3"}
    ],

    evaluators=[
        {"type": "triage_accuracy"},
        {"type": "red_flag_detection"},
        {"type": "latency"}
    ],

    # Statistical config
    significance_level=0.05,
    min_sample_size=500
)

# Get comparison results
results = client.experiments.get_results(experiment.id)
print(f"Winner: {results.winner}")
print(f"Improvement: {results.improvement_pct}%")
print(f"Significant: {results.is_significant}")

Reproducibility Guarantees

Ensure consistent evaluation results:

Deterministic evaluation: Seeded random sampling and consistent ordering
Environment pinning: Lock evaluator versions and dependencies
Input hashing: Verify dataset integrity across runs
Audit logging: Complete record of evaluation parameters and results

Observability & Logging

Real-time visibility into your healthcare AI in production.

Structured Logging

Log inputs, outputs, and metadata with healthcare-specific schemas

Real-time Dashboard

Monitor evaluation metrics, error rates, and trends

Alerting

Get notified when metrics degrade or safety thresholds are breached

Tracing

Track requests through multi-step AI pipelines

Logging Example

logging.py

from rubric import Rubric

client = Rubric()

# Log with full context
client.log(
    project="patient-triage",
    
    input={
        "transcript": transcript,
        "audio_url": "s3://bucket/call.wav",
        "patient_context": {"age": 45, "sex": "M"}
    },
    
    output={
        "triage_level": "urgent",
        "symptoms": ["chest_pain", "shortness_of_breath"],
        "recommended_action": "schedule_same_day"
    },
    
    metadata={
        "model_version": "v2.3.1",
        "latency_ms": 234,
        "call_id": "call_abc123"
    }
)

Human Expert Network

Route AI outputs to clinical experts for review, feedback, and ground truth generation.

Who Reviews

Our network includes credentialed healthcare professionals across specialties:

Physicians

Board-certified MDs and DOs across specialties

Nurses

RNs and NPs with clinical experience

Coders

Certified medical coders (CPC, CCS, RHIA)

Dieticians

Registered dietitians and nutritionists

Mental Health Coaches

Licensed counselors and therapists

Allied Health

Physical therapists, pharmacists, and more

Credentialing & Verification

All reviewers undergo rigorous verification:

Check	Description
License verification	Active license confirmed with state boards
Education validation	Degrees verified with institutions
Background check	Criminal and sanctions screening
Skills assessment	Domain-specific competency testing
Ongoing monitoring	Continuous license and sanctions monitoring

Reviewer Assignment Logic

Intelligent matching of reviews to qualified experts:

Credential matching: Route to reviewers with appropriate licenses
Specialty alignment: Match clinical domain expertise
Workload balancing: Distribute work evenly across pool
Availability windows: Respect reviewer schedules and time zones
Performance-based routing: Prioritize high-quality reviewers

Conflict-of-Interest Controls

Ensure unbiased reviews:

Control	Description
Blinded review	Hide customer identity from reviewers
Employer exclusions	Block reviews of competitor organizations
Relationship declarations	Reviewers disclose potential conflicts
Rotation policies	Prevent over-familiarity with specific outputs

Quality Assurance & Calibration

Maintain consistent, high-quality reviews:

Gold standard datasets: Test reviewers against known-correct answers
Inter-rater reliability: Monitor agreement across reviewers
Calibration sessions: Regular alignment on scoring criteria
Performance tracking: Individual reviewer quality metrics
Feedback loops: Share aggregated feedback with reviewers

Security & Compliance

HIPAA Compliant

BAA available, PHI handling, audit logs

SOC 2 Type II

Annual audits, security controls

Encryption

AES-256 at rest, TLS 1.3 in transit

Access Control

RBAC, SSO, MFA support

Data Handling

PHI De-identification: Automatic PII/PHI detection and redaction
Data Residency: Choose US, EU, or custom regions
Retention Policies: Configurable retention with secure deletion
Audit Logging: Complete audit trail for compliance

Integrations

EHR Systems

Epic, Cerner, Meditech

Voice Platforms

Twilio, Vonage, Amazon Connect

PACS

DICOMweb, Orthanc, dcm4chee

LLM Providers

OpenAI, Anthropic, Azure, AWS Bedrock

CI/CD

GitHub Actions, GitLab CI, Jenkins

Monitoring

Datadog, Grafana, PagerDuty

Next Steps

Quickstart Guide

Get started in 5 minutes

Create Your First Evaluation

Run your first evaluation

Home

Getting Started

Core Concepts

Onboarding Guides

Evaluation Framework

Tutorials

Integrations

Security & Compliance

Voice AI

Medical Imaging

Clinical Notes

Workflows

Glossary & Appendix

​Data Modalities

Voice & Audio

Clinical Notes

Medical Imaging

​Voice & Audio

​Clinical Notes

​Medical Imaging (DICOM)

​Evaluation Framework

​Evaluation Types

​Metrics

​Human Review Design

​Consensus & Disagreement Handling

​Evaluation Versioning

​Comparing Model Runs

​Reproducibility Guarantees

​Observability & Logging

Structured Logging

Real-time Dashboard

Alerting

Tracing

​Logging Example

​Human Expert Network

​Who Reviews

Physicians

Nurses

Coders

Dieticians

Mental Health Coaches

Allied Health

​Credentialing & Verification

​Reviewer Assignment Logic

​Conflict-of-Interest Controls

​Quality Assurance & Calibration

​Security & Compliance

HIPAA Compliant

SOC 2 Type II

Encryption

Access Control

​Data Handling

​Integrations

EHR Systems

Voice Platforms

PACS

LLM Providers

CI/CD

Monitoring

​Next Steps

Quickstart Guide

Create Your First Evaluation

Data Modalities

Voice & Audio

Clinical Notes

Medical Imaging (DICOM)

Evaluation Framework

Evaluation Types

Metrics

Human Review Design

Consensus & Disagreement Handling

Evaluation Versioning

Comparing Model Runs

Reproducibility Guarantees

Observability & Logging

Logging Example

Human Expert Network

Who Reviews

Credentialing & Verification

Reviewer Assignment Logic

Conflict-of-Interest Controls

Quality Assurance & Calibration

Security & Compliance

Data Handling

Integrations

Next Steps