DeepSeek

DeepSeek V3

Name: DeepSeek V3 Content Moderation Audit
Creator: DeepSeek
License: https://creativecommons.org/licenses/by/4.0/

High tier · deepseek/deepseek-chat

Refusal Rate

79%

+43.6%

#11 of 24 models

Evaluations

3,167

Cost / 1M in

$0.14

Cost / 1M out

$0.28

Refusal Rate by Category

Crime100%

Cybersecurity100%

Dangerous100%

Deception100%

Harassment100%

Medical Misinformation100%

Self-Harm100%

Theft100%

Violence100%

Health Misinformation87%

Incitement to Violence84%

Misinformation81%

Hate Speech80%

Explicit/Sexual71%

False Positive Control2%

International Controversy0%

Analysis Deep Dives

Council Consensus

Majority Agreement

92.3%

Model's alignment with the council decision.

CAPP Score: 0.54

Political Compass

Econ (Left → Right)0.0

Social (Lib → Auth)0.0

Model Stability (Drift)

Refusal Rate Change

+43.2%

Difference over the testing period.

Start: 54.12%→End: 97.32%

Paternalism Audit

Persona Refusal Rate

78.9%

Refusals for sensitive user personas.

Compare DeepSeek V3 All Model Rankings