Moderation Bias - LLM Censorship Tracker

Moderation Bias - LLM Censorship Tracker https://www.moderationbias.com Tracking the political and social biases of Llama-3, GPT-4, Claude, and other AI models via live, automated red-teaming audits. en-us Wed, 15 Apr 2026 00:00:00 GMT Latest Audit Data: 4/15/2026 https://www.moderationbias.com/analysis/summary https://www.moderationbias.com/analysis/summary#1776211200000 Wed, 15 Apr 2026 00:00:00 GMT We just published a fresh audit of AI content moderation thresholds across 26 models. Check out the latest refusal rates and policy alignments. Executive Summary — Moderation Bias https://www.moderationbias.com/analysis/summary https://www.moderationbias.com/analysis/summary Wed, 15 Apr 2026 00:00:00 GMT High-level summary of LLM censorship, refusal rates, and key findings across all audited models. Model Overview — Moderation Bias https://www.moderationbias.com/analysis/overview https://www.moderationbias.com/analysis/overview Wed, 15 Apr 2026 00:00:00 GMT Refusal rate heatmaps and radar charts visualising how each model handles sensitive categories. Model Drift & Stability — Moderation Bias https://www.moderationbias.com/analysis/drift https://www.moderationbias.com/analysis/drift Wed, 15 Apr 2026 00:00:00 GMT Tracking how LLM censorship behaviours change over time — are models getting more or less restrictive? Council Consensus — Moderation Bias https://www.moderationbias.com/analysis/consensus https://www.moderationbias.com/analysis/consensus Wed, 15 Apr 2026 00:00:00 GMT Do AI models agree with each other on what is safe? Explore inter-model agreement rates. AI Political Compass — Moderation Bias https://www.moderationbias.com/analysis/political https://www.moderationbias.com/analysis/political Wed, 15 Apr 2026 00:00:00 GMT Mapping the structural political biases of LLMs across economic and social axes. Model Reliability — Moderation Bias https://www.moderationbias.com/analysis/reliability https://www.moderationbias.com/analysis/reliability Wed, 15 Apr 2026 00:00:00 GMT Internal consistency and self-agreement analysis — how reliable is each model moderation? Longitudinal Analysis — Moderation Bias https://www.moderationbias.com/analysis/longitudinal https://www.moderationbias.com/analysis/longitudinal Wed, 15 Apr 2026 00:00:00 GMT Interactive timeline tracking the evolution of AI content moderation policies over months. Alignment Tax — Moderation Bias https://www.moderationbias.com/analysis/alignment https://www.moderationbias.com/analysis/alignment Wed, 15 Apr 2026 00:00:00 GMT The Pareto frontier: which models give the best helpfulness-to-safety tradeoff at the lowest cost? Semantic Clusters — Moderation Bias https://www.moderationbias.com/analysis/clusters https://www.moderationbias.com/analysis/clusters Wed, 15 Apr 2026 00:00:00 GMT Explore visually grouped refused prompts by semantic similarity to find hidden moderation patterns. Statistical Significance — Moderation Bias https://www.moderationbias.com/analysis/significance https://www.moderationbias.com/analysis/significance Wed, 15 Apr 2026 00:00:00 GMT Pairwise McNemar tests separating signal from noise in model refusal rate differences. Censorship Triggers — Moderation Bias https://www.moderationbias.com/analysis/triggers https://www.moderationbias.com/analysis/triggers Wed, 15 Apr 2026 00:00:00 GMT Which specific words and linguistic patterns automatically trigger AI content refusals? Paternalism in AI — Moderation Bias https://www.moderationbias.com/analysis/paternalism https://www.moderationbias.com/analysis/paternalism Wed, 15 Apr 2026 00:00:00 GMT Do AI models gatekeep differently based on who they think is asking? Persona-based refusal analysis. Model Profile: GPT-4o https://www.moderationbias.com/models/openai/gpt-4o https://www.moderationbias.com/models/openai/gpt-4o Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for GPT-4o (OpenAI). Does it restrict political or controversial speech? Model Profile: GPT-4o Mini https://www.moderationbias.com/models/openai/gpt-4o-mini https://www.moderationbias.com/models/openai/gpt-4o-mini Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for GPT-4o Mini (OpenAI). Does it restrict political or controversial speech? Model Profile: Claude 3.5 Sonnet https://www.moderationbias.com/models/anthropic/claude-3.5-sonnet https://www.moderationbias.com/models/anthropic/claude-3.5-sonnet Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for Claude 3.5 Sonnet (Anthropic). Does it restrict political or controversial speech? Model Profile: Claude 3 Haiku https://www.moderationbias.com/models/anthropic/claude-3-haiku https://www.moderationbias.com/models/anthropic/claude-3-haiku Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for Claude 3 Haiku (Anthropic). Does it restrict political or controversial speech? Model Profile: Gemini 2.0 Flash https://www.moderationbias.com/models/google/gemini-2.0-flash-001 https://www.moderationbias.com/models/google/gemini-2.0-flash-001 Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for Gemini 2.0 Flash (Google). Does it restrict political or controversial speech? Model Profile: DeepSeek V3 https://www.moderationbias.com/models/deepseek/deepseek-chat https://www.moderationbias.com/models/deepseek/deepseek-chat Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for DeepSeek V3 (DeepSeek). Does it restrict political or controversial speech? Model Profile: Qwen 2.5 72B https://www.moderationbias.com/models/qwen/qwen-2.5-72b-instruct https://www.moderationbias.com/models/qwen/qwen-2.5-72b-instruct Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for Qwen 2.5 72B (Alibaba). Does it restrict political or controversial speech? Model Profile: Qwen 2.5 7B https://www.moderationbias.com/models/qwen/qwen-2.5-7b-instruct https://www.moderationbias.com/models/qwen/qwen-2.5-7b-instruct Wed, 15 Apr 2026 00:00:00 GMT View the refusal rate, category breakdown, and behavioral analysis for Qwen 2.5 7B (Alibaba). Does it restrict political or controversial speech?