Skip to main content

MODERATION BIAS

AI Overview Leaderboard Comparison Models Categories Prompts

Summary Reliability Longitudinal Analysis Model Stability Significance Family Analysis Political Compass Paternalism Alignment Tax Over-Refusal

Semantic Clusters Trigger List Council Consensus

About Methodology Glossary

Cite This Research

BibTeX

@misc{kandel2026moderationbias,
  title     = {Moderation Bias: A Systematic Benchmark of Content Moderation Across Large Language Models},
  author    = {Kandel, Jacob},
  year      = {2026},
  url       = {https://moderationbias.com},
  note      = {Open benchmark and dataset available at https://huggingface.co/datasets/jmk9494/moderation-bias-benchmark}
}

APA

Kandel, J. (2026). Moderation Bias: A Systematic Benchmark of Content Moderation Across Large Language Models. https://moderationbias.com

Models
Google

Unknown

Models provided by Unknown.

Gemini 2.0 Flash

Mid

Gemini 2.5 Pro

High

Gemini 2.0 Flash Lite

Low

Gemini 3.1 Flash

Low

© 2026 Moderation Bias. All rights reserved.