Enquanto fazia uma EDA, decidi usar um gráfico de caixa para ilustrar a diferença entre dois níveis de um fator.
A maneira como o ggplot processou o gráfico da caixa foi satisfatória, mas um pouco simplista (primeiro gráfico abaixo). Enquanto pesquisava as características das caixas, comecei a experimentar entalhes.
Entendo que os entalhes exibem o IC em torno da mediana e que, se os entalhes de duas caixas não se sobrepuserem, haverá uma 'forte evidência' - com um nível de confiança de 95% - de que as medianas diferem.
No meu caso (segundo gráfico), os entalhes não se sobrepõem significativamente. Mas por que a parte inferior da caixa no lado direito assume essa forma estranha?
Plotar os mesmos dados em um gráfico de violino não indicava nada de incomum na densidade de probabilidade do violino correspondente.
ggplot2
. Também gosto da ideia de plotar os pontos de dados individuais, mas isso fica frustrado na medida em que os pontos dentro da caixa escura ficam invisíveis.