No caso univariado, os gráficos de caixa fornecem algumas informações que o histograma não fornece (pelo menos, não explicitamente). Ou seja, normalmente fornece a mediana, percentil 25 e 75, min / max que não é discrepante e separa explicitamente os pontos considerados discrepantes. Tudo isso pode ser "ocular" a partir do histograma (e pode ser melhor ocular no caso de discrepâncias).
No entanto, a vantagem muito maior é comparar distribuições entre muitos grupos diferentes ao mesmo tempo. Com mais de 10 grupos, essa é uma tarefa cansativa com histogramas lado a lado, mas muito fácil com gráficos de caixas.
Como você mencionou, as parcelas de violino (ou parcelas de feijão) são alternativas um pouco mais informativas. No entanto, eles exigem um conhecimento estatístico um pouco mais do que os gráficos de caixa (ou seja, se apresentar a um público não estatístico, pode ser um pouco mais intimidador) e os gráficos de caixa existem há muito mais tempo do que os estimadores de densidade de kernel, daí sua maior popularidade.