Respostas:
Matematicamente, b_acc é a média aritmética de recall_P e recall_N ef é a média harmônica de recall_P e precision_P.
F1 e b_acc são métricas para avaliação do classificador, que (até certo ponto) lidam com o desequilíbrio de classe. Dependendo de qual das duas classes (N ou P) supera a outra, cada métrica é superior à outra.
1) Se N >> P, f1 é melhor.
2) Se P >> N, b_acc é melhor.
Claramente, se você pode mudar de rótulo, ambas as métricas podem ser usadas em qualquer um dos dois casos de desequilíbrio acima. Caso contrário, dependendo do desequilíbrio nos dados de treinamento, você pode selecionar a métrica apropriada.