Histórico: minha organização atualmente compara suas estatísticas de diversidade da força de trabalho (por exemplo,% de pessoas com deficiência,% de mulheres,% de veteranas) com a disponibilidade total de força de trabalho para esses grupos com base no American Community Survey (um projeto de pesquisa do US Census Bureau). Essa é uma referência imprecisa, porque temos um conjunto muito específico de tarefas com demografia diferente da força de trabalho como um todo. Digamos, por exemplo, que minha organização seja formada principalmente por engenheiros. Engenharia é apenas cerca de 20% de mulheres no meu estado. Se nos compararmos à referência total da força de trabalho, que é mais parecida com 50% de mulheres, resulta em pânico que "só temos 20% de mulheres, isso é um desastre!" quando realmente 20% é o que deveríamos esperar, porque é assim que o cenário de trabalho se parece.
Meu objetivo: o que eu gostaria de fazer é pegar os dados de ocupação da American Community Survey (por categoria de diversidade) e ponderá-los novamente com base na composição dos empregos na minha empresa. Aqui está um conjunto de dados de amostra para trabalhadores de Serviço Social e Comunitário . Quero adicionar esses códigos de trabalho listados juntos (porque nossa faixa de pedestres é para grupos de trabalho, não para códigos de trabalho específicos), então quero ponderar essa referência com base no número de pessoas que temos nessa categoria (por exemplo, nossos 3.000 Social e Trabalhadores do Serviço Comunitário), então eu quero fazer o mesmo com todos os outros grupos de trabalho, somar esses números e dividir pelo número total de trabalhadores. Isso me daria uma nova medida de diversidade ponderada novamente (por exemplo, de 6% de pessoas com deficiência para 2% de pessoas com deficiência).
Minhas perguntas: Como encaixo margens de erro nesse benchmark final acumulado? Não tenho o conjunto de dados brutos do censo (obviamente), mas é possível visualizar as margens de erro de cada número no link que forneci alternando o campo "Estimativa" para "Margem de erro" na parte superior da tabela. Meus outros colegas de trabalho que estão trabalhando com esses dados pretendem ignorar totalmente as margens de erro, mas estou preocupado que estamos criando uma referência estatisticamente sem sentido para nós mesmos. Esses dados ainda são utilizáveis após a manipulação descrita acima?