Localizando uma interceptação em dados baseados em porcentagem e usando variáveis dummy

Como encontro uma interceptação nos dados de porcentagem? Meus dados têm porcentagem de notas (converti para números em que ) por etnia e outros indicadores que quero testar para usar variáveis fictícias. Por exemplo 90,3% dos estudantes chineses tem série, os alunos da raça misturada que ficou 87,3% etc. Como posso interpretar isso para obter uma interceptação? Escolhi a mediana 32,5, pois as notas são de 5 a (entre $A^*=8, A=7,B=6...U=0$ $A^*-C$ $A^*$ $C$ e . O uso da mediana neste caso é sensato? $A^*(8\cdot5=40)$ $C( 5\cdot5=25)$

Minha equação será

$y =b_0 +b_1 +b_2+b_3+b_4+b_5+b_6+u$

onde é a nota, é a mediana (constante), é a refeição da escola gratuita, é chinês, é preto, é asiático, é asiático, é masculino, é feminino e é o termo do erro. Branco é o padrão. $y$ $b_0$ $b_1$ $b_2$ $b_3$ $b_4$ $b_5$ $b_6$ $u$

Portanto, se um aluno chinês do sexo masculino não recebe refeições escolares gratuitas (proxy da pobreza), é . $b_0 + b_2 + b_5$

Minha pergunta é a seguinte: meu uso de mediana faz algum sentido e, em segundo lugar, como eu já sei que os alunos chineses têm um desempenho melhor que o resto do grupo, preciso usar a diferença percentual ou usar as variáveis binárias fictícias.

Quero simplesmente descobrir o efeito da pobreza e da raça nas notas esperadas dos alunos. Eu não tenho acesso a notas individuais ou dados do painel para obter renda etc. Por isso, quero usar a refeição escolar gratuita.

Obrigado novamente por suas respostas.

Por favor, veja a imagem abaixo.

— anonymous1
fonte

Você precisará executar uma regressão OLS. Um dos coeficientes relatados será o intercepto.

— Jamzy

Nota menor: eu consideraria que incluir um boneco de gênero seria suficiente, pois eles parecem mutuamente exclusivos.

— HorseOfTheYear

Obrigado, eu no entanto só tem uma variável (graus) y e não sabe como executar um OLS de que para obter y ^

— anonymous1

Respostas:

Como Jamzy observou, execute uma regressão OLS nas notas em relação às variáveis que você possui.

grades = β_{0} + β_{1} x_{1} + \dots + β_{i} race + \dots

$\text{grades} = \beta_0 + \beta_1 x_1 + \cdots + \beta_i \ \text{race} + \cdots$

race = \begin{array}{cc} { & \begin{array}{cc} 0 & m i x e d \\ 1 & C h i n e s e \end{array} \end{array}

$\text{race} =\begin{array}{cc} \Bigg\{ & \begin{array}{cc} 0 & mixed \\ 1 & Chinese \\ \end{array} \end{array}$

$\beta_0$

— Cavalaria Kitsune
fonte

Isso acaba sendo um pouco confuso. Deve-se executar um GLM com link probit ou logit . A razão para isso é que a regressão é limitada e não queremos que suas estimativas ignorem os limites e sugiram notas de 130% ou -20%. Tais estimativas podem e provavelmente ocorrerão com o OLS. Veja a publicação do Stata Journal sobre este assunto. ou aqui .

Geralmente, essas regressões probit / logit são usadas para dados binários, consistindo em 0 e 1. No entanto, elas funcionarão bem aqui, onde a nota é a probabilidade de acertar qualquer pergunta.

O intercepto ainda tem um análogo nessas estimativas. É um termo constante que passará por uma transformação, dependendo da sua escolha de probit ou logit. Acredito que existem outras funções de link disponíveis, mas elas não são particularmente comuns na literatura econômica.

$Y=\beta_0+x'\beta_{1..n}+\epsilon$

$0<Y<1$ $Y=grade,x=[gender,race,...]$

$\epsilon$ $\frac {1}{1+e^{-\beta_0}}$

$\epsilon$ $\Phi(\beta_0)$

Obviamente, é possível que sua distribuição não seja uma dessas, mas elas são consideradas padrão.

Também é possível que o OLS não seja imparcial na estimativa de uma interceptação para esse tipo de dados, mas pode sugerir notas impossíveis (por exemplo, -0,2 ou 1,3 como interceptação). A razão pela qual isso é impossível é porque não se pode obter um -0,2 ou um -1,3 como uma nota de percentil.

— RegressForward
fonte

Eu sugeriria probit ou logit se a etnia fosse a única variável dependente, mas acho que o OP sugeriu que ele / ela tinha mais dados ( "por etnia e outros indicadores" ), mas eu poderia estar interpretando mal.

— Kitsune Cavalry

Não acredito que a forma das variáveis X tenha impacto na escolha apropriada da regressão. Estou bastante certo de que ainda terá as propriedades normais (talvez os erros padrão nos coeficientes sejam inferiores ao ideal)?

— RegressForward

o principal problema é que só tenho notas para trabalhar, sou novo no STATS e todas as informações que tenho até agora foram de vídeos on-line. Eu entendo como fazer a variável dummy funcionar em vários estágios, mas não sei por onde começar sabendo apenas as notas. Obrigado novamente

— anonymous1

excluiu meu comentário. concorde com o que você tem agora.

— Jamzy

Localizando uma interceptação em dados baseados em porcentagem e usando variáveis ​​dummy

Localizando uma interceptação em dados baseados em porcentagem e usando variáveis dummy