Estou procurando algumas estatísticas (e probabilidade, eu acho) perguntas da entrevista, desde as mais básicas até as mais avançadas. As respostas não são necessárias (embora os links para perguntas específicas neste site fariam bem).
Estou procurando algumas estatísticas (e probabilidade, eu acho) perguntas da entrevista, desde as mais básicas até as mais avançadas. As respostas não são necessárias (embora os links para perguntas específicas neste site fariam bem).
Respostas:
Não tenho certeza qual é o trabalho, mas acho que "Explique x para um iniciante" provavelmente seria bom.
a) porque eles provavelmente precisarão fazer isso no trabalho
b) é um bom teste de entendimento, eu acho.
O padrão Q em que trabalho é semelhante ao de:
Veja esta saída de uma regressão logística múltipla de um pacote estatístico que você afirma ter usado (de preferência um que usamos também). XXX é a variável independente de interesse principal. Como você interpreta os resultados para um colega com conhecimento do assunto, mas sem treinamento estatístico formal? (Se necessário, solicite uma interpretação separada da estimativa pontual, IC, valor-p).
Você também pode refletir sobre se a entrevista é o melhor meio para medir o construto de interesse. Se você deseja medir o conhecimento prévio de probabilidade ou estatística, é melhor confiar mais em um teste escrito. Você pode fazer mais perguntas e, assim, aumentar a confiabilidade da medição. É mais padronizado na administração e na pontuação. E uma vez desenvolvido, o instrumento provavelmente usa menos recursos para administrar.
Você pode então usar a entrevista como uma ferramenta mais focada, observando fatores como habilidades verbais e interpessoais.
Duas perguntas foram feitas:
1) Você ajusta uma regressão múltipla para examinar o efeito de uma variável específica em que um funcionário de outro departamento está interessado. A variável volta insignificante, mas seu colega de trabalho diz que isso é impossível, pois é conhecido por ter um efeito. O que você diria / faria?
2) Você tem 1000 variáveis e 100 observações. Você gostaria de encontrar as variáveis significativas para uma resposta específica. O que você faria?
Aqui está um grande conjunto de dados. Qual é o seu plano para lidar com discrepantes? Que tal valores ausentes? E as transformações?
Eles podem lidar com dados do mundo real?
Muitas perguntas / respostas neste site podem dar idéias para boas perguntas. Vou dar uma lista com alguns desses links que acho bons. As postagens em que respondi são super-representadas, porque as conheço melhor, não porque necessariamente são as melhores! Faço comentários curtos para cada link, para que você possa decidir se deseja seguir o link.
Qual é a intuição por trás do SVD? "Você pode explicar a um de nossos clientes como o SVD funciona?"
Estimativa de máxima verossimilhança (MLE) em termos leigos "Você pode explicar em linguagem não técnica a idéia de estimativa de máxima verossimilhança?"
Taleb e o cisne negro "Diga-me, o que é um cisne negro e por que isso é relevante? Quando é que é relevante?"
Inferência estatística quando a amostra "é" a população "O que você pode dizer sobre a inferência estatística quando a amostra é toda a população?"
Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson "Temos um problema de regressão em que a resposta é uma variável de contagem. Qual você escolheria neste contexto, mínimos quadrados comuns ou regressão de Poisson (ou talvez outra)? Explique sua escolha , quais são as principais diferenças entre esses modelos? "
Qual é a diferença entre variância finita e infinita "Você pode explicar, na linguagem mais simples possível, o que significa que uma variável aleatória tem expectativa infinita ou variação infinita? Qual é a importância prática dessa distinção? exemplo."
Quais são as alternativas modernas e facilmente usadas para a regressão gradual? "Como você construiria um modelo de regressão complexo quando há muitas variáveis preditivas possíveis? Descreva diferentes estratégias possíveis e conte sobre os problemas de cada uma delas"
Como lidar com a separação perfeita na regressão logística? "Qual é o problema da separação na regressão logística, suas causas, sintomas? O que você pode fazer para resolvê-la, se é realmente um problema?"
Por que a matriz de correlação precisa ser semi-definida positiva e o que significa ser ou não ser semi-definida positiva? e
O que uma matriz de covariância definida não positiva me diz sobre meus dados? "Explique por que uma matriz de covariância deve ser positiva (semi) definida e o que isso significa. Como esse fato pode ser usado?"
Quais são as versões multidimensionais da mediana "Você pode propor uma maneira de generalizar a mediana para dados multivariados?"
Interpretar termos de interação em regressão logit com variáveis categóricas e Quais são as melhores práticas para identificar efeitos de interação? e Dois efeitos principais negativos, mas efeito de interação positivo? e Incluindo a interação, mas não os efeitos principais em um modelo e Como interpretar os efeitos principais quando o efeito da interação não é significativo? "Explique o que se entende por interação em modelos de regressão. Especificamente, o que significa se a interação é significativa enquanto os principais efeitos não são? Existe alguma diferença na interpretação da interação entre regressão linear comum e regressão logística?"
Qual poderia ser o motivo do uso da transformação de raiz quadrada nos dados? e transformação de dados apropriada "Quando, como e por que você transforma a variável de resposta em um modelo de regressão (ou ANOVA)? Existem alternativas?
Posso confiar nos resultados da ANOVA para um DV distribuído normalmente? "Como você trataria uma ANOVA com resíduos não normais?
Por que as estatísticas são úteis quando muitas coisas importantes são únicas?
Como posso modelar eficientemente a soma das variáveis aleatórias de Bernoulli?
Quando usar equações de estimativa generalizada versus modelos de efeitos mistos?
O que está acontecendo aqui, quando uso perda ao quadrado na configuração de regressão logística? "Por que usamos a probabilidade máxima para regressão logística? Por que não menos quadrados?"
Me perguntaram uma vez como explicaria a relevância do teorema do limite central para uma classe de calouros nas ciências sociais que mal têm conhecimento sobre estatística.
Como você numerica algo que não é numérico?
Exemplo, "Extração automática de recursos para classificar dados de áudio"
Justificativa: Eles podem descobrir como analisar algo estatisticamente que ainda não está em uma grande tabela?
Como você evita o ajuste excessivo ao criar um modelo estatístico?
Boa resposta: validação cruzada
Costumo perguntar "como você definiria / explicaria o que é previsão?"
Responder a esse tipo de pergunta muito geral me ajuda a ver se as pessoas estão conectadas a um caso específico de previsão. Não existe uma resposta certa, mas responder sinteticamente durante uma entrevista nem sempre é fácil :)
Como você vai contar o número de árvores de madeira de sandália em Bangalore?
Sob o título Causa vs correlação :
É comum usar o envolvimento do cliente / usuário como recursos para um modelo preditivo. Por exemplo, as pessoas que clicam neste botão têm maior probabilidade de se inscrever do que as que não clicam. As pessoas que fazem compras às segundas-feiras têm mais chances de fazer compras novamente do que aquelas que fazem compras às terças-feiras.
Se levarmos isso ao extremo: os usuários que clicam em "compra" têm maior probabilidade de comprar um produto do que os usuários que não clicam em compra.
Mas, obviamente, isso não ajuda muito a explicar por que alguns usuários se inscrevem e outros não.
Como você equilibraria o uso dos recursos do cliente, que explicam por que eles se inscrevem em relação aos que estão altamente correlacionados com a assinatura, mas são necessários para realizar a tarefa?
Aqui está um conjunto TinkerToy . Mostre-me como a distância euclidiana funciona em três dimensões. Agora me mostre como a regressão múltipla funciona.
Eles podem explicar como as estatísticas funcionam no mundo físico?
Estamos executando um centro de atendimento ao cliente. Estamos recebendo 1 milhão de chamadas por mês. Como reduzimos para dez mil?
Muitas das perguntas que fazemos são semelhantes às que já foram descritas. Mas algumas que eu ainda não li e que são usadas: você pode ser solicitado a esboçar um programa em um quadro branco para fazer algo como: simular uma rolagem de dados ou outro problema de probabilidade ou calcular uma série de números primos (por exemplo, todos os números primos inferiores a 1.000.000) - você seria capaz de fazer isso em qualquer idioma que quisesse, mas a maioria das pessoas escolhe R e algumas escolhem Python (acredito), mas acho que você pode escolher Stata, SAS, SPSS , Matlab, etc. Você provavelmente terá que fazer perguntas para analisar a profundidade do seu conhecimento da sua linguagem de programação preferida - por que usar apply em vez de um loop for no R, por exemplo.
Você também pode ser solicitado a projetar um experimento ou outro estudo para investigar algo - geralmente algo prático - às vezes isso estará relacionado ao trabalho que fazemos, mas muitas vezes não. (Você não deve ter conhecimento do trabalho que realizamos, mas deve entender a essência de um problema que não ouviu falar e especular sobre ele de forma inteligente, mesmo que, se receber determinado conhecimento de domínio, saiba que estava errado - tudo bem, não se espera que você tenha conhecimento de domínio). Você pode ser solicitado a levar em consideração coisas como poder.
Ao fazer a análise de variância da variável quantitativa, às vezes descobrimos que a frequência da variável é muito alta (> 5), então usamos o teste exato de Fisher para encontrar a independência da variável.
A média de participação paga nos jogos dos Yankees no ano passado foi de 55.000. Você pergunta aleatoriamente a várias pessoas em Nova York se elas foram a um jogo dos Yankees na última temporada e, se foram, registram a participação paga. Qual é a participação média paga para os jogos que as pessoas que você perguntou e que foram a um jogo participaram?
Vou dar uma dica para a minha resposta (a dica não foi fornecida): amostragem com viés de comprimento. Marquei um home run nisso, mas não foi o suficiente para vencer o jogo, ha ha. Nota: mencionei muitas advertências relacionadas ao modo como a amostragem foi realizada, e o entrevistador me disse para desconsiderar todas elas.