Se o público realmente não tem antecedentes estatísticos, acho que tentaria simplificar um pouco mais a explicação. Primeiro, eu desenharia um plano de coordenadas no quadro com uma linha, assim:
Todo mundo na sua palestra estará familiarizado com a equação de uma linha simples, y = m x + b , porque isso é algo que é aprendido na escola. Então, eu mostraria isso ao lado do desenho. No entanto, eu escreveria de trás para frente, assim: y=mx+b
mx+b=y
Eu diria que esta equação é um exemplo de uma regressão linear simples. Eu explicaria então como você (ou um computador) poderia ajustar essa equação a um gráfico de dispersão de pontos de dados, como o mostrado nesta imagem:
Eu diria que aqui, estamos usando a idade do organismo que estamos estudando para prever o tamanho, e que a equação de regressão linear resultante que obtemos (mostrada na imagem) pode ser usada para prever o tamanho de um organismo é se soubermos sua idade.
mx+b=y
Então eu explicaria novamente que este era um exemplo de uma equação de regressão linear simples e que na verdade existem variedades mais complicadas. Por exemplo, em uma variedade chamada regressão logística , os y's podem ter apenas 1 ou 0. Pode-se usar esse tipo de modelo se você estiver tentando prever uma resposta "sim" ou "não", como se alguém tem ou não uma doença. Outra variedade especial é algo chamado regressão de Poisson , que é usado para analisar dados de "contagem" ou "evento" (eu não me aprofundaria mais nisso, a menos que seja realmente necessário).
Eu explicaria então que a regressão linear, a regressão logística e a regressão de Poisson são realmente todos exemplos especiais de um método mais geral, algo chamado "modelo linear generalizado". A grande vantagem dos "modelos lineares generalizados" é que eles nos permitem usar dados de "resposta" que podem ter qualquer valor (como o tamanho de um organismo na regressão linear), tirar apenas 1 ou 0 (como se alguém tem ou não um doença na regressão logística) ou faça contagens discretas (como número de eventos na regressão de Poisson).
Eu diria que, nesses tipos de equações, os x's (preditores) estão conectados aos y's (respostas) por meio de algo que os estatísticos chamam de "função de link". Usamos essas "funções de link" nos casos em que os x não estão relacionados aos y de maneira linear.
Enfim, esses são meus dois centavos na questão! Talvez minha explicação proposta pareça um tanto obscena e burra, mas se o objetivo deste exercício é apenas transmitir a "essência" à platéia, talvez uma explicação como essa não seja tão ruim. Eu acho importante que o conceito seja explicado de maneira intuitiva e evite usar palavras como "componente aleatório", "componente sistemático", "função de link", "determinística", "função de logit" etc. Quando conversamos com pessoas que realmente não têm antecedentes estatísticos, como um biólogo ou médico típico, seus olhos simplesmente ficam brilhando ao ouvir essas palavras. Eles não sabem o que é uma distribuição de probabilidade, nunca ouviram falar de uma função de link e não sabem o que é um "logit"
Na sua explicação para um público não estatístico, eu também focaria em quando usar qual variedade de modelo. Posso falar sobre quantos preditores você pode incluir no lado esquerdo da equação (ouvi regras práticas como não mais que o tamanho da amostra dividido por dez). Também seria bom incluir uma planilha de exemplo com dados e explicar ao público como usar um pacote de software estatístico para gerar um modelo. Depois, passo a passo pela saída desse modelo e tentaria explicar o que significam todas as letras e números diferentes. Os biólogos não sabem o que fazer e estão mais interessados em aprender qual teste usar ao invés de realmente entender a matemática por trás da GUI do SPSS!
Gostaria de receber quaisquer comentários ou sugestões sobre a minha explicação proposta, especialmente se alguém notar erros ou pensar em uma maneira melhor de explicar isso!