O que significa que os dados de treinamento sejam gerados por uma distribuição de probabilidade nos conjuntos de dados

Eu estava lendo o livro Deep Learning e me deparei com o seguinte parágrafo (página 109, segundo parágrafo):

Os dados de treinamento e teste são gerados por uma distribuição de probabilidade em conjuntos de dados denominados processo de geração de dados. Normalmente fazemos um conjunto de suposições conhecidas coletivamente como suposições iid. Essas suposições são que os exemplos em cada conjunto de dados são independentes um do outro e que o conjunto de treinamento e o conjunto de testes são distribuídos de forma idêntica, extraídos da mesma distribuição de probabilidade um do outro. Essa suposição nos permite descrever o processo de geração de dados com uma distribuição de probabilidade em um único exemplo. A mesma distribuição é usada para gerar todos os exemplos de trem e todos os exemplos de teste. Chamamos essa distribuição subjacente compartilhada de distribuição geradora de dados, denotada $p_{\text{data}}$ . Essa estrutura probabilística e as suposições iid nos permitem estudar matematicamente a relação entre erro de treinamento e erro de teste.

Alguém pode me explicar o significado deste parágrafo?

Na página 122, o último parágrafo, também fornece um exemplo

um conjunto de amostras $\{x(1), \dots, x(m) \}$ distribuídos de forma independente e idêntica, de acordo com uma distribuição de Bernoulli com média $\theta$ .

O que isto significa?

Aqui estão algumas perguntas mais específicas.

A distribuição de probabilidade sobre conjuntos de dados: Quais são os conjuntos de dados? Como é gerada a distribuição de probabilidade?
Os exemplos são independentes um do outro. Você pode me dar um exemplo de onde os exemplos são dependentes?
Extraído da mesma distribuição de probabilidade um do outro. Suponha que a distribuição de probabilidade seja gaussiana. O termo "mesma distribuição de probabilidade" significa que todos os exemplos são extraídos de uma distribuição gaussiana com a mesma média e variância?
"Esta suposição nos permite". O que isto significa?
Finalmente, para o último parágrafo da página 122, é dado que as amostras seguem a distribuição de Bernoulli. O que isso significa intuitivamente?

deep-learning

— humilde
fonte

A terceira frase do parágrafo que você cita é a chave. Você pode nos dizer mais especificamente o que não está claro?

— Stephan Kolassa

@StephanKolassa Adicionou detalhes à pergunta.

— humble

Obrigado. Suas edições esclarecem os assuntos. Ainda é uma pergunta bastante ampla, mas a resposta da @ sww já é bem objetiva.

— Stephan Kolassa

Distribuição de probabilidade sobre conjuntos de dados: Quais são os conjuntos de dados? Como é gerada a distribuição de probabilidade?

Depois que podemos estimar as distribuições subjacentes dos dados de entrada, sabemos essencialmente como eles são selecionados e podemos fazer boas previsões. (modelo generativo). Normalmente, podemos assumir uma distribuição subjacente de acordo com o que acreditamos (viés indutivo). Por exemplo, se acreditarmos que existe uma alta probabilidade de que os valores sejam próximos de zero, podemos obter uma distribuição gaussiana com média $0$ e ajustar os parâmetros como variação quando treinamos. Os conjuntos de dados são, por exemplo, conjunto de todos os lançamentos de moedas e a distribuição assumida será binomial. Quando dizemos maximizar a probabilidade de log para os pontos de dados reais, obteremos os parâmetros que ajustam o conjunto de dados à distribuição assumida.

Os exemplos são independentes um do outro. Você pode me dar um exemplo de onde os exemplos são dependentes?

Por exemplo, jogamos uma moeda e, se temos uma cabeça, jogamos outra, caso contrário não o fazemos. Aqui existe uma dependência entre os lançamentos subsequentes

Extraído da mesma distribuição de probabilidade um do outro. Suponha que a distribuição de probabilidade seja gaussiana. O termo "mesma distribuição de probabilidade" significa que todos os exemplos são extraídos de uma distribuição gaussiana com a mesma média e variância?

"Esta suposição nos permite". O que isto significa?

Sim. É por isso que (4) é dito. Depois de ter uma distribuição de probabilidade de um exemplo, você não precisa de outros exemplos para descrever o processo de geração de dados.

Finalmente, para o último parágrafo da página 122, é dado que as amostras seguem a distribuição de Bernoulli. O que isso significa intuitivamente?

Isso significa que cada exemplo pode ser pensado como um sorteio. Se o experimento consistisse em vários lançamentos de moedas, cada um deles seria independente com uma probabilidade de cabeça ser $\frac{1}{2}$ . Da mesma forma, se você escolher qualquer outro experimento, o resultado de cada exemplo poderá ser considerado um sorteio ou um dado n-dimensional.

Gerar exemplos significa obter uma distribuição mais próxima do que vemos no conjunto de dados para treinamento. Isso é obtido assumindo uma distribuição e maximizando a probabilidade do conjunto de dados fornecido e gerando os parâmetros ideais.

— sww
fonte

Muito obrigado. Você pode explicar como os dados de treinamento e teste são gerados a partir do processo gerado? Depois de termos a distribuição de probabilidade de um exemplo, sabemos a distribuição de probabilidade de outros exemplos. Mas como os exemplos são realmente gerados?

— humilde

@rjmessibarca Não importa quem ou o que gerou os exemplos, mas são os exemplos que recebemos ou podemos obter que são gerados após uma distribuição conhecida por nós (cenário de otimização) ou desconhecida por nós (problema de aprendizado de máquina).

— Lerner Zhang

O que você quer dizer com "alta probabilidade"? Isso significa nível de confiança? E percebo que essa terminologia aparece com muita frequência na teoria do aprendizado de máquina. Tal como algo vale com "alta probabilidade". Olhando para a frente na sua resposta. Obrigado

— keqiao li 6/04