O que se entende por uma "variável aleatória"?

69

O que eles querem dizer quando dizem "variável aleatória"?

— Baltimark
fonte

35

Uma variável aleatória é uma variável cujo valor depende de eventos desconhecidos. Podemos resumir os eventos desconhecidos como "estado" e, em seguida, a variável aleatória é uma função do estado.

Exemplo:

Suponha que tenhamos três jogadas de dados ( , , ). Então o estado . $D_{1}$ $D_{2}$ $D_{3}$ $S=(D_{1},D_{2},D_{3})$

Uma variável aleatória é o número de 5s. Isto é: $X$

X = (D_{1 1} = 5 ?) + (D_{2} = 5 ?) + (D_{3} = 5 ?)

$X=(D_{1}=5?)+(D_{2}=5?)+(D_{3}=5?)$

Outra variável aleatória é a soma dos lançamentos de dados. Isto é: $Y$

Y = D_{1 1} + D_{2} + D_{3}

$Y=D_{1}+D_{2}+D_{3}$

— Paulo
fonte

Obrigado pela resposta clara e concisa. Isso levanta uma questão com o objetivo de separar o estado desconhecido do resultado (acho que é assim que o domínio e o alcance da "variável aleatória" são chamados na teoria da probabilidade). Parece que é chamado o estado desconhecido a sample, que pedi para distinguir dos resultados . Por que você precisa introduzir uma função e chamá-la de variável aleatória, embora seja absolutamente determinística e não seja variável? Por que você não pode provar o resultado imediatamente?

— Val

2

Quando os "eventos" se tornam "conhecidos", o que acontece com a variável aleatória? De acordo com esta resposta, ela não pode mais existir! A dependência dessa resposta em idéias nebulosas como "conhecidas" - que são puramente subjetivas - a torna menos do que satisfatória como definição ou explicação de variáveis aleatórias.

— whuber

11

@whuber O inglês e outra linguagem humana são necessariamente imprecisos. Parece que você está realmente escolhendo a palavra "depende", não "conhecido". "é uma função de" é mais preciso, mas "eventos desconhecidos" é vago e, portanto, os matemáticos definem um "espaço de probabilidade", "álgebra sigma", "funções mensuráveis" etc. Se você precisar de um tratamento mais rigoroso, a Wikipedia tem: en.wikipedia.org/wiki/Random_variable

— Paul

11

Enquanto a wikipedia segue o jargão matemático para obter precisão, percebo que sua resposta, um exemplo decente de um leigo de tudo o que, embora valha a pena ler, requer cerca de 16 parágrafos para ser executado. Mas o que dizer a um estudante que quer uma resposta que leva 5 segundos para ler? Os clientes apreciam a brevidade nas definições.

— Paul

5

É uma função mensurável com valor real em um espaço de probabilidade. Com cada um desses termos técnicos - "mensurável", "função com valor real" e "espaço de probabilidade", estimo que perdi 90% do público potencial, deixando apenas 0,1% realmente entendendo e apreciando a definição. Aliás, isso é puramente uma definição matemática. É inútil até que se especifique como pode ser aplicado a um problema estatístico real - mas pelo menos está correto (se não completamente geral).

— whuber

69

Introdução

Ao pensar em um comentário recente, noto que todas as respostas até agora sofrem com o uso de termos indefinidos como "variável" e termos vagos como "desconhecido", ou recorrem a conceitos matemáticos técnicos como "função" e "espaço de probabilidade". O que devemos dizer à pessoa não matemática que gostaria de uma definição clara, intuitiva e precisa de "variável aleatória"? Após algumas preliminares descrevendo um modelo simples de fenômeno aleatório, forneço uma definição que seja curta o suficiente para caber em uma linha. Como ele pode não satisfazer completamente os cognoscentos , explica depois como estender isso para a definição técnica usual.

Bilhetes numa caixa

Uma maneira de abordar a idéia por trás de uma variável aleatória é apelar para o modelo de aleatoriedade tickets-in-a-box . Este modelo substitui um experimento ou observação por uma caixa cheia de tickets. Em cada ticket está escrito um possível resultado do experimento. (Um resultado pode ser tão simples quanto "cara" ou "coroa", mas, na prática, é algo mais complexo, como histórico de preços das ações, registro completo de uma longa experiência ou a sequência de todas as palavras em um documento. .) Todos os resultados possíveis aparecem pelo menos uma vez entre os tickets; alguns resultados podem aparecer em muitos tickets.

Em vez de realmente conduzir o experimento, imaginamos misturar exaustivamente - mas cegamente - todos os tickets e selecionar apenas um. Se pudermos mostrar que o experimento real deve se comportar como se fosse conduzido dessa maneira, reduzimos um experimento do mundo real potencialmente complicado (e caro e demorado) a um experimento simples, intuitivo e de pensamento (ou "modelo estatístico"). "). A clareza e simplicidade oferecidas por este modelo tornam possível analisar o experimento.

Um exemplo

Exemplos padrão dizem respeito ao resultado de jogar moedas e dados e desenhar cartas de baralho. Isso é um pouco perturbador por sua trivialidade, para ilustrar, suponha que estamos preocupados com o resultado das eleições presidenciais dos EUA em 2016. Como uma (pequena) simplificação, assumirei que um dos dois principais partidos - republicano (R) ou Democrata (D) - vencerá. Como (com as informações atualmente disponíveis) o resultado é incerto, imaginamos colocar tickets em uma caixa: alguns com "R" escrito neles e outros com "D". Nosso modelo de resultado é sacar exatamente um ticket dessa caixa.

Falta alguma coisa: ainda não estipulamos quantos tíquetes haverá para cada resultado. De fato, descobrir isso é o principal problema da estatística: com base em observações (e teoria), o que pode ser dito sobre as proporções relativas de cada resultado na caixa?

(Espero que esteja claro que as proporções de cada tipo de ticket na caixa determinam suas propriedades, em vez dos números reais de cada ticket. As proporções são definidas - como sempre - como a contagem de cada tipo de ticket dividido por o número total de tickets.Por exemplo, uma caixa com um ticket "D" e um ticket "R" se comporta exatamente como uma caixa com um milhão de tickets "D" e um milhão de tickets "R", porque em ambos os casos cada tipo é 50% de todos os ingressos e, portanto, cada um tem 50% de chance de serem sorteados quando os ingressos estiverem completamente misturados.)

Tornando o modelo quantitativo

Mas não vamos prosseguir com essa questão aqui, porque estamos perto do nosso objetivo de definir uma variável aleatória. O problema com o modelo até agora é que ele não é quantificável, enquanto gostaríamos de poder responder a perguntas quantitativas com ele. E também não quero dizer perguntas triviais, mas questões práticas reais, como "se minha empresa investiu um bilhão de euros no desenvolvimento de combustíveis fósseis no mar dos EUA, quanto o valor desse investimento mudará como resultado das eleições de 2016?" ? " Nesse caso, o modelo é tão simples que não há muito que possamos fazer para obter uma resposta realista a essa pergunta, mas podemos chegar ao ponto de consultar nossa equipe econômica e pedir suas opiniões sobre os dois resultados possíveis:

Se os democratas vencerem, quanto mudará o investimento? (Suponha que a resposta seja dólares.) $d$
Se os republicanos vencerem, quanto isso mudará? (Suponha que a resposta é dólares.) $r$

As respostas são números. Para usá-los no modelo, pedirei à minha equipe que repasse todos os tickets na caixa e em cada ticket "D" para escrever " dollar" e em cada ticket "R" para escrever " dollar". Agora podemos modelar a incerteza no investimento de maneira clara e quantitativa: sua mudança de valor pós-eleitoral é a mesma que receber a quantia em dinheiro escrita em um único ticket sorteado aleatoriamente a partir desta caixa. $d$ $r$

Esse modelo nos ajuda a responder perguntas adicionais sobre o investimento. Por exemplo, quão incertos devemos ser sobre o valor do investimento ? Embora existam fórmulas matemáticas (simples) para essa incerteza, poderíamos reproduzir suas respostas razoavelmente com precisão apenas usando nosso modelo repetidamente - talvez mil vezes - para ver que tipos de resultados realmente ocorrem e medir sua propagação. Um modelo de tickets-in-a-box fornece uma maneira de raciocinar quantitativamente sobre resultados incertos.

Variáveis aleatórias

Para obter respostas quantitativas sobre fenômenos incertos ou variáveis, podemos adotar um modelo de ticket-in-a-box e escrever números nos tickets. Esse processo de escrever números deve seguir apenas uma regra: deve ser consistente. No exemplo, todo ingresso democrata precisa ter " dólares" - sem exceções - e todo ingresso republicano deve ter " dólares" escritos. $d$ $r$

Uma variável aleatória é qualquer maneira consistente de escrever números em tickets em uma caixa.

(A notação matemática para isso é dar um nome ao processo de renumeração, geralmente com uma letra maiúscula em latim como ou As informações de identificação escritas nos tickets geralmente são nomeadas com letras minúsculas, geralmente ("omega" em minúscula) O valor associado por meio da variável aleatória ao ticket é denotado . No exemplo, então, podemos dizer algo como " é uma variável aleatória que representa a mudança no valor do investimento". seria totalmente especificado, declarando $X$ $Y$ $\omega$ $X$ $\omega$ $X(\omega)$ $X$ e . Em casos mais complicados, os valores de são dados por descrições mais complicadas e, freqüentemente, por fórmulas. Por exemplo, os tickets podem representar o valor de um ano dos preços de fechamento de uma ação e a variável aleatória pode ser o valor em um determinado momento de algum derivado dessa ação, como uma opção de venda. O contrato de opção descreve como o é calculado. Os comerciantes de opções usam exatamente esse tipo de modelo para precificar seus produtos.) $X(\text{D})=d$ $X(\text{R}) = r$ $X$ $X$ $X$

Você notou que esse não é aleatório nem variável? Nem é "incerto" ou "desconhecido". É uma atribuição definida (de números a resultados), algo que podemos escrever com pleno conhecimento e total certeza. O que é aleatório é o processo de retirada de um ticket da caixa; o que é variável é o valor do ticket que pode ser sacado. $X$

Observe também a separação clara de duas questões diferentes envolvidas na avaliação do investimento: pedi aos economistas que determinassem para mim, mas não opinassem sobre o resultado da eleição. Usarei outras informações (talvez chamando consultores políticos, astrólogos, usando um quadro Ouija ou qualquer outra coisa) para estimar as proporções de cada um dos tickets "D" e "R" para colocar na caixa. $X$

Depois: sobre mensurabilidade

Quando a definição de variável aleatória é acompanhada da advertência "mensurável", o que o definidor tem em mente é uma generalização do modelo tickets-in-a-box para situações com infinitos resultados possíveis. (Tecnicamente, é necessário apenas com resultados incontáveis infinitos ou onde probabilidades irracionais estão envolvidas, e mesmo neste último caso pode ser evitado.) Com infinitos resultados, é difícil dizer qual seria a proporção do total. Se houver infinitamente muitos tickets "D" e infinitamente muitos tickets "R", quais são suas proporções relativas? Não podemos descobrir com uma mera divisão de um infinito por outro!

Nesses casos, precisamos de uma maneira diferente de especificar as proporções. Um conjunto "mensurável" de tickets é qualquer coleção de tickets na caixa para a qual sua proporção possa ser definida. Quando isso é feito, o número que pensamos como uma "proporção" é chamado de "probabilidade". (Nem toda coleção de tickets precisa ter uma probabilidade associada a ele.)

$X$ $X(\omega)$ $a$ $b$ $a$ $b$

— whuber
fonte

7

Para aqueles que não estavam familiarizados com variáveis aleatórias ou modelos de ticket-in-a-box, um rápido tutorial interativo no meu site em quantdec.com/envstats/notes/class_06/tutorial.htm fornece prática e alguns conceitos adicionais.

— whuber

2

Um exemplo elaborado que ilustra esses conceitos aparece em stats.stackexchange.com/a/68782 .

— whuber

2

NB : Suspeito que muitas pessoas usem o termo "população" aproximadamente no sentido dos ingressos em uma caixa. Eu evito essa terminologia porque parece muito que só podemos criar modelos de probabilidade para amostrar populações reais (físicas). Mesmo quando há amostragem de uma população física, é raro haver uma correspondência perfeita entre ela e os tickets. Por exemplo, ninguém será capaz de enumerar o povo chinês vivo em 1º de janeiro de 2014, em parte devido a incertezas sobre quando as pessoas nascem, quando morrem e mesmo se são chinesas.

— whuber

4

@jsk A introdução a esta resposta explica por que esse cuidado parecia necessário. Embora seja verdade que duas outras respostas neste tópico contenham uma definição correta e completa ("uma função mensurável de um espaço de probabilidade para um espaço mensurável conhecido como espaço de estado"), essa definição implica implicitamente a compreensão de preliminares sobre álgebras sigma, medidas de probabilidade, e funções mensuráveis. Os leitores vão reclamar "isso é coisa de nível de pós-graduação" .

— whuber

4

@ user4205580 Para uma definição puramente matemática, "consistência" não é necessária, porque para o matemático, a variável aleatória é simplesmente "fornecida". Para aplicações estatísticas, como discutido aqui, é uma condição importante, porque muitos dados não são numéricos: variáveis aleatórias precisam ser construídas de maneira apropriada ao modelo e aos objetivos analíticos. Você pode decidir por si mesmo se existe algum valor nessa distinção conceitual.

— whuber

16

Informalmente, uma variável aleatória é uma maneira de atribuir um código numérico a cada resultado possível. *

Exemplo 1

$\{H,T\}$

$X$ $X(H)=1$ $X(T)=0$ $1$ $0$

Exemplo 2

{UMA ♠, K ♠, ..., 2 ♠, UMA ♡, K ♡, ..., 2 ♡, UMA ♢, K ♢, ..., 2 ♢, UMA ♣, K ♣, ..., 2 ♣} .

$\{A♠, K♠, \dots, 2♠, A♡, K♡, \dots, 2♡, A♢, K♢, \dots, 2♢, A♣, K♣, \dots, 2♣ \}.$

No bridge, um ás vale 4 pontos altos da carta, um rei 3, uma rainha 2 e um valete 1. Qualquer outra carta vale 0 pontos.

$Y$ $Y\left(A♡ \right)=4$ $Y\left(J♣ \right)=1$ $Y\left(7♠ \right)=0$

$H$ $T$ $A♠$

* Formalmente, uma variável aleatória é uma função que mapeia cada resultado (no espaço de amostra) para um número real.

— Kenny LJ
fonte

5

+1. Esta resposta chega ao ponto, está correta e é clara - evitando, assim, as bobagens sobre valores "desconhecidos" e "alterados" que permeiam as outras respostas neste segmento.

— whuber

12

Ao contrário de uma variável regular, uma variável aleatória não pode ser substituída por um valor único e imutável. Em vez disso, propriedades estatísticas , como a distribuição da variável aleatória, podem ser declaradas. A distribuição é uma função que fornece a probabilidade de a variável assumir um determinado valor ou cair dentro de um intervalo, devido a determinados parâmetros, como média ou desvio padrão.

Variáveis aleatórias podem ser classificadas como discretas se a distribuição descrever valores de um conjunto contável, como números inteiros. A outra classificação para uma variável aleatória é contínua e é usada se a distribuição cobrir valores de um conjunto incontável, como números reais.

— Sharpie
fonte

2

Provavelmente é melhor não usar o termo "variável normal" aqui quando você não quer dizer uma variável aleatória distribuída normalmente.

— Rob Hyndman

Acordado. Embora eu pessoalmente olhasse para alguém engraçado por alguns segundos se eles dissessem "variável normal" e não jogassem a palavra "aleatória" ou "distribuída" lá em algum lugar para me indicar que era isso que eles estavam discutindo. Mas também sou engenheiro e não estatístico, por isso não uso muita notação específica de domínio.

— Sharpie

7

Variáveis aleatórias podem ser classificadas como discretas se não chamarem a atenção para si mesmas. Se eles são meramente contáveis, dizemos discretos :-P Além disso, você quer dizer prescrever, em vez de proscrever, mas acho que descrever pode ser mais apropriado. De qualquer forma, uma resposta agradável - espero que o +1 ajude a atenuar o problema!

— WalkyTalky

@walkytalky Obrigado pelas correções - eu fiz algumas correções.

— Sharpie

11

Qualquer variável é um espaço reservado para um valor. Você pode atribuir esse ou aquele valor a uma variável (às vezes o conjunto de valores que você pode atribuir é restringido por um conjunto, chamado tipo ). As variáveis que mantêm um valor único e imutável são conhecidas como 'constantes'. Você pode querer dizer que a variável aleatória mantém um valor conhecido, enquanto o valor da variável aleatória é desconhecido? Isso contradiz as outras respostas, que afirmam que a variável aleatória não é uma variável - é uma função que (deterministicamente) mapeia o estado desconhecido para outra coisa. Não é aleatório e não é uma variável, dizem eles.

— Val

6

Foi-me contada esta história:

Uma variável aleatória pode ser comparada com o sagrado império romano: o Sacro Império Romano não era santo, não era romano e não era um império.

Da mesma maneira, uma Variável Aleatória não é aleatória, nem uma variável. É apenas uma função. (a história foi contada aqui: fonte ).

Esta é pelo menos uma maneira rápida de explicar, o que pode ajudar as pessoas a se lembrarem!

— kjetil b halvorsen
fonte

3

Da Wikipedia :

Em matemática (especialmente teoria das probabilidades e estatística), uma variável aleatória (ou variável estocástica) é (em geral) uma função mensurável que mapeia um espaço de probabilidade em um espaço mensurável. Variáveis aleatórias que mapeiam todos os resultados possíveis de um evento para números reais são freqüentemente estudadas em estatística elementar e usadas nas ciências para fazer previsões com base em dados obtidos de experimentos científicos. Além das aplicações científicas, variáveis aleatórias foram desenvolvidas para a análise de jogos de azar e eventos estocásticos. A utilidade das variáveis aleatórias deriva de sua capacidade de capturar apenas as propriedades matemáticas necessárias para responder a perguntas probabilísticas.

Do cnx.org :

Uma variável aleatória é uma função que atribui valores numéricos exclusivos a todos os resultados possíveis de um experimento aleatório em condições fixas. Uma variável aleatória não é uma variável, mas uma função que mapeia eventos para números.

— Mehper C. Palavuzlar
fonte

4

Nenhuma das definições do cnx.org está correta: a primeira devido ao seu uso vago - e possivelmente enganoso - de "condições únicas" e "fixas" e a segunda porque está simplesmente errada; um RV é definido nos resultados (elementos do espaço amostral), não nos eventos (conjuntos mensuráveis de resultados).

— whuber

P = κ λ e^{- λ t}

$P=\kappa \lambda e^{-\lambda t}$

κ = \int_{0}^{\infty} P (t) d t

$\kappa=\int_0^\infty P(t) dt$

E D (t) = λ e^{- λ t}

$ED(t)=\lambda e^{-\lambda t}$

E D (t)

$ED(t)$

11

f (x)

$f(x)$

3

Uma variável aleatória, geralmente denominada X, é uma variável em que o resultado é incerto. A observação de um resultado específico dessa variável é chamada de realização. Mais concretamente, é uma função que mapeia um espaço de probabilidade em um espaço mensurável, geralmente chamado de espaço de estado. As variáveis aleatórias são discretas (podem levar vários valores distintos) ou contínuas (podem levar um número infinito de valores).

Considere a variável aleatória X, que é o total obtido ao jogar dois dados. Pode levar qualquer um dos valores de 2 a 12 (com probabilidade igual dada dado justo) e o resultado é incerto até que o dado seja lançado.

— Graham Cookson
fonte

5

Apenas um pensamento, mas parece que você está dizendo que a probabilidade de rolar um 12 (1/36) é a mesma que um 7 (1/6).

— 111311 jefflovejapan

0

Nos meus estudos universitários não matemáticos, fomos informados de que a variável aleatória é um mapa dos valores que a variável pode levar para as probabilidades. Isso permitiu desenhar as distribuições de probabilidade

Recentemente, percebi o quanto isso é diferente do que os matemáticos têm em mente. Acontece que, pela variável aleatória, eles significam uma função simples X: R → R, que pega um elemento do espaço de amostra Ω ( também conhecido como resultado, ticket ou indivíduo , conforme explicado acima) e o converte em um número real R no intervalo ( -∞, ∞). Ou seja, foi apropriadamente observado acima que não é aleatório e nem variável. A aleatoriedade geralmente vem com a medida de probabilidade P, como parte do espaço de medida (Ω, P). P mapeia amostras para R, de forma semelhante à variável aleatória, mas esse intervalo de tempo é limitado a [0,1] e podemos dizer que a variável aleatória se traduz (Ω, P) em (R, P), portanto, a variável aleatória é equipada com probabilidade meça P: R -> [0,1] para que você possa dizer para cada x em R qual é a probabilidade de sua ocorrência.

$\Omega$

H (Ω) = \sum P (Ω_{Eu}) eu n (Ω_{Eu})

$H(\Omega) = \sum{P(\Omega_i) ln (\Omega_i)}$

integral não precisa de nenhum valor real da variável aleatória.

— Val
fonte

X

$X$

A

$A$

σ

$\sigma$

A

$\mathcal{A}$

O que se entende por uma "variável aleatória"?

Introdução

Bilhetes numa caixa

Um exemplo

Tornando o modelo quantitativo

Variáveis ​​aleatórias

Depois: sobre mensurabilidade

Exemplo 1

Exemplo 2

Variáveis aleatórias