Qual é o papel da engenharia de recursos na inferência estatística?


7

Esta pode ser uma pergunta idiota. Sou um graduado recente da faculdade que trabalha na área de modelagem preditiva e descobre que há uma forte ênfase na realização de engenharia de recursos. No entanto, na maior parte do meu treinamento acadêmico em estatística, quase não houve menção à engenharia de recursos e similares (além de argumentos contra preditores de discretização / exclusão) com o objetivo de construir modelos inferenciais. Fiquei me perguntando por que a engenharia de recursos desempenha um papel maior ao fazer modelagem preditiva em vez de desenvolver modelos para inferência estatística. Então ... qual é o papel da engenharia de recursos na inferência estatística? (em oposição ao papel da engenharia de recursos na modelagem preditiva)

Com base no comentário recente:

  • Por inferência estatística, refiro-me a qualquer análise em que o objetivo principal seja avaliar a relação entre um preditor e uma variável de resposta.

  • Por modelagem preditiva, quero dizer qualquer análise em que o objetivo principal seja estimar Y ou prever valores futuros. (inclui todas as técnicas de ML)


Talvez você possa editar o q. um pouco para explicar a distinção que você está fazendo entre previsão e inferência.
Scortchi - Restabelece Monica

@aguy Obrigado pela precisão. Eu teria dito, no entanto, que a previsão é sempre sobre eventos que ainda não ocorreram. Pelo trabalho que fiz no campo da ML, não acho que possamos dizer que a modelagem preditiva inclua todas as técnicas de aprendizado de máquina. Inferência estatística é um termo amplo que incorpora um grande conjunto de abordagens e problemas, desde classificação e agrupamento até teste de hipóteses e estimativa de parâmetros.
Eskapp

Respostas:


2

Vou tentar ilustrar a razão da engenharia de recursos em geral, dizer que gostaria de analisar imagens.

Quando projetamos recursos, devemos ter em mente que eles são uma representação dos dados / imagem originais. Agora, se eu souber que tipo de informação importa para a tarefa que preciso executar, preciso dos recursos para refletir isso.

Por exemplo, se eu gostaria de conhecer o conteúdo de uma imagem e escolher como recurso o número de pixels na imagem, obviamente não funcionará. Agora, se eu optar por usar a intensidade média dos pixels entre os patches, poderei diferenciar entre uma imagem azul e uma imagem branca. Mas talvez eu queira saber se um objeto está presente na imagem e esse recurso será inútil. Portanto, posso considerar os gradientes de intensidade entre os pixels e observar suas variações (mas não poderei dizer se minha imagem é azul ou branca!).

Não há recurso ideal, apenas os recursos projetados para uma tarefa específica e essa tarefa é conhecida apenas pela pessoa que cria o framework inteiro: você! É por isso que a engenharia de recursos é importante. No entanto, a pesquisa sobre o tema do design de recursos é enorme e, para a maioria das tarefas com as quais você está trabalhando, alguém já projetou recursos que comprovadamente funcionam muito bem e você pode apenas usá-los como estão (ou alterá-los um pouco, se necessário).

Os recursos mais eficientes são baseados em teorias de vários campos matemáticos e seu alcance de aplicação é de alguma forma restrito. Por outro lado, os classificadores costumam ter uma ampla gama de aplicações e é por isso que acho que a ênfase costuma estar neles enquanto estudamos na academia.


Você pode reler minha pergunta. Eu estava perguntando sobre o papel da engenharia de recurso em inferência estatística em oposição a previsão, e por que se coloca maior ênfase sobre ele do que o outro
Aguy

@aguy Antes de tudo, os modelos de classificação podem ser baseados em inferência estatística. Segundo, não acho que "a engenharia de recursos tenha um papel maior ao fazer modelagem preditiva, em oposição ao desenvolvimento de modelos para inferência estatística". Os recursos são uma representação de alguns dados, você pode vê-los como uma projeção dos dados em um espaço mais conveniente para o que você precisa fazer, seja o que for (previsão, classificação, agrupamento, etc.). Então, o uso de alguns modelos pode ter algumas restrições que precisam ser levadas em consideração ao projetar recursos.
Eskapp

Meu último parágrafo corroborou sua constatação: Na aula, raramente ouvimos falar sobre o design de recursos, mas, quando começamos a realmente trabalhar com qualquer modelo (preditivo ou outro), descobrimos que eles são cruciais.
Eskapp #

1

Como este artigo da Wiki deixa claro ( https://en.wikipedia.org/wiki/Feature_engineering ), a engenharia de recursos é uma etapa fundamental no aprendizado de máquina, envolvendo a geração e o cultivo de um conjunto de recursos ou atributos que podem ser empiricamente (não necessariamente teoricamente) útil na previsão ou classificação de um alvo. Andrew Ng (e outros) adquirem grande conhecimento de domínio especializado no desenvolvimento de um conjunto de recursos, mas dada a multiplicidade de transformações que podem ser aplicadas aos dados para melhorar o ajuste do modelo, o grande número de recursos comumente analisados ​​e o " Na caixa preta "de muitos dos algoritmos empregados, o conhecimento do domínio dificilmente parece uma prioridade.

Para mim, é sempre útil salientar que inferência versus previsão e classificação podem ser vistas como domínios separados, o primeiro pertencendo à estatística e o último o foco do aprendizado de máquina. Obviamente, há muita sobreposição nessa terminologia e nesses campos, ou seja, eles não são de modo algum mutuamente exclusivos. De um modo geral, a inferência estatística envolve especialista, conhecimento de domínio, especificação cuidadosa de uma hipótese, um conjunto finito (pequeno) de atributos ou recursos, juntamente com um projeto experimental para testar a hipótese - investigação científica clássica com o objetivo de gerar insight e entendimento em relação à verdade básica. A previsão e classificação do BC, por outro lado, podem ou não ser orientadas por hipóteses, podem ou não ter insight descritivo como objetivo e podem ou não ter a verdade fundamentada como referência.


-1

Em termos gerais, a engenharia de recursos faz pelo menos duas coisas.

Primeiro, você pode limpar, reestruturar ou transformar seus recursos de forma que as informações úteis sejam aprimoradas e as informações redundantes ou de ruído sejam minimizadas. Talvez você saiba que uma categoria de pessoas / produtos / widgets é totalmente irrelevante e os remova.

Segundo, você pode criar novos recursos com base no conhecimento do domínio em seu campo específico. Nesse caso, você realmente adiciona novas informações que não estavam lá anteriormente. No meu próprio trabalho, foram esses recursos de engenharia que oferecem mais utilidade.

Isso provavelmente é difícil de ensinar, mas é lamentável que seu programa tenha ignorado essa etapa muito importante.


Você pode reler minha pergunta. Eu estava perguntando sobre o papel da engenharia de recurso em inferência estatística em oposição a previsão, e por que se coloca maior ênfase sobre ele do que o outro
Aguy
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.