Reconhecimento de atividade humana usando o problema do conjunto de dados do smartphone

Sou novo nesta comunidade e espero que minha pergunta se encaixe aqui. Como parte do meu curso de análise de dados, eu escolhi o projeto de reconhecimento de atividades humanas usando conjuntos de dados de smartphones. No que me diz respeito, este tópico está relacionado ao Machine Learning e Support Vector Machines. Ainda não estou familiarizado com essas tecnologias, então precisarei de ajuda.

Decidi seguir essa ideia do projeto http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (primeiro projeto no topo) O objetivo do projeto é determinar qual atividade uma pessoa é participar (por exemplo, WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) a partir de dados gravados por um smartphone (Samsung Galaxy S II) na cintura do sujeito. Usando seu acelerômetro e giroscópio embutidos, os dados incluem aceleração linear 3-axial e velocidade angular 3-axial a uma taxa constante de 50Hz.

Todo o conjunto de dados é fornecido em uma pasta com algumas descrições e rótulos de recursos. Os dados são divididos para os arquivos 'test' e 'train' nos quais os dados são representados neste formato:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

E isso é apenas uma amostra muito pequena do que o arquivo contém.

Realmente não sei o que esses dados representam e como podem ser interpretados. Também para analisar, classificar e agrupar os dados, quais ferramentas eu precisarei usar? Existe alguma maneira de colocar esses dados no Excel com rótulos incluídos e, por exemplo, usar R ou python para extrair dados de amostra e trabalhar nisso?

Qualquer sugestão / dica seria muito apreciada.

— Jakubee
fonte

Respostas:

As definições do conjunto de dados estão na página aqui:

Informações sobre atributos na parte inferior

ou você pode ver dentro da pasta ZIP o arquivo chamado activity_labels, que contém os cabeçalhos das colunas, certifique-se de ler o README com atenção, pois há algumas informações boas. Você pode facilmente trazer um .csvarquivo em R usando o read.csvcomando

Por exemplo, se você nomear seu arquivo, samsungdatapoderá abrir R e executar este comando:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Ou, se você já está dentro do diretório ativo em R, basta executar o seguinte

data <- read.csv("samsungdata.csv", header = TRUE)

Onde o nome datapode ser alterado para o que você deseja chamar seu conjunto de dados.

— MCP_infiltrator
fonte

Eu vejo. Estudei o arquivo README, mas ainda não consigo descobrir como os dados podem ser lidos. Por exemplo, o arquivo train / X_train.txt' representa o conjunto de treinamento (os dados de amostra que mostrei na postagem vêm deste arquivo).

— Jakubee 27/05

Parece-me que o conjunto de dados é bastante amplo, existem 561 variáveis por linha listadas dentro do arquivo features.txt. Eu acredito que é isso que você está se referindo.

— MCP_infiltrator

Portanto, cada uma das variáveis do arquivo 'features' corresponde a cada coluna no arquivo 'x-test.txt', por exemplo, ou estou errado?

— Jakubee 27/05

É assim que estou aceitando. Pelo que pude reunir no README, é isso que o arquivo contém.

— MCP_infiltrator

@Jakubee Sim. Existem 561 nomes de linhas / variáveis no features.txtarquivo e 561 colunas no X_train.txtarquivo, um para cada variável.

— Marco13

Parece que este (ou conjunto de dados muito semelhante) é usado nos cursos do Coursera. A limpeza deste conjunto de dados é uma tarefa para Obter e limpar dados , mas também é usada para estudo de caso para análise de dados exploratórios . O vídeo deste estudo de caso está disponível em vídeos da semana 4 do material didático da EDA. Isso pode ajudá-lo a começar com esses dados.

— Damian Melniczuk
fonte