Eu gostaria de usar dados não atômicos, como um recurso para uma previsão. Suponha que eu tenha uma tabela com esses recursos:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
Gostaria de prever / classificar, por exemplo, a Coluna 2.
Estou fazendo algo para responder automaticamente a perguntas, qualquer tipo de pergunta, como "Onde estava o Foo Born?" ...
Primeiro faço uma consulta a um mecanismo de pesquisa e, em seguida, obtenho alguns dados de texto como resultado, depois faço todo o material de análise (marcação, stemming, análise, divisão, divisão ...)
Minha primeira abordagem foi criar uma tabela, cada linha com uma linha de texto e vários recursos, como "Primeira palavra", "Tag da primeira palavra", "Chunks", etc ...
Mas, com essa abordagem, sinto falta das relações entre as frases.
Gostaria de saber se existe um algoritmo que analisa as estruturas (ou vetores) da árvore e faz as relações e extrai o que for relevante para a previsão / classificação. Eu preferiria saber sobre uma biblioteca que faz isso do que um algoritmo que eu tenho que implementar.