Na verdade, é um assunto bastante difícil. A reconstrução clássica em 3D de múltiplas vistas lida com a correspondência de pontos em primeiro lugar, ou seja, encontre o mesmo ponto em todas as imagens. Dado os parâmetros da câmera (visualização) para cada imagem, o ponto 3d original pode ser reconstruído. (Usando um laser ou um projetor, a cena pode ser iluminada para que a correspondência possa ser feita com relativa facilidade.)
A Bíblia do campo é Geometria de Múltiplas Visões em Visão Computacional por Hartley e Zisserman
No livro, há uma seção sobre o tensor trifocal, que é uma restrição multilinear entre 3 visualizações. Ele contém não apenas restrições de ponto, mas também de correspondência de linha. Pode ser usado para reconstrução de edifícios muito bem.
Portanto, seus contornos devem corresponder em primeiro lugar e talvez possam ser reconstruídos sabendo os parâmetros da câmera (a calibração da câmera também é abordada no livro). Então você terá contornos em 3d, mas nada mais. Para superfícies reais, é necessário fazer uma correspondência densa de pontos. Embora o tensor que mencionei pareça bom, ele é usado para linhas retas e tenho certeza de que um carro moderno tem linhas curvas por toda parte.
Não sei como você conseguiu esses contornos, mas, vendo a imagem que postou, sou bastante cético quanto à robustez desse algoritmo, portanto a reconstrução será ruim.
Outro método que me veio à cabeça é o casco visual ou a escultura no espaço . A matemática do contorno também deve ser feita. Executando o método em cada contorno, você pode ter o modelo.