Tendo muitos documentos de texto (em linguagem natural, não estruturados), quais são as maneiras possíveis de anotá-los com alguns metadados semânticos? Por exemplo, considere um pequeno documento:
I saw the company's manager last day.
Para poder extrair informações dele, ele deve ser anotado com dados adicionais para ser menos ambíguo. O processo de encontrar esses metadados não está em questão, portanto, assuma que seja feito manualmente. A questão é como armazenar esses dados de forma que análises adicionais possam ser feitas de maneira mais conveniente / eficiente?
Uma abordagem possível é usar tags XML (veja abaixo), mas parece muito detalhada, e talvez haja melhores abordagens / diretrizes para armazenar esses metadados em documentos de texto.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.