Com a crescente quantidade de informações gerada e disponibilizada a cada dia, motores de busca se fazem cada vez mais necessários para a recuperação destas informações de forma eficiente. O Easysearch é um motor de busca desenvolvido pela Dataeasy, e tem como especialidade a obtenção de dados de diversas plataformas, fontes e naturezas, para que sejam estruturados, indexados e localizados por seus usuários. No entanto, a Dataeasy tem um desafio de incorporar recursos semânticos no Easysearch, através de ferramentas de PLN - Processamento de Linguagem Natural.
O objetivo deste trabalho é iniciar este processo de inclusão de semântica ao Easysearch, através da implementação de recursos baseados em dois algoritmos de aprendizado de máquina: LDA (Latent Dirichlet Allocation) e doc2vec. O uso do LDA será feito para modelagem de tópicos de documentos, possibilitando a automatização da categorização e extração de tags dos mesmos. Já o doc2vec será utilizado como algoritmo de similaridade entre documentos, para sugestão de conteúdos semelhantes aos examinados pelo usuário. O resultado obtido a partir da aplicação destes dois algoritmos é o oferecimento de uma visão mais semântica acerca dos conteúdos visualizados, e, desta forma, mais recursos para facilitar a obtenção tanto dos documentos desejados, como de outros semelhantes.
O estudo destes algoritmos de PLN também possibilita vislumbrar recursos semânticos mais avançados. O algoritmo word2vec, por exemplo, pode ser utilizado para sugerir termos de busca baseados em contexto e para incorporação automática de sinônimos nos documentos indexados, viabilizando a recuperação de conteúdo a partir de palavras que não estejam necessariamente nos documentos.