Easysearch - Clusterização de documentos por LDA (Latent Dirichlet Allocation) e Similaridade de documentos por doc2vec  

Com a crescente quantidade de informações gerada e disponibilizada a cada dia, motores de busca se fazem cada vez mais necessários para a recuperação destas informações de forma eficiente. O Easysearch é um motor de busca desenvolvido pela Dataeasy, e tem como especialidade a obtenção de dados de diversas plataformas, fontes e naturezas, para que sejam estruturados, indexados e localizados por seus usuários. No entanto, a Dataeasy tem um desafio de incorporar recursos semânticos no Easysearch, através de ferramentas de PLN - Processamento de Linguagem Natural.

O objetivo deste trabalho é iniciar este processo de inclusão de semântica ao Easysearch, através da implementação de recursos baseados em dois algoritmos de aprendizado de máquina: LDA (Latent Dirichlet Allocation) e doc2vec. O uso do LDA será feito para modelagem de tópicos de documentos, possibilitando a automatização da categorização e extração de tags dos mesmos. Já o doc2vec será utilizado como algoritmo de similaridade entre documentos, para sugestão de conteúdos semelhantes aos examinados pelo usuário. O resultado obtido a partir da aplicação destes dois algoritmos é o oferecimento de uma visão mais semântica acerca dos conteúdos visualizados, e, desta forma, mais recursos para facilitar a obtenção tanto dos documentos desejados, como de outros semelhantes. 

O estudo destes algoritmos de PLN também possibilita vislumbrar recursos semânticos mais avançados. O algoritmo word2vec, por exemplo, pode ser utilizado para sugerir termos de busca baseados em contexto e para incorporação automática de sinônimos nos documentos indexados, viabilizando a recuperação de conteúdo a partir de palavras que não estejam necessariamente nos documentos.

Ajude-nos a divulgar o evento

Faça um Tweet ou publique um post no Facebook.

Escolha uma rede social, clique no botão correspondente e confirme a postagem para ser redirecionado para o conteúdo (você poderá ver o texto a ser publicado antes de confirmar).

Enviar Tweet Postar no Facebook