quarta-feira, 7 de março de 2018

TF/IDF para selecionar palavras relevantes em Text Mining

#datascience #nlp #R #textMining #tfIdf
TF/IDF - Term Frequency / Inverse Document Frequency é uma técnica para classificar palavras em uma coleção de documentos por ordem de relevância. Podemos usá-la como alternativa a uma tabela de "Stop words", que nem sempre é precisa.
Fiz uma pequena demonstração do uso da técnica de TF/IDF para selecionar as palavras mais relevantes de vários artigos da mídia, obtidos através de RSS feed.
Esta técnica de text mining apresenta ótimos resultados e pode ser conjugada com análise de sentimentos e de categoria de palavras, para classificar textos:
https://github.com/cleuton/datascience/blob/master/book-R/tf_idf.ipynb

Nenhum comentário:

Postar um comentário