Um processo de Mineração de Textos com Foco na Coleta de Dados
Ministrante:

Dr. Rafael Rossi (Cientista de Dados - iFood)

Resumo

A mineração de textos é um processo que visa extrair conhecimento de dados textuais ou automatizar processos envolvendo dados textuais, como detecção de spams, classificação de notícias, e sensoriamento web. O processo de mineração de textos pode ser dividido em 5 etapas: identificação do problema, pré-processamento, extração de padrões, pós-processamento e utilização do conhecimento. Na primeira etapa, identificação do problema, um dos itens a serem definidos é a coleção de texto ou coleções de textos que serão utilizadas no processo. Porém, na maioria dos cursos ou aulas sobre Mineração de Textos, assume-se que as coleções de textos já foram coletadas e estão disponíveis. Entretanto, em muitas situações é necessário coletar os textos na web para dar desenvolvimento em pesquisas em ou aplicações nas empresas. Dado isso, esse minicurso tem como foco o ensino de como coletar dados na web, com foco em dados textuais, e como gerar bases estruturadas a partir desta coleta. A partir do momento que têm-se a base coletada, serão apresentados os demais passos de um processo de mineração de textos, como o pré-processamento, a extração de padrões e o pós processamento, porém, de maneira mais sucinta. Vale ressaltar que os conceitos empregados para a coleta de dados textuais na web podem ser empregados para a coleta de outros tipos de dados. Este minicurso será dado utilizando a linguagem Python e as bibliotecas BeautifulSoap para a coleta de dados, Pandas para a manipulação de dados e ScikitLearn para o pré-processamento, extração de padrões e pós-processamento dos dados.

Bibliografia:

  • AGGARWAL, Charu C. Machine learning for text. Cham: Springer, 2018.
  • MITCHELL, Ryan. Web Scraping com Python: Coletando mais dados da web moderna. Novatec Editora, 2019.

Sobre o Ministrante

Rafael Rossi possui graduação em Informática pelo Instituto de Ciências Matemáticas e de Computação pela Universidade de São Paulo com ênfase em Sistemas de Apoio à Tomada de Decisão, e mestrado e doutorado em Ciências de Computação e Matemática Computacional pelo Instituto de Ciências de Computação e Matemática Computacional da Universidade de São Paulo na linha de pesquisa Inteligência Computacional. Desde 2007 tem atuado em projetos de Mineração de Dados e Textos. Mais especificamente, já atou nas áreas de extração de tópicos, segmentação de textos, extração de informação, pré-processamento de textos, e aprendizado supervisionado e semissupervisionado para classificação de textos, músicas, aspectos e sentimentos. Tem trabalhado como revisor para periódicos e conferências internacionais e nacionais na área de inteligência computacional. Atuou como docente e pesquisador na Universidade Federal de Mato Grosso do Sul (UFMS) e atualmente é Cientista de Dados no iFood.

Currículo lattes: http://lattes.cnpq.br/3459897790282753

Não perca esta oportunidade!