Consultas por similaridade
Ministrante:

Prof. Dr. Caetano Traina Junior (ICMC/USP)

Resumo

Quantidades imensas de dados são gerados em quantidades cada vez maiores. Essa proliferação oferece grandes oportunidades para extrair e amplificar o valor individual dos dados, beneficiando as empresas e a sociedade. No entanto, apenas gerar e armazenar dados não gera valor. Para isso é necessário processar e analisar dos dados aplicando técnicas sofisticadas, nas quais uma operação fundamental é a chamada "consulta": a rápida localização e recuperação dos elementos, ou de pequenas porções dentro do imenso volume de dados, que são de interesse em cada passo dos algoritmos utilizados. Quando os dados não são tão simples quanto números ou pequenas cadeias de caracteres, mas são sim imagens, registros de áudio, vetores multidimensionais, séries temporais, textos longos não estruturados, etc., não tem sentido compará-los por igualdade ou por relações de ordem (maior, menor ou igual, etc). Torna-se necessário compará-los por "similaridade". Então, as consultas por similaridade se tornam a opção por excelência ou, em muitos casos, a única opção. Consultas por similaridade requerem a configuração de todo um ambiente de exploração de dados, o que inclui definir como preparar os dados, extrair deles características úteis às formas de comparação que as aplicações demandam, e definir o que significa similaridade para cada tipo de dados específico, para só então, finalmente, definir a consulta em si. Este minicurso irá tratar dessas questões numa abordagem holística que inclui tanto os conceitos e algoritmos fundamentais quanto as técnicas mais elaboradas de indexação e execução de consultas por similaridade.

Bibliografia:

  • P, Deepak and Deshpande, Prasad M. - Operators for Similarity Search: Semantics, Techniques and Usage Scenarios, Springer International Publishing, 2015.
  • Cordeiro, Robson Leonardo Ferreira and Faloutsos, Christos and Traina Jr, Caetano - Data Mining in Large Sets of Complex Data, Springer, 2013.
  • Zezula, Pavel and Amato, Giuseppe and Dohnal, Vlastislav and Batko, Michal - Similarity Search: The Metric Space Approach, Springer New York, 2006.
  • Chen, Lu and Gao, Yunjun and Song, Xuan and Li, Zheng and Zhu, Yifan and Miao, Xiaoye and Jensen, Christian S. - Indexing Metric Spaces for Exact Similarity Search, ACM Comput. Surveys, 2022: To be published.

Sobre o Ministrante

Caetano Traina Junior possui graduação em Engenharia Elétrica pela Universidade de São Paulo (1977), mestrado em Ciências da Computação pela Universidade de São Paulo (1982) e doutorado em Física Computacional pela Universidade de São Paulo (1986). Atualmente é Professor Titular do Departamento de Ciências de Computação da Universidade de São Paulo. Trabalha na área de Banco de Dados, atuando principalmente nos seguintes temas: Consultas por similaridade, Recuperação de imagens baseada em conteúdo, Otimização de consultas, Linguagens de consulta, Indexação de dados complexos, Mineração de dados complexos.

Currículo lattes: http://lattes.cnpq.br/5118629875846648

Não perca esta oportunidade!