Plataforma distribuída para detecção não supervisionada de anomalias em grandes volumes de dados

Arthur Alves Melo dos Santos Pacheco

O principal objetivo deste trabalho é propor uma implementação para a detecção de anomalias em tempo real para grandes volumes de dados, em particular, para bases de dados de Call Detail Records, registros gerados por empresas de telecomunicações para catalogar ações realizadas por usuários no dia a dia.
A implementação está dividida em duas partes principais: o desenvolvimento da infraestrutura paralela e distribuída utilizando componentes do ecossistema Hadoop e a detecção não supervisionada de anomalias, utilizando redes implementadas com o algoritmo Hierarchical Temporal Memory.
Este documento apresenta aspectos e desafios da computação de anomalias de dados em streaming, paradigmas utilizados no ecossistema Hadoop e um breve resumo do funcionamento e características das redes de aprendizado de Hierarchical Temporal Memory ao mesmo tempo em que propõe uma solução e apresenta resultados preliminares do funcionamento de um ambiente integrado, tanto do ponto de vista arquitetural quanto do ponto de vista de detecção de anomalias


2019/2 - POC1

Orientador: Jussara Marques de Almeida

Palavras-chave: Hadoop, Hierarchical Temporal Memory, detecção de anomalias, CDRS

PDF Disponível