Uso de LLMs na Atenção Primária à Saúde

Flávio Marcilio de Oliveira

O avanço dos Modelos de Linguagem Ampla (LLM – Large Language Model) permitiu a evolução de aplicações nos mais diversos campos da ciência, inclusive na área da saúde. Muitas pesquisas tem sido realizadas envolvendo diagnósticos de patologias, utilizando os mais variados tipos de dados disponíveis, porém, ainda é rara a utilização de LLMs naquele primeiro contato que os profissionais de saúde tem com os pacientes. Diante do cenário promissor de evolução dos LLMs e da existência dessa lacuna, este trabalho apresenta um estudo da capacidade dos LLMs aplicados na área da atenção primária à saúde, buscando criar uma ferramenta que seja capaz de colaborar com um atendimento individual mais personalizado, com informações realmente úteis para que a comunicação da equipe médica realmente traga valor para os pacientes. Para atingir esse objetivo, uma pesquisa será realizada em todas as etapas de desenvolvimento dos LLMs, buscando compreender os desafios e limitações existentes que impactam na obtenção de um modelo que seja eficiente em cumprir o propósito deste trabalho. A primeira etapa consiste na avaliação da qualidade dos dados disponíveis, buscando compreender os impactos de características como tamanho, legibilidade e gramática do texto nos resultados gerados pelos LLMs. Devido às particularidades da língua portuguesa, será utilizado um pipeline de pré-processamento de dados específico para esse idioma, melhorando a qualidade dos resultados obtidos. Em uma etapa seguinte, é realizado um estudo dos métodos de tokenização que são utilizados para o processamento de linguagem natural, priorizando as duas técnicas principais (técnicas essenciais para o treinamento e uso eficaz de LLMs, como GPT-2 e BERT): BPE (Byte-Pair-Encoding) e WordPiece.


2024/1 - MSI1

Orientador: Marcos André Gonçalves

Palavras-chave: LLM; Atenção primária à saúde; Qualidade de dados; Pipeline de pré-processamento;

Link para vídeo

PDF Disponível