Este estudo apresenta a estrutura de um sistema que habilita análises do nível de conforto experienciado em jornadas por rotas do sistema de transporte público em Belo Horizonte, utilizando mobile crowdsensing. É feita a comunicação com sensores de aceleração e rotação de dispositivos móveis, assim como é recuperada a localização desses, e então os dados são utilizados para gerar representações visuais georreferenciadas com ênfase em parâmetros relacionados ao problema de desconforto percebido.
Electronic Music is very diverse and covers many genres, each one of them with very distinct characteristics. It is easy to distinguish between some of them, and, for some others, its is not so easy. When it comes to subgenres of a main genre this becomes much more difficult since the differences become very subtle. For two different people the same track may be classified as belonging to completely different subgenres. Given the relevance of the subject, the hereby proposed project takes on the duty to implement and evaluate a model to classify electronic music according to its genre using Machine Learning and Digital Signal Processing techniques and concepts. The main objective here is to build a music genre classification model capable of achieving satisfactory results using a small amount of training data.
Neste trabalho, foi proposta uma modificação para o padrão de computação Irregular Wavefront Propagation Pattern (IWPP), com a finalidade de acelerar o processo de computação das operações de reconstrução morfológica e transformada de distância euclidiana. Em seguida, a modificação proposta para o IWPP, chamada de IWPP MP, foi utilizada na implementação das operações previamente citadas. Vale ressaltar que, essas implementações foram construídas por meio do modelo de programação CUDA da Nvidia. Por meio de experimentos, observou-se que a abordagem proposta pelo IWPP MP permite reduzir significativamente o tempo de computação das operações de reconstrução morfológica e transformada de distância euclidiana para instâncias que apresentam padrões complexos de propagação de informação.
O ensino de linguagens de programação de computadores, em todos os seus níveis, exige dos alunos a resolução de um grande número de exercícios, a fim de que eles desenvolvam o raciocínio lógico sequencial necessário para solucionar problemas computacionais. A correção destes exercícios demanda muito tempo dos professores e dos monitores das disciplinas. Com o crescimento do número de alunos nas disciplinas de ensino de programação, a correção manual de todos exercícios se tornará impraticável. O projeto visa resolver o desafio de modernizar e aprimorar o sistema de correção de exercícios em disciplinas de programação proposto e desenvolvido na pós-graduação do professor Natã Goulart da Silva, para que as listas já existentes passem a utilizar um novo framework e refatorar os códigos.
The synthesis of grammars to recognize sentences from examples is a problem that has several practical applications, including the identification and encryption of sensitive information in computer systems. Existing techniques tend to create very large grammars, having a number of terminals symbols pro- portional to the number of words in the example sentences. This work proposes a technique to merge grammar terminals into regular expressions. The tech- nique uses a lattice built from a partial ordering of regular expressions. This lattice, and the language identification algorithm it entails, were used to build Lushu, a data protection tool that encrypts sensitive information produced by the Java virtual machine. A comparison between Lushu and Zhefuscator, a tool of similar purpose, demonstrates that the technique proposed in this work is not only efficient in terms of time, but also in space, producing grammars up to 10 times smaller than the current state of the art.
A astronomia é uma das ciências mais antigas da humanidade. A curiosidade acerca das estrelas e outros objetos astronômicos é observada mesmo em culturas pré-históricas. No entanto, mesmo após inúmeros avanços tecnológicos que permitiram ampliar muito o conhecimento acerca do universo, muitas pessoas ainda possuem um entendimento muito raso sobre o céu e os corpos celestes. Neste projeto, o objetivo é criar um aplicativo que incentive o aprendizado de astronomia de forma lúdica, por meio de um álbum de figurinhas virtual em que os cromos são recebidos ao se responder perguntas sobre astronomia.
A disseminação de desinformação se tornou um dos maiores problemas da sociedade atual, e tem impacto em diversas áreas cruciais da sociedade como política e saúde, como no caso da pandemia do COVID-19. Durante o último ano, foi compartilhado um tsunami de notícias falsas acerca da doença, sua cura, prevenção e causas. Em um momento como esse, é de suma importância que a sociedade esteja bem informada. Tendo isso como motivação principal, nesse trabalho decidimos explorar uma parte desse problema, criando um método de detecção de notícias falsas com o intuito de verificar o que distingue uma notícia verdadeira de uma falsa. Com as análises foi possível identificar que características sobre o conteúdo de uma notícia, localização da fonte e propagação em redes sociais foram importantes para diferenciar as classes. E foi encontrado maior potencial nas características que mapeiam estruturas sobre a fonte de notícias.
A Wikipédia é uma enciclopédia “criada pela comunidade”, onde qualquer pessoa pode contribuir para o conteúdo, visando documentar o mundo de um ponto de vista neutro. Entretanto, a diversidade limitada da comunidade de voluntários da Wikipédia tem potencial para introduzir vieses, como viés de gênero, no conteúdo dessa enciclopédia. Nesse trabalho decidimos explorar uma parte desse problema, buscando verificar a existência de viés de gênero especificamente nas biografias da Wikipédia em português. E descobrimos que a maneira como as mulheres são retratadas nas biografias se difere bastante dos homens.
Este artigo aborda a extração de características de trafego em bancos de dados de captura de pacotes, com o objetivo de rotular quais são os dispositivos dentro da rede que estão gerando um dado trafego. Após a extração, são utilizados algo ritmos de inteligência artificial e aprendizado de maquina para treinar modelos capazes de classificar estes dispositivos, baseado nas características extraídas. Assim que criados e verificadas suas eficácias iniciais, são testados ataques adversariais nestes modelos, de forma a verificar como sua acurácia é alterada depois de ser atacado.
This work builds on top of FunSearch [1], an iterative, genetic algorithm, applying it to preprocess and select important features in different types of datasets by using a Large Language Model. One experiment was created for each dataset, which consists of generating an efficient evaluator function and running the algorithm for a specified number of iterations, then comparing with Kaggle user’s results for this dataset. For simpler, smaller datasets or with consistent columns, the algorithm performs slightly worse than the Kaggle data scientists, but with consistent improvements. For more complex and poorly cleaned datasets, the amount of features and information consistency poses a challenge to building efficient evaluator functions.
Este trabalho de revisão analisa artigos acadêmicos sobre Processamento de Linguagem Natural/Natural Language Processing (NLP), com foco na classificação de texto e com o objetivo de identificar as principais tendencias de pesquisa na area. A revisão abrange principalmente um perıodo de tempo mais recente para selecionar trabalhos mais relevantes. Os artigos são analisados quanto aos métodos, algoritmos e técnicas empregados, bem como aos resultados e conclusões alcancados. Os resultados da revisão são apresentados e discutidos em relacao ao estado atual da pesquisa em NLP e as possíveis direções futuras.
Recentemente, grandes empresas tem destinado muitos recursos para o desenvolvimento de Large Language Models (LLM), que são cada vez mais utilizados pelo público em geral para obter diversos tipos de informações. Sabe-se, ainda, que tais sistemas não são perfeitos, estando sujeitos a fornecer respostas incorretas ou incompletas. Nesse sentido, este projeto busca analisar a forma como tais tecnologias respondem a perguntas sobre temas polarizados, sobre os quais existem opiniões distintas e conflitantes, verificando se abrangem diferentes pontos de vista, se abordam predominantemente certa perspectiva ou se há uma abstenção.
Recent years have witnessed an enormous advance in the area of Machine Learning, reflected by the popularity of Artificial Inteligence systems. For most of the history of machine learning research, the main goal was the development of machine learning algorithms that led to more accurate models, but it is now very clear that there are many other important areas to develop. We want models to be fair to unprivileged groups in society, to not reveal private information used in the model training, to provide comprehensible explanations to humans in order to help identifying causal relationships, among many relevant goals other than simply improving model accuracy. This work reviews the literature for the identified relationships among these concepts in Machine Learning.
Electronic Design Automation (EDA) tools are software applications used by engineers in the design, development, simulation, and verification of electronic systems and integrated circuits. These tools typically process specifications written in a Hardware Description Language (HDL), such as Verilog, SystemVerilog or VHDL. Thus, effective testing of these tools requires programs written in these languages. This work presents ChiBench, a curated benchmark suite comprising more than 50K programs mined from open-source repositories. Additionally, this work also introduces ChiGen, a tool which synthesizes Verilog programs from scratch based on a probabilistic language model, thereby increasing the number of available inputs for testing.
A medida que o mundo depende cada vez mais de software e sua infraestrutura subjacente o entendimento e a melhoria de bases de código se torna mais crucial. Programas podem ser analisados antes ou durante sua execução. Quando feita antes, trata-se da Analise Estatica de Programas. Apesar de útil, o conjunto de ferramentas e teorias envolvidos nessa analise requer conhecimento nem sempre facilmente disponível como em outras áreas dominantes da ciência da computação. Tal falta de acessibilidade contradiz a relevância moderna do ramo. Dessa forma, a disciplina DCC888- Static Program Analysis se destaca por ser um dos poucos cursos disponíveis que cobre o tema extensivamente. Este projeto expande os recursos da disciplina com um conjunto de atividades de programação que visam agregar experiencia junto ao aprendizado teorico.
A vida polıtica brasileira sempre foi conturbada, passando por uma serie de transformacoes ao longo de sua historia. Desde o período colonial ate a monarquia, e de uma ditadura para uma democracia, o Brasil experimentou diversos modelos políticos. Atualmente, adotamos um sistema polıtico de democracia representativa, no qual o povo exerce seu poder por meio das eleições, designando representantes para agirem em seu nome no governo.
No cenário polıtico atual do Brasil, é evidente uma crescente tendencia de polarização, com discursos cada vez mais acirrados entre grupos considerados opostos. Embora muitos pesquisadores atribuam essa tendencia as redes sociais e as dinâmicas que nelas ocorrem, é importante considerar que esse fenomeno pode ter múltiplas motivações. Embora o impacto das redes sociais seja significativo, não podemos negligenciar outros fatores que podem contribuir para essa polarização, um deles sendo o geografico.
Um exemplo concreto que destaca a importância da analise geografica é a chamada ”Republica do Cafe com Leite”, que vigorou entre os anos de 1898 e 1930. Durante esse período, os eleitores de São Paulo e Minas Gerais, estados com grande base eleitoral na epoca, votavam alternadamente em candidatos `a presidência desses estados. Essa alternância refletia uma dinamica polıtica influenciada pela localização geografica dos eleitores e pelos interesses socioeconômicos das regiões.
Diante desse contexto, surge a motivação deste projeto de pesquisa: desenvolver uma ferramenta que permita a realização de analises dos dados eleitorais com uma perspectiva geografica mais abrangente. Essa ferramenta tera como objetivo permitir que os indivíduos realizem analises geopolíticas do Brasil, compreendendo as nuances socioculturais e geográficas que contribuem para a formação do panorama polıtico atual.
Na indústria de exploração de petróleo, encontrar os poços mais semelhantes já perfurados, com base nos dados de perfis de um novo poço perfurado, é uma tarefa crucial. Este projeto visa introduzir uma metodologia inovadora para essa tarefa baseada no uso de redes generativas e aprendizado autossupervisionado. Nossa abordagem utiliza uma Rede Generativa Adversarial Bidirecional (BiGAN) como auxílio a uma rede de similaridade (1D ResNet50) treinada com triplet loss para medir a similaridade entre os dados de perfis de poços de petróleo. O núcleo do nosso modelo é uma rede de similaridade que constrói um espaço de representação em que a similaridade entre sequências de dados de perfis são expressas como distâncias entre vetores. Essa rede de similaridade recebe três tipos de dados: (1) Âncora, aleatoriamente selecionado do banco de dados. (2) Positivo, criado a partir de augmentation do dado âncora. (3) Negativo, fornecido pelo gerador da BiGAN usando como base o dado âncora. Utilizando dois grandes conjuntos de dados de perfis com quatro medições de sensores — raios gama, porosidade de neutrão, densidade e sônicos —, comparamos nossa proposta com os modelos mais recentes da literatura e com estratégias bem estabelecidas na indústria. Os resultados mostram que nossa estrutura, ainda que em uma versão preliminar, se aproxima às capacidades das abordagens atuais da literatura nos experimentos de similaridade propostos, demonstrando também o valioso potencial dessa estratégia para o desenvolvimento da indústria do petróleo.
Os Efeitos algébricos são uma abordagem para efeitos computacionais baseada na premissa de que o comportamento impuro surge de um conjunto de operações e fornecem ao programador uma estrutura poderosa para construir abstrações avançadas de fluxo de controle de maneira pura mente funcional. Durante este relatório, será descrita uma técnica utilizada para construir um compilador simples capaz de transformar uma linguagem simples que suporte abstrações semelhantes a Efeitos Algébricos em código C++.