MBA em Data Scicence & Analytics - Universidade de São Paulo (USP/ESALQ)
Trabalho de Conclusão de Curso
Neste repositório, encontram-se os códigos implementados no projeto do ``Trabalho de Conclusão de Curso`` do MBA em Data Science & Analytics da USP/ESALQ. Todas as implementações foram feitas utilizando o software **MATLAB R2022a**.
O TCC foi apresentado no dia 11 de janeiro de 2024 com aprovação na mesma data, obtendo nota máxima (10/10).
Tema do TCC: Previsão do Desempenho Acadêmico de Estudantes do Ensino Superior Utilizando Técnicas de Apredizado Profundo
Resumo: As instituições de ensino superior coletam uma grande quantidade de dados sobre o desempenho dos seus alunos, tornando-se um campo fértil para a geração de “insights” por meio da aplicação de algoritmos de aprendizado de máquina. Este trabalho propõe realizar uma análise de predição do desempenho acadêmico dos alunos de instituições de ensino superior utilizando técnicas de aprendizado de máquina. Para realizar essa tarefa, os algoritmos Rede Neural Artificial do tipo Perceptron Multicamadas, Floresta Aleatória e Árvore de Decisão foram implementados. Dois experimentos de classificação foram realizados para cada algoritmo. No primeiro, a técnica SMOTE foi empregada para lidar com o desbalanceamento das classes presentes na base de dados antes do processo de treinamento, teste e validação dos modelos. No segundo experimento, o método de validação cruzada estratificada foi utilizado com o conjunto de dados desbalanceado. A principal contribuição do trabalho é fornecer uma análise comparativa dos algoritmos para a resolução da problemática, além de fornecer uma ferramenta de baixo custo computacional para lidar com desafios comuns na previsão do sucesso acadêmico dos alunos de curso superior em diversas instituições de ensino. O algoritmo Floresta Aleatória obteve uma acurácia de 80,68% no conjunto de teste utilizando a técnica SMOTE, destacando-se dentre os demais algoritmos propostos neste trabalho.
Palavras-chave: Performance acadêmica, Classificação multiclasse, Redes neurais artificiais, Árvore de decisão, Floresta aleatória.
Abstract: Higher education institutions collect a vast amount of data on their students' performance, becoming a fertile field for generating insights through the application of machine learning algorithms. This work proposes to perform an analysis to predict the academic performance of higher education institution students using machine learning techniques. To accomplish this task, the Artificial Neural Network algorithm of the Multilayer Perceptron type, Random Forest, and Decision Tree were implemented. Two classification experiments were conducted for each algorithm. In the first one, the SMOTE technique was employed to address the class imbalance present in the dataset before the training, testing, and validation processes of the models. In the second experiment, the stratified cross-validation method was used with the unbalanced dataset. The main contribution of this work is to provide a comparative analysis of the algorithms for addressing the problem, as well as to offer a computationally cost-effective tool to tackle common challenges in predicting the academic success of higher education students across various institutions. The Random Forest algorithm achieved an accuracy of 80.68% on the test set using the SMOTE technique, standing out among the other algorithms proposed in this work.
Keywords: Academic performance, Multiclass classification, Artificial neural networks, Decision tree, Random Forest.