Usando MemAlign para Melhorar a Avaliação de Machine Learning Tradicional no Genie Code
Traduzido do original em inglês por IA. Ver em inglês
MemAlign, um framework MLflow de código aberto, melhorou significativamente a avaliação de machine learning tradicional no Genie Code, reduzindo o erro do juiz LLM em 74-89% em dimensões chave. Este alinhamento foi alcançado com cerca de 50 exemplos rotulados, demonstrando a importância da memória semântica e episódica para diminuir a lacuna entre os juízes LLM e os especialistas humanos.
* O Genie Code gera notebooks ML completos a partir de prompts em linguagem natural – construímos nove juízes LLM para avaliar sua qualidade em dimensões como treinamento de modelos, imputação de dados e engenharia de recursos. * A anotação humana revelou que os juízes discordavam dos especialistas em até 0,68 MAE em uma escala de 3 pontos. MemAlign, um framework de alinhamento de código aberto no MLflow, fechou essa lacuna usando apenas cerca de 50 exemplos rotulados. * Nas três dimensões com pior alinhamento, MemAlign reduziu o erro do juiz em 74-89%, e um estudo de acompanhamento mostrou que tanto a memória semântica quanto a episódica são essenciais para o resultado.