Utilisation de MemAlign pour améliorer l'évaluation de l'apprentissage automatique traditionnel dans Genie Code
Traduit de l'original anglais par IA. Voir en anglais
MemAlign, un framework MLflow open source, a considérablement amélioré l'évaluation de l'apprentissage automatique traditionnel dans Genie Code en réduisant l'erreur du juge LLM de 74 à 89 % sur des dimensions clés. Cet alignement a été réalisé avec environ 50 exemples étiquetés, démontrant l'importance de la mémoire sémantique et épisodique pour combler l'écart entre les juges LLM et les experts humains.
* Genie Code génère des notebooks ML complets à partir de requêtes en langage naturel – nous avons construit neuf juges LLM pour évaluer leur qualité selon des dimensions telles que l'entraînement de modèles, l'imputation de données et l'ingénierie de fonctionnalités. * L'annotation humaine a révélé que les juges étaient en désaccord avec les experts jusqu'à 0,68 MAE sur une échelle de 3 points. MemAlign, un framework d'alignement open source dans MLflow, a comblé cet écart en utilisant seulement environ 50 exemples étiquetés. * Sur les trois dimensions les moins bien alignées, MemAlign a réduit l'erreur du juge de 74 à 89 %, et une étude de suivi a montré que la mémoire sémantique et épisodique sont toutes deux essentielles au résultat.