Upon evaluating source code generated by LLMs and improving the prompt engineering process

Θαρρόπουλος
Θεοφάνης
Αξιολόγηση ποιότητας κώδικα παραγόμενου από Μεγάλα
Γλωσσικά Μοντέλα και βελτιστοποίηση προτροπών
Επιβλέπων καθηγητής
κ. Συμεωνίδης Ανδρέας

Η επανάσταση στην Τεχνητή
Νοημοσύνη
Επανάσταση στην Τεχνητή
Νοημοσύνη μέσω LLMs
• Εμφάνιση του ChatGPT (2022)
• Google Gemini (2023)
• Anthropic Claude (2023)
Ανάδειξη ΑΙ Code Assistants
• Νέα γενιά εργαλείων κώδικα
• Ενσωμάτωση σε IDEs
• Αυτοματοποίηση Εργασιών
GitHub Copilot
• Συνεργασία GitHub-OpenAI
• Εξειδίκευση στον κώδικα
• Ευρεία αποδοχή

Διπλωματική
Στόχοι Διπλωματικής
• Αξιολόγηση ποιότητας παραγόμενου
κώδικα
• Μελέτη αποτελεσματικότητας σε
πραγματικές εφαρμογές
• Ανάλυση περιορισμών και
δυνατοτήτων
• Βελτιστοποίηση προτροπών
• Δημιουργία σετ δεδομένων για την
αξιολόγηση επίδοσης μοντέλων LLM
Μεθοδολογία Αξιολόγησης
• Συλλογή και ανάλυση δεδομένων
• Τεχνικές μηχανικής προτροπής
• Μέτρηση απόδοσης του μοντέλου

Code Completion / Code Generation
Δημιουργία Κώδικα
(Code Generation)
• Άμεση παραγωγή κώδικα στοχαστικά
• Βασίζεται στο συγκείμενο κώδικα
• Παραγωγή από το μηδέν
• Χρήση μοντέλων μηχανικής μάθησης
Ολοκλήρωση Κώδικα
(Code Completion)
• Προτάσεις συμπλήρωσης
υπάρχοντος κώδικα
• Αποφυγή συνηθισμένων λαθών
• Μείωση περιττής πληκτρολόγησης
• Χρήση Language Server Protocol

Παράδειγμα Δημιουργίας Κώδικα

Παράδειγμα Ολοκλήρωσης Κώδικα

GitHub Copilot
Εξέλιξη Μοντέλου
• Αρχική έκδοση με Codex
• Μετάβαση σε GPT-3.5 Turbo
• Τελική έκδοση με GPT-4*
GitHub Copilot X
• Ενσωμάτωση chatbot
• Βελτιωμένη κατανόηση συγκείμενου
κώδικα
• Αυτοματοποίηση εργασιών
Copilot Chat
• Επικοινωνία με φυσική γλώσσα
• Άμεση πρόσβαση στο IDE
• Χρήση υπάρχοντος κώδικα
* Κατά την διάρκεια της έρευνας

Παράδειγμα Copilot Chat

Διάγραμμα Επιλογής Εφαρμογής
Προς Ανάπτυξη

Επιλογή Εφαρμογής Προς Ανάπτυξη
Κριτήρια Επιλογής
• Επαρκής πολυπλοκότητα για την χρήση
Copilot
• Αντιστοιχία με σύγχρονες εφαρμογές
• Χρήση μοντέρνων τεχνολογιών
Βασικές Λειτουργίες
• Κοινοποίηση κριτικών βιντεοπαιχνιδιών
• Διαχείριση λιστών (playlist)
• Σχολιασμός Κριτικών
• Κοινωνική δικτύωση χρηστών
Τεχνολογική Στοίβα
• Typescript & Node
• React & Next.js
• tRPC & Prisma
• MySQL & Planetscale
• Vercel

Λειτουργικότητες της Εφαρμογής
Όνομα Λειτουργικότητας Εξήγηση
Feature Router Λειτουργικότητα παιχνιδιού (πρόσβαση στο δίκτυο, γλώσσες)
Publisher Εκδότης του παιχνιδιού
Developer Προγραμματιστής του παιχνιδιού
Genre Είδος παιχνιδιού (αθλητικό, πολεμικό)
Platform Πλατφόρμα έκδοσης (Playstation, Steam)
Game Παιχνίδι
Review Κριτική παιχνιδιού
Comment Σχόλιο Κριτικής
Playlist Λίστα
Follower Ακόλουθος
Reaction Αντίδραση («Μου αρέσει»)

Συλλογή Δεδομένων
Διαδικασία Συλλογής
• 525 Προτροπές
• 28 Αρχεία κώδικα
• 17 Αρχεία Ελέγχου
• 11 Αρχεία ανάπτυξης API
Κατηγοριοποίηση Αλλαγών
• Σήμανση αλλαγών από το μοντέλο και
από τον προγραμματιστή
• Περαιτέρω κατηγοριοποίηση με βάση
την έκταση της αλλαγής
Κατηγοριοποίηση Προτροπών
• Backend
• Unit Testing
• Integration Testing
• Language Specific
• Other
• Περαιτέρω κατηγοριοποίηση για κάθε
λειτουργικότητα
Ανάλυση Παρεμβάσεων
• Backend: 23 μικρές, 13 μεγάλες αλλαγές
• Integration Tests: 33 μικρές, 44 μεγάλες αλλαγές
• Unit Tests: 35 μικρές, 7 μεγάλες αλλαγές

Αξιολόγηση Ανά Τύπο
Τάσεις διορθώσεων
• Μοντέλο: Κυρίως μικροαλλαγές
• Προγραμματιστής: Κυρίως εκτενείς αλλαγές
• Συνεπείς τάσεις σε όλους τους τύπους
Απόδοση Ανά Τύπο
• Backend: Θετική τάση σε απλές
λειτουργικότητες
• Testing: Καλύτερη απόδοση σε Unit Tests
• Integration Testing: Δυσκολίες σε
πολύπλοκες σχέσεις
Σημαντικά Ευρήματα
• Βελτίωση με σωστή καθοδήγηση και
επαναπροσδιορισμό του προβλήματος
• Ανάγκη για επέμβαση όταν το μοντέλο
αδυνατεί να ακολουθήσει τις
κατευθυντήριες γραμμές
Παράγοντες Επιτυχίας
• Σαφήνεια αρχικής προτροπής
• Πολυπλοκότητα λειτουργικότητας
• Προηγούμενη εμπειρία μοντέλου σε
παρόμοια λειτουργικότητα

Διάγραμμα Αλλαγών Ανά Τύπο

Αξιολόγηση Απαντήσεων
Κλίμακα Αξιολόγησης
-2: Εντελώς λανθασμένη απάντηση
-1: Μερικώς λανθασμένη
0: Ουδέτερη
1: Σωστή απάντηση
2: Εντελώς Σωστή
Στατιστικά Αποτελέσματα
• 290 θετικές απαντήσεις (55.34%)
• 228 αρνητικές απαντήσεις (43.51%)
• 6 ουδέτερες απαντήσεις (1.15%)

Αξιολόγηση Απαντήσεων
Όμοιες Αξιολογήσεις Ανά Τύπο
• 16 συνεχόμενες θετικές (3.3 κατά
Μ.Ο)
• 14 συνεχόμενες αρνητικές (3.0 κατά
Μ.Ο)
• Επίδραση της αρχικής προτροπής

Αξιολόγηση Απαντήσεων Ανά Θέμα
Απόδοση Ανά Θέμα
• Backend: Θετική τάση σε απλές
λειτουργίες
• Τesting: Καλύτερη απόδοση σε Unit
Tests
• Integration Testing: Δυσκολίες σε
πολύπλοκες σχέσεις
Παράγοντες Επιτυχίας
• Σαφήνεια αρχικής προτροπής
• Πολυπλοκότητα λειτουργικότητας
• Εμπειρία μοντέλου με παρόμοιο
πρόβλημα

Βελτιστοποίηση
Προτροπών Μέσω
Μηχανικής Μάθησης

Διάγραμμα Ανάπτυξης Μοντέλου

Αποτελέσματα Μοντέλων
Random Forest: 70.10%
(62% θετ., 78% αρν.)
SVM: 67.01%
(62% θετ., 71% αρν.)
Naive Bayes: 70.10%
(48% θετ., 92% αρν.)
Gradient Boosting: 68.04%
(54% θετ., 82% αρν.)
MetaCost: 29.89%

Aποτελέσματα Μοντέλων

Σας ευχαριστώ πολύ για τον χρόνο
σας!

Upon evaluating source code generated by LLMs and improving the prompt engineering process

More Related Content

Similar to Upon evaluating source code generated by LLMs and improving the prompt engineering process (20)

More from ISSEL (20)

Upon evaluating source code generated by LLMs and improving the prompt engineering process