SlideShare a Scribd company logo
Θαρρόπουλος
Θεοφάνης
Αξιολόγηση ποιότητας κώδικα παραγόμενου από Μεγάλα
Γλωσσικά Μοντέλα και βελτιστοποίηση προτροπών
Επιβλέπων καθηγητής
κ. Συμεωνίδης Ανδρέας
Η επανάσταση στην Τεχνητή
Νοημοσύνη
Επανάσταση στην Τεχνητή
Νοημοσύνη μέσω LLMs
• Εμφάνιση του ChatGPT (2022)
• Google Gemini (2023)
• Anthropic Claude (2023)
Ανάδειξη ΑΙ Code Assistants
• Νέα γενιά εργαλείων κώδικα
• Ενσωμάτωση σε IDEs
• Αυτοματοποίηση Εργασιών
GitHub Copilot
• Συνεργασία GitHub-OpenAI
• Εξειδίκευση στον κώδικα
• Ευρεία αποδοχή
Διπλωματική
Στόχοι Διπλωματικής
• Αξιολόγηση ποιότητας παραγόμενου
κώδικα
• Μελέτη αποτελεσματικότητας σε
πραγματικές εφαρμογές
• Ανάλυση περιορισμών και
δυνατοτήτων
• Βελτιστοποίηση προτροπών
• Δημιουργία σετ δεδομένων για την
αξιολόγηση επίδοσης μοντέλων LLM
Μεθοδολογία Αξιολόγησης
• Συλλογή και ανάλυση δεδομένων
• Τεχνικές μηχανικής προτροπής
• Μέτρηση απόδοσης του μοντέλου
Code Completion / Code Generation
Δημιουργία Κώδικα
(Code Generation)
• Άμεση παραγωγή κώδικα στοχαστικά
• Βασίζεται στο συγκείμενο κώδικα
• Παραγωγή από το μηδέν
• Χρήση μοντέλων μηχανικής μάθησης
Ολοκλήρωση Κώδικα
(Code Completion)
• Προτάσεις συμπλήρωσης
υπάρχοντος κώδικα
• Αποφυγή συνηθισμένων λαθών
• Μείωση περιττής πληκτρολόγησης
• Χρήση Language Server Protocol
Παράδειγμα Δημιουργίας Κώδικα
Παράδειγμα Ολοκλήρωσης Κώδικα
GitHub Copilot
Εξέλιξη Μοντέλου
• Αρχική έκδοση με Codex
• Μετάβαση σε GPT-3.5 Turbo
• Τελική έκδοση με GPT-4*
GitHub Copilot X
• Ενσωμάτωση chatbot
• Βελτιωμένη κατανόηση συγκείμενου
κώδικα
• Αυτοματοποίηση εργασιών
Copilot Chat
• Επικοινωνία με φυσική γλώσσα
• Άμεση πρόσβαση στο IDE
• Χρήση υπάρχοντος κώδικα
* Κατά την διάρκεια της έρευνας
Παράδειγμα Copilot Chat
Διάγραμμα Επιλογής Εφαρμογής
Προς Ανάπτυξη
Επιλογή Εφαρμογής Προς Ανάπτυξη
Κριτήρια Επιλογής
• Επαρκής πολυπλοκότητα για την χρήση
Copilot
• Αντιστοιχία με σύγχρονες εφαρμογές
• Χρήση μοντέρνων τεχνολογιών
Βασικές Λειτουργίες
• Κοινοποίηση κριτικών βιντεοπαιχνιδιών
• Διαχείριση λιστών (playlist)
• Σχολιασμός Κριτικών
• Κοινωνική δικτύωση χρηστών
Τεχνολογική Στοίβα
• Typescript & Node
• React & Next.js
• tRPC & Prisma
• MySQL & Planetscale
• Vercel
Λειτουργικότητες της Εφαρμογής
Όνομα Λειτουργικότητας Εξήγηση
Feature Router Λειτουργικότητα παιχνιδιού (πρόσβαση στο δίκτυο, γλώσσες)
Publisher Εκδότης του παιχνιδιού
Developer Προγραμματιστής του παιχνιδιού
Genre Είδος παιχνιδιού (αθλητικό, πολεμικό)
Platform Πλατφόρμα έκδοσης (Playstation, Steam)
Game Παιχνίδι
Review Κριτική παιχνιδιού
Comment Σχόλιο Κριτικής
Playlist Λίστα
Follower Ακόλουθος
Reaction Αντίδραση («Μου αρέσει»)
Συλλογή Δεδομένων
Διαδικασία Συλλογής
• 525 Προτροπές
• 28 Αρχεία κώδικα
• 17 Αρχεία Ελέγχου
• 11 Αρχεία ανάπτυξης API
Κατηγοριοποίηση Αλλαγών
• Σήμανση αλλαγών από το μοντέλο και
από τον προγραμματιστή
• Περαιτέρω κατηγοριοποίηση με βάση
την έκταση της αλλαγής
Κατηγοριοποίηση Προτροπών
• Backend
• Unit Testing
• Integration Testing
• Language Specific
• Other
• Περαιτέρω κατηγοριοποίηση για κάθε
λειτουργικότητα
Ανάλυση Παρεμβάσεων
• Backend: 23 μικρές, 13 μεγάλες αλλαγές
• Integration Tests: 33 μικρές, 44 μεγάλες αλλαγές
• Unit Tests: 35 μικρές, 7 μεγάλες αλλαγές
Αξιολόγηση Ανά Τύπο
Τάσεις διορθώσεων
• Μοντέλο: Κυρίως μικροαλλαγές
• Προγραμματιστής: Κυρίως εκτενείς αλλαγές
• Συνεπείς τάσεις σε όλους τους τύπους
Απόδοση Ανά Τύπο
• Backend: Θετική τάση σε απλές
λειτουργικότητες
• Testing: Καλύτερη απόδοση σε Unit Tests
• Integration Testing: Δυσκολίες σε
πολύπλοκες σχέσεις
Σημαντικά Ευρήματα
• Βελτίωση με σωστή καθοδήγηση και
επαναπροσδιορισμό του προβλήματος
• Ανάγκη για επέμβαση όταν το μοντέλο
αδυνατεί να ακολουθήσει τις
κατευθυντήριες γραμμές
Παράγοντες Επιτυχίας
• Σαφήνεια αρχικής προτροπής
• Πολυπλοκότητα λειτουργικότητας
• Προηγούμενη εμπειρία μοντέλου σε
παρόμοια λειτουργικότητα
Διάγραμμα Αλλαγών Ανά Τύπο
Αξιολόγηση Απαντήσεων
Κλίμακα Αξιολόγησης
-2: Εντελώς λανθασμένη απάντηση
-1: Μερικώς λανθασμένη
0: Ουδέτερη
1: Σωστή απάντηση
2: Εντελώς Σωστή
Στατιστικά Αποτελέσματα
• 290 θετικές απαντήσεις (55.34%)
• 228 αρνητικές απαντήσεις (43.51%)
• 6 ουδέτερες απαντήσεις (1.15%)
Αξιολόγηση Απαντήσεων
Όμοιες Αξιολογήσεις Ανά Τύπο
• 16 συνεχόμενες θετικές (3.3 κατά
Μ.Ο)
• 14 συνεχόμενες αρνητικές (3.0 κατά
Μ.Ο)
• Επίδραση της αρχικής προτροπής
Αξιολόγηση Απαντήσεων Ανά Θέμα
Απόδοση Ανά Θέμα
• Backend: Θετική τάση σε απλές
λειτουργίες
• Τesting: Καλύτερη απόδοση σε Unit
Tests
• Integration Testing: Δυσκολίες σε
πολύπλοκες σχέσεις
Παράγοντες Επιτυχίας
• Σαφήνεια αρχικής προτροπής
• Πολυπλοκότητα λειτουργικότητας
• Εμπειρία μοντέλου με παρόμοιο
πρόβλημα
Αξιολόγηση Απαντήσεων Ανά Θέμα
Απόδοση Ανά Θέμα
• Backend: Θετική τάση σε απλές
λειτουργίες
• Τesting: Καλύτερη απόδοση σε Unit
Tests
• Integration Testing: Δυσκολίες σε
πολύπλοκες σχέσεις
Παράγοντες Επιτυχίας
• Σαφήνεια αρχικής προτροπής
• Πολυπλοκότητα λειτουργικότητας
• Εμπειρία μοντέλου με παρόμοιο
πρόβλημα
Αξιολόγηση Απαντήσεων Ανά Θέμα
Απόδοση Ανά Θέμα
• Backend: Θετική τάση σε απλές
λειτουργίες
• Τesting: Καλύτερη απόδοση σε Unit
Tests
• Integration Testing: Δυσκολίες σε
πολύπλοκες σχέσεις
Παράγοντες Επιτυχίας
• Σαφήνεια αρχικής προτροπής
• Πολυπλοκότητα λειτουργικότητας
• Εμπειρία μοντέλου με παρόμοιο
πρόβλημα
Βελτιστοποίηση
Προτροπών Μέσω
Μηχανικής Μάθησης
Διάγραμμα Ανάπτυξης Μοντέλου
Αποτελέσματα Μοντέλων
Random Forest: 70.10%
(62% θετ., 78% αρν.)
SVM: 67.01%
(62% θετ., 71% αρν.)
Naive Bayes: 70.10%
(48% θετ., 92% αρν.)
Gradient Boosting: 68.04%
(54% θετ., 82% αρν.)
MetaCost: 29.89%
Aποτελέσματα Μοντέλων
Aποτελέσματα Μοντέλων
Aποτελέσματα Μοντέλων
Aποτελέσματα Μοντέλων
Aποτελέσματα Μοντέλων
Aποτελέσματα Μοντέλων
Σας ευχαριστώ πολύ για τον χρόνο
σας!

More Related Content

PPTX
Georgia Pantalona
PPTX
Μιχαήλ Παπαμιχαήλ
PPTX
Analysis and profiling of developer profiles using data mining techniques fro...
PPTX
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
PPTX
Ιωάννη Α. Ζαφειρίου
PPTX
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
PPTX
Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ...
PPTX
Employing Machine Learning and Intelligent Information Management Techniques ...
Georgia Pantalona
Μιχαήλ Παπαμιχαήλ
Analysis and profiling of developer profiles using data mining techniques fro...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ιωάννη Α. Ζαφειρίου
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ...
Employing Machine Learning and Intelligent Information Management Techniques ...

Similar to Upon evaluating source code generated by LLMs and improving the prompt engineering process (20)

PPTX
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
PPTX
System Development for Prediction of Static Analysis Metrics of Source Code
PPTX
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
PPTX
Αλεξάνδρα Μπαλτζή 7485
PPTX
Εφαρμογή τεχνικών εξόρυξης δεδομένων για την αυτοματοποιημένη διόρθωση σφαλμάτων
PPTX
Εφαρμογή τεχνικών εξόρυξης δεδομένων για την αυτοματοποιημένη διόρθωση σφαλμάτων
PPTX
Applying Machine Learning Techniques on Software Data Streams for Automated I...
PPTX
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
PPTX
Nikolaos Oikonomou
PPTX
Fengomytis Thomas
PDF
ThesisPresentation
PPTX
PPTX
Maniadis Ioannis
PPTX
Μιλτιάδης Σιάββας 7523
PDF
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
PPTX
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Με Χρήση Τ...
PPTX
Detection Of Abnormal User Behavior In Web Applications Using Sequence Class...
PDF
Evangelos papathomas diploma thesis presentation
PPTX
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
PPTX
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
System Development for Prediction of Static Analysis Metrics of Source Code
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Αλεξάνδρα Μπαλτζή 7485
Εφαρμογή τεχνικών εξόρυξης δεδομένων για την αυτοματοποιημένη διόρθωση σφαλμάτων
Εφαρμογή τεχνικών εξόρυξης δεδομένων για την αυτοματοποιημένη διόρθωση σφαλμάτων
Applying Machine Learning Techniques on Software Data Streams for Automated I...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Nikolaos Oikonomou
Fengomytis Thomas
ThesisPresentation
Maniadis Ioannis
Μιλτιάδης Σιάββας 7523
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Με Χρήση Τ...
Detection Of Abnormal User Behavior In Web Applications Using Sequence Class...
Evangelos papathomas diploma thesis presentation
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Ad

More from ISSEL (20)

PPTX
A hybrid Edge-to-Cloud Architecture towards low-code development of global fo...
PPTX
Implementation of a recording and playback tool for data served by IoT brokers
PPTX
Source Code Bug Detection and Repair using Deep Learning Techniques
PPTX
Implementation of a Mechanism for Automatic Transformation and Synchronizatio...
PPTX
Bias detection and evaluation in personalized ubiquitous computing
PPTX
Development of a Data Stream Prediction Methodology using AutoML models
PPTX
Methodology and prototype design for the identification of recyclable materia...
PPTX
DynaCraft: a super-strongly typed programming language
PPTX
Application of Drift Detection and Management Techniques in Data Streams Usin...
PPTX
Υλοποίηση συστήματος προς καταχώρηση και αυτόματη αναγνώριση κατηγοριών κινήσ...
PDF
Σχεδιασμός και υλοποίηση No-Code μηχανισμού για τη δημιουργία και εφαρμογή π...
PPTX
Μελέτη Τεχνικών Ημι-επιβλεπόμενης Μάθησης για Κατηγοριοποίηση Κειμένου
PPTX
Υλοποίηση συστήµατος εντοπισµού ϑέσης σε εσωτερικό χώρο µε χρήση αισθητήρων κ...
PPTX
Σχεδίαση και Ανάπτυξη Μηχανισμού Εκτίμησης προσωποποιημένου Χρόνου Εκτέλεσης ...
PPTX
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ελληνική Γλώσσα.pptx
PPTX
Εντοπισμός και χαρτογράφηση ατελειών οδοστρώματος κατά την οδήγηση μέσω αισθη...
PDF
Ταχεία ανάπτυξη λογισμικού για πράκτορες συναλλαγών υψηλής συχνότητας σε αγορ...
PPTX
Σχεδιασµός και υλοποίηση αρθρωτού συστήµατος υπολογισµού τρισδιάστατης θέσης ...
PPTX
Σχεδίαση και ανάπτυξη πλατφόρμας για χρήση του Node-red απομακρυσμένα από πο...
PPTX
Σχεδίαση και Ανάπτυξη Συστήματος Ενεργής Παρακολούθησης Διαδικτυακών Εφαρμογών
A hybrid Edge-to-Cloud Architecture towards low-code development of global fo...
Implementation of a recording and playback tool for data served by IoT brokers
Source Code Bug Detection and Repair using Deep Learning Techniques
Implementation of a Mechanism for Automatic Transformation and Synchronizatio...
Bias detection and evaluation in personalized ubiquitous computing
Development of a Data Stream Prediction Methodology using AutoML models
Methodology and prototype design for the identification of recyclable materia...
DynaCraft: a super-strongly typed programming language
Application of Drift Detection and Management Techniques in Data Streams Usin...
Υλοποίηση συστήματος προς καταχώρηση και αυτόματη αναγνώριση κατηγοριών κινήσ...
Σχεδιασμός και υλοποίηση No-Code μηχανισμού για τη δημιουργία και εφαρμογή π...
Μελέτη Τεχνικών Ημι-επιβλεπόμενης Μάθησης για Κατηγοριοποίηση Κειμένου
Υλοποίηση συστήµατος εντοπισµού ϑέσης σε εσωτερικό χώρο µε χρήση αισθητήρων κ...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εκτίμησης προσωποποιημένου Χρόνου Εκτέλεσης ...
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ελληνική Γλώσσα.pptx
Εντοπισμός και χαρτογράφηση ατελειών οδοστρώματος κατά την οδήγηση μέσω αισθη...
Ταχεία ανάπτυξη λογισμικού για πράκτορες συναλλαγών υψηλής συχνότητας σε αγορ...
Σχεδιασµός και υλοποίηση αρθρωτού συστήµατος υπολογισµού τρισδιάστατης θέσης ...
Σχεδίαση και ανάπτυξη πλατφόρμας για χρήση του Node-red απομακρυσμένα από πο...
Σχεδίαση και Ανάπτυξη Συστήματος Ενεργής Παρακολούθησης Διαδικτυακών Εφαρμογών
Ad

Upon evaluating source code generated by LLMs and improving the prompt engineering process

  • 1. Θαρρόπουλος Θεοφάνης Αξιολόγηση ποιότητας κώδικα παραγόμενου από Μεγάλα Γλωσσικά Μοντέλα και βελτιστοποίηση προτροπών Επιβλέπων καθηγητής κ. Συμεωνίδης Ανδρέας
  • 2. Η επανάσταση στην Τεχνητή Νοημοσύνη Επανάσταση στην Τεχνητή Νοημοσύνη μέσω LLMs • Εμφάνιση του ChatGPT (2022) • Google Gemini (2023) • Anthropic Claude (2023) Ανάδειξη ΑΙ Code Assistants • Νέα γενιά εργαλείων κώδικα • Ενσωμάτωση σε IDEs • Αυτοματοποίηση Εργασιών GitHub Copilot • Συνεργασία GitHub-OpenAI • Εξειδίκευση στον κώδικα • Ευρεία αποδοχή
  • 3. Διπλωματική Στόχοι Διπλωματικής • Αξιολόγηση ποιότητας παραγόμενου κώδικα • Μελέτη αποτελεσματικότητας σε πραγματικές εφαρμογές • Ανάλυση περιορισμών και δυνατοτήτων • Βελτιστοποίηση προτροπών • Δημιουργία σετ δεδομένων για την αξιολόγηση επίδοσης μοντέλων LLM Μεθοδολογία Αξιολόγησης • Συλλογή και ανάλυση δεδομένων • Τεχνικές μηχανικής προτροπής • Μέτρηση απόδοσης του μοντέλου
  • 4. Code Completion / Code Generation Δημιουργία Κώδικα (Code Generation) • Άμεση παραγωγή κώδικα στοχαστικά • Βασίζεται στο συγκείμενο κώδικα • Παραγωγή από το μηδέν • Χρήση μοντέλων μηχανικής μάθησης Ολοκλήρωση Κώδικα (Code Completion) • Προτάσεις συμπλήρωσης υπάρχοντος κώδικα • Αποφυγή συνηθισμένων λαθών • Μείωση περιττής πληκτρολόγησης • Χρήση Language Server Protocol
  • 7. GitHub Copilot Εξέλιξη Μοντέλου • Αρχική έκδοση με Codex • Μετάβαση σε GPT-3.5 Turbo • Τελική έκδοση με GPT-4* GitHub Copilot X • Ενσωμάτωση chatbot • Βελτιωμένη κατανόηση συγκείμενου κώδικα • Αυτοματοποίηση εργασιών Copilot Chat • Επικοινωνία με φυσική γλώσσα • Άμεση πρόσβαση στο IDE • Χρήση υπάρχοντος κώδικα * Κατά την διάρκεια της έρευνας
  • 10. Επιλογή Εφαρμογής Προς Ανάπτυξη Κριτήρια Επιλογής • Επαρκής πολυπλοκότητα για την χρήση Copilot • Αντιστοιχία με σύγχρονες εφαρμογές • Χρήση μοντέρνων τεχνολογιών Βασικές Λειτουργίες • Κοινοποίηση κριτικών βιντεοπαιχνιδιών • Διαχείριση λιστών (playlist) • Σχολιασμός Κριτικών • Κοινωνική δικτύωση χρηστών Τεχνολογική Στοίβα • Typescript & Node • React & Next.js • tRPC & Prisma • MySQL & Planetscale • Vercel
  • 11. Λειτουργικότητες της Εφαρμογής Όνομα Λειτουργικότητας Εξήγηση Feature Router Λειτουργικότητα παιχνιδιού (πρόσβαση στο δίκτυο, γλώσσες) Publisher Εκδότης του παιχνιδιού Developer Προγραμματιστής του παιχνιδιού Genre Είδος παιχνιδιού (αθλητικό, πολεμικό) Platform Πλατφόρμα έκδοσης (Playstation, Steam) Game Παιχνίδι Review Κριτική παιχνιδιού Comment Σχόλιο Κριτικής Playlist Λίστα Follower Ακόλουθος Reaction Αντίδραση («Μου αρέσει»)
  • 12. Συλλογή Δεδομένων Διαδικασία Συλλογής • 525 Προτροπές • 28 Αρχεία κώδικα • 17 Αρχεία Ελέγχου • 11 Αρχεία ανάπτυξης API Κατηγοριοποίηση Αλλαγών • Σήμανση αλλαγών από το μοντέλο και από τον προγραμματιστή • Περαιτέρω κατηγοριοποίηση με βάση την έκταση της αλλαγής Κατηγοριοποίηση Προτροπών • Backend • Unit Testing • Integration Testing • Language Specific • Other • Περαιτέρω κατηγοριοποίηση για κάθε λειτουργικότητα Ανάλυση Παρεμβάσεων • Backend: 23 μικρές, 13 μεγάλες αλλαγές • Integration Tests: 33 μικρές, 44 μεγάλες αλλαγές • Unit Tests: 35 μικρές, 7 μεγάλες αλλαγές
  • 13. Αξιολόγηση Ανά Τύπο Τάσεις διορθώσεων • Μοντέλο: Κυρίως μικροαλλαγές • Προγραμματιστής: Κυρίως εκτενείς αλλαγές • Συνεπείς τάσεις σε όλους τους τύπους Απόδοση Ανά Τύπο • Backend: Θετική τάση σε απλές λειτουργικότητες • Testing: Καλύτερη απόδοση σε Unit Tests • Integration Testing: Δυσκολίες σε πολύπλοκες σχέσεις Σημαντικά Ευρήματα • Βελτίωση με σωστή καθοδήγηση και επαναπροσδιορισμό του προβλήματος • Ανάγκη για επέμβαση όταν το μοντέλο αδυνατεί να ακολουθήσει τις κατευθυντήριες γραμμές Παράγοντες Επιτυχίας • Σαφήνεια αρχικής προτροπής • Πολυπλοκότητα λειτουργικότητας • Προηγούμενη εμπειρία μοντέλου σε παρόμοια λειτουργικότητα
  • 15. Αξιολόγηση Απαντήσεων Κλίμακα Αξιολόγησης -2: Εντελώς λανθασμένη απάντηση -1: Μερικώς λανθασμένη 0: Ουδέτερη 1: Σωστή απάντηση 2: Εντελώς Σωστή Στατιστικά Αποτελέσματα • 290 θετικές απαντήσεις (55.34%) • 228 αρνητικές απαντήσεις (43.51%) • 6 ουδέτερες απαντήσεις (1.15%)
  • 16. Αξιολόγηση Απαντήσεων Όμοιες Αξιολογήσεις Ανά Τύπο • 16 συνεχόμενες θετικές (3.3 κατά Μ.Ο) • 14 συνεχόμενες αρνητικές (3.0 κατά Μ.Ο) • Επίδραση της αρχικής προτροπής
  • 17. Αξιολόγηση Απαντήσεων Ανά Θέμα Απόδοση Ανά Θέμα • Backend: Θετική τάση σε απλές λειτουργίες • Τesting: Καλύτερη απόδοση σε Unit Tests • Integration Testing: Δυσκολίες σε πολύπλοκες σχέσεις Παράγοντες Επιτυχίας • Σαφήνεια αρχικής προτροπής • Πολυπλοκότητα λειτουργικότητας • Εμπειρία μοντέλου με παρόμοιο πρόβλημα
  • 18. Αξιολόγηση Απαντήσεων Ανά Θέμα Απόδοση Ανά Θέμα • Backend: Θετική τάση σε απλές λειτουργίες • Τesting: Καλύτερη απόδοση σε Unit Tests • Integration Testing: Δυσκολίες σε πολύπλοκες σχέσεις Παράγοντες Επιτυχίας • Σαφήνεια αρχικής προτροπής • Πολυπλοκότητα λειτουργικότητας • Εμπειρία μοντέλου με παρόμοιο πρόβλημα
  • 19. Αξιολόγηση Απαντήσεων Ανά Θέμα Απόδοση Ανά Θέμα • Backend: Θετική τάση σε απλές λειτουργίες • Τesting: Καλύτερη απόδοση σε Unit Tests • Integration Testing: Δυσκολίες σε πολύπλοκες σχέσεις Παράγοντες Επιτυχίας • Σαφήνεια αρχικής προτροπής • Πολυπλοκότητα λειτουργικότητας • Εμπειρία μοντέλου με παρόμοιο πρόβλημα
  • 22. Αποτελέσματα Μοντέλων Random Forest: 70.10% (62% θετ., 78% αρν.) SVM: 67.01% (62% θετ., 71% αρν.) Naive Bayes: 70.10% (48% θετ., 92% αρν.) Gradient Boosting: 68.04% (54% θετ., 82% αρν.) MetaCost: 29.89%
  • 29. Σας ευχαριστώ πολύ για τον χρόνο σας!