Source Code Bug Detection and Repair using Deep Learning Techniques

Ανίχνευση και Διόρθωση Σφαλμάτων Πηγαίου Κώδικα με Τεχνι
κές Βαθιάς Μάθησης
1
Διπλωματική Εργασία
Ανίχνευση και Διόρθωση Σφαλμάτων
Πηγαίου Κώδικα με Τεχνικές Βαθιάς
Μάθησης
Εκπόνηση:
Ιωάννα Μαρία
Παπαβασιλείου
ΑΕΜ: 9375
Επίβλεψη:
Καθηγητής Ανδρέας Συμεωνίδης
Δρ. Θεμιστοκλής Διαμαντόπουλος
25/11/2024

2
Διάρθρωση Παρουσίασης
1. Κίνητρο
2. Στόχοι Διπλωματικής
3. Μεθοδολογία
4. Αποτελέσματα
5. Συμπεράσματα
25/11/2024

3
25/11/2024
Κίνητρο
49.9%
του χρόνο ενός
προγραμματιστή αφιερώνεται
στο debugging*
- Τα έργα λογισμικού σήμερα γίνονται όλο και μεγαλύτερα, πιο πολύπλοκα και φτάνουν και
εκατομμύρια γραμμές κώδικα.
- Η αυτόματη ανίχνευση και διόρθωση σφαλμάτων μπορεί να αυξήσει την αποδοτικότητα των
προγραμματιστών και την ποιότητα του παραγόμενου πηγαίου κώδικα.
* T. Britton, L. Jeng, G. Carver, T. Katzenellenbogen, and P. Cheak, “Reversible debugging software: quantify the time and cost saved using reversible debuggers",” 11 2020.

4
25/11/2024
Στόχοι Διπλωματικής
Υλοποίηση Συστήματος για:
1. Ανίχνευση
2. Κατηγοριοποίηση
3. Διόρθωση Σφαλμάτων Πηγαίου Κώδικα

5
25/11/2024
Μεθοδολογία
Δομή συστήματος Ανίχνευσης, Κατηγοριοποίησης και Διόρθωσης Σφαλμάτων

6
25/11/2024
Μεθοδολογία - Συνέχεια
Σύνολο Δεδομένων:
- Το σύνολο δεδομένων που χρησιμοποιείται είναι το ManySStuBs4J.
- Αποτελείται από σχεδόν 63 χιλιάδες παραδείγματα κώδικα, πριν και μετά από μικρές
διορθώσεις.
- Περιέχει 16 κατηγορίες σφαλμάτων από 1000 open source έργα λογισμικού Java.

7
25/11/2024
Μεθοδολογία -
Συνέχεια
Κατηγορίες Σφαλμάτων: Πλήθη:
1. Change Identifier Used
7773
2. Change Numeric Literal 2447
3. Change Modifier. 5010
4. Change Boolean Literal 3841
5. Wrong Function Name 5100
6. Same Function More Args 5179
7. Same Function Less Args 2588
8. Same Function Wrong Caller 2504
9. Same Function Swap Args 3012
10. Change Binary Operator 3241
11. Change Unary Operator 2016
12. Change Operand 2203
13. Less Specific If 2813
14. More Specific If 2381
15. Missing Throws Exception 1015
16. Delete Throws Exception 1037

8
25/11/2024
Προεπεξεργασία Δεδομένων:
- Εύρεση διαφορών
- Μετατροπή κώδικα σε μορφή AST
- Επιλογή Συναρτήσεων
- Αφαίρεση κενών στοίχισης
- Προσθήκη μεταβλητών - στόχων

9
25/11/2024
Διαδικασία Fine-tuning:
Μοντέλα που χρησιμοποιούνται για την Ανίχνευση και Κατηγοριοποίηση :
- CodeBert
- RoBERTa
- CodeBERTa
Μοντέλα που χρησιμοποιούνται για την Διόρθωση
- BART
- CodeT5
- T5
- LED

10
25/11/2024
Διαδικασία Fine-tuning:
- Δειγματοληψία με Βάρη
- AdamW
- OneCycleLR
- Gradual Freezing
- Chain Thaw

11
25/11/2024
Απλοϊκή Αναπαράσταση του της υλοποίησης του μοντέλου CodeBert που χρησιμοποιήθηκε

12
25/11/2024
Αποτελέσματα – Ανίχνευση Σφαλμάτων
- Πρόβλημα Δυαδικής Ταξινόμησης
- Δίνοντας σαν είσοδο τμήματα κώδικα, το σύστημα πρέπει να
αναγνωρίσει αν περιέχουν σφάλματα ή όχι

13
25/11/2024
- Εκπαίδευση του μοντέλου με τα δύο ανώτερα layers διαθέσιμα για εκπαίδευση:

14
25/11/2024
Αποτελέσματα – Συνέχεια
- Εκπαίδευση του μοντέλου με τα τρία ανώτερα layers διαθέσιμα για εκπαίδευση:

15
25/11/2024
- Εκπαίδευση του μοντέλου με τα τέσσερα ανώτερα επίπεδα διαθέσιμα για εκπαίδευση:
Κατά την εκκίνηση της εκπαίδευσης
Μετά το πέρας του 50% των εποχών

16
25/11/2024

17
25/11/2024
- Εκπαίδευση του μοντέλου με τα τρία ανώτερα επίπεδα - παγώνοντας τα επίπεδα διαδοχικά :

18
25/11/2024
- Εκπαίδευση του μοντέλου με τα τέσσερα ανώτερα επίπεδα - παγώνοντας τα επίπεδα διαδοχικά :

19
25/11/2024

20
25/11/2024
Αποτελέσματα με την χρήση διαφορετικών μοντέλων:

21
25/11/2024
Αποτελέσματα –Κατηγοριοποίηση Σφαλμάτων
- Πρόβλημα Πολυκατηγοριακής Ταξινόμησης
- Δίνοντας σαν είσοδο τμήματα κώδικα, το σύστημα πρέπει να
αναγνωρίσει σε ποια από τις 16 κατηγορίες σφαλμάτων ανήκουν

22
25/11/2024
Αποτελέσματα – Κατηγοριοποίηση Σφαλμάτων
Εκπαίδευση του μοντέλου με τα δύο ανώτερα επίπεδα διαθέσιμα για εκπαίδευση:
Εκπαίδευση του μοντέλου με τα τρία ανώτερα επίπεδα διαθέσιμα για εκπαίδευση:

23
25/11/2024
Αποτελέσματα – Πολυκατηγορική Ταξινόμηση
Εκπαίδευση του μοντέλου με διαδοχικό πάγωμα και ξεπάγωμα τριών επιπέδων:
Εκπαίδευση του μοντέλου με τα τέσσερα ανώτερα επίπεδα διαθέσιμα για εκπαίδευση:

24
25/11/2024
Εκπαίδευση του μοντέλου με διαδοχικό πάγωμα
και ξεπάγωμα τεσσάρων επιπέδων:

25
25/11/2024
Αποτελέσματα – Κατηγοριοποίηση Σφαλμάτων

26
25/11/2024
Αποτελέσματα – Διόρθωση Σφαλμάτων
- Πρόβλημα παραγωγής φυσικής γλώσσας
- Δίνοντας σαν είσοδο τμήματα κώδικα, το σύστημα πρέπει να κάνει τις
απαραίτητες διορθώσεις
- Μετρικές Αξιολόγησης:
o Ορθότητα: Γίνεται χρήση του Συστήματος Ανίχνευσης Σφαλμάτων
o Μετρική BLEU

27
25/11/2024
Παράδειγμα Ορθής Διόρθωσης στην κατηγορία σφάλματος Same Function Less Args:
Αρχικό Τμήμα Κώδικα:
Αναμενόμενη Διόρθωση:
Διόρθωση του συστήματος:

28
25/11/2024
Παράδειγμα Ορθής Διόρθωσης στην κατηγορία σφάλματος Change Identifier Used:

29
25/11/2024
Παράδειγμα Ορθής Διόρθωσης στην κατηγορία σφάλματος Change Identifier Used:

30
25/11/2024
Παράδειγμα Λανθασμένης Διόρθωσης στην κατηγορία σφάλματος Change Numeric Literal:

31
25/11/2024

32
25/11/2024
Συμπεράσματα
1. Τα μοντέλα μετά την προσαρμογή τους ήταν σε θέση να ανιχνεύσουν αν ο
κώδικας περιέχει σφάλματα και να κατηγοριοποιήσουν τα σφάλματα με
βάση 16 κατηγορίες.
2. Τα μοντέλα παρήγαγαν διορθώσεις, οι οποίες ήταν αρκετά όμοιες με τις
αναμενόμενες. Ωστόσο, λόγω της φύσης του προβλήματος οι μικρές
αποκλίσεις από τις αναμενόμενες απαντήσεις μπορεί να οδηγήσουν σε
κώδικα που έχει πιθανά νέα σφάλματα. Από την άλλη, οι μικρές αποκλίσεις
δεν μπορούν να θεωρούνται πάντα λανθασμένες, καθώς στον κώδικα
μπορούν δύο διαφορετικές εκφράσεις να επιφέρουν το ίδιο αποτέλεσμα.

33
25/11/2024
Μελλοντικές Επεκτάσεις
1. Τα μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν αποκλειστικά σε αρχεία κώδικα γραμμένα
σε Java. Εχει ενδιαφέρον να γίνει έλεγχος για το αν τα μοντέλα μπορούν να ανιχνεύσουν
σφάλματα και να κάνουν διορθώσεις σε κώδικα άλλης γλώσσας.
2. Οι παραγόμενες διορθώσεις θα μπορούσαν να αξιολογηθούν και με βάση την
λειτουργικότητά τους. Αυτό απαιτεί συνήθως ενασχόληση ενός προγραμματιστή και
μπορεί να αποδειχθεί χρονοβόρα διαδικασία.

34
25/11/2024
Ευχαριστώ πολύ για την
προσοχή σας!

35
25/11/2024
Ερωτήσεις;

Source Code Bug Detection and Repair using Deep Learning Techniques

More Related Content

Similar to Source Code Bug Detection and Repair using Deep Learning Techniques (20)

More from ISSEL (20)

Source Code Bug Detection and Repair using Deep Learning Techniques