Natural Language Analysis - Expanding Identifiers to Normalize Source Code Vocabulary

EXPANDING IDENTIFIERS TO
NORMALIZING SOURCE
CODE VOCABULARY
PRESENTED BY DAWN LAWRIE
LOYOLA UNIVERSITY MARYLAND

IN COLLABORATION WITH DAVE BINKLEY

Friday, October 7, 11

VOCABULARY MISMATCH

DIFFERENT VOCABULARY IN SOURCE CODE AND OTHER
SOFTWARE ARTIFACTS

EXAMPLE

REQUIREMENT - “FEATURE LOCATION”

SOURCE CODE - “FEATURELOCATION”

OR WORSE “FLOC”


PURPOSE OF NORMALIZE

COPE WITH VOCABULARY MISMATCH

SOURCE CODE

OTHER SOFTWARE DOCUMENTS


EXAMPLE PROBLEMS

CONSIDER IDENTIFIERS

FEATURELOCATION

FLOC


EXAMPLE PROBLEMS


FEATURE LOCATION SPLITTING PROBLEM

FLOC


EXAMPLE PROBLEMS



F LOC SPLITTING PROBLEM


EXAMPLE PROBLEMS



FEATURE LOCATION SPLITTING AND
EXPANSION PROBLEM


WHY NORMALIZE?

MANY SE PROBLEMS CAN BE ADDRESSED USING
INFORMATION RETRIEVAL (IR) TECHNIQUES

UN-NORMALIZED CODE LEADS TO AN UNDER
ESTIMATE OF THE IMPORTANCE OF CRUCIAL WORDS


NORMALIZE PROBLEM STATEMENT

FIND THE BEST EXPANSION OVERALL POSSIBLE SPLITS

FLOC FEATURE LOCATION


NORMALIZE ALGORITHM

TERMINOLOGY

HARD-WORD - WHITEHOUSE_LAWN

SOFT-WORD - WHITE-HOUSE_LAWN


NORMALIZE ALGORITHM

TERMINOLOGY

HARD-WORD - WHITEHOUSE_LAWN (2)

SOFT-WORD - WHITE-HOUSE_LAWN


NORMALIZE ALGORITHM

TERMINOLOGY

HARD-WORD - WHITEHOUSE_LAWN (2)

SOFT-WORD - WHITE-HOUSE_LAWN (3)


NORMALIZE ALGORITHM


NORMALIZE ALGORITHM

STRLEN STRING LENGTH


MACHINE TRANSLATION
APPROACH

EL PAPA VISITA LA IGLESIA


MACHINE TRANSLATION
APPROACH

FATHER VISITS
THE POTATO VISITOR THE CHURCH
POPE HIT


MACHINE TRANSLATION
APPROACH

FATHER VISITS
THE POTATO VISITOR THE CHURCH
POPE HIT COH ESION
STRONG


NORMALIZE ALGORITHM

STRLEN


NORMALIZE ALGORITHM

STRLEN
S-TRLEN
ST-RLEN
STR-LEN
STRL_EN
STRLE_N
S_T_RLEN
S-TR-LEN
S_TRL_EN
S_TRLE_N
ST_R_LEN
ST_RL_EN
ST_RLE_N
STR_L_EN
STR_LE_N
STRL_E_N
S_T_R_LEN
S_T_RL_EN
S_T_RLE_N
S_TR_L_EN
S_TR_LE_N
S_TRL_E_N
ST_R_L_EN
ST_R_LE_N
ST_RL_E_N
STR_L_E_N
S_T_R_L_EN
S_T_R_LE_N
S_TR_L_E_N
ST_R_L_E_N
S-T-R-L-E-N

NORMALIZE ALGORITHM

STRLEN
S-TRLEN
E(RLEN) = {RIFLEMEN}
ST-RLEN
STR-LEN
STRL_EN
STRLE_N
S_T_RLEN
S-TR-LEN
S_TRL_EN
S_TRLE_N
ST_R_LEN
ST_RL_EN
ST_RLE_N
STR_L_EN
STR_LE_N
STRL_E_N
S_T_R_LEN
S_T_RL_EN
S_T_RLE_N
S_TR_L_EN
S_TR_LE_N
S_TRL_E_N
ST_R_L_EN
ST_R_LE_N
ST_RL_E_N
STR_L_E_N
S_T_R_L_EN
S_T_R_LE_N
S_TR_L_E_N
ST_R_L_E_N
S-T-R-L-E-N

NORMALIZE ALGORITHM

STRLEN
S-TRLEN
ST-RLEN
WILDCARD EXPANSION
STR-LEN
STRL_EN
STRLE_N R*L*E*N*
S_T_RLEN
S-TR-LEN
S_TRL_EN
S_TRLE_N
ST_R_LEN
ST_RL_EN
ST_RLE_N
STR_L_EN
STR_LE_N
STRL_E_N
S_T_R_LEN
S_T_RL_EN
S_T_RLE_N
S_TR_L_EN
S_TR_LE_N
S_TRL_E_N
ST_R_L_EN
ST_R_LE_N
ST_RL_E_N
STR_L_E_N
S_T_R_L_EN
S_T_R_LE_N
S_TR_L_E_N
ST_R_L_E_N
S-T-R-L-E-N

NORMALIZE ALGORITHM

STRLEN
E(ST) = {SET, STOP, STRING}
S-TRLEN
ST-RLEN
STR-LEN E(STR) = {STEER, STRING}
STRL_EN E(LEN) = {LENDER, LENGTH}
STRLE_N
S_T_RLEN
S-TR-LEN
S_TRL_EN
S_TRLE_N
ST_R_LEN
ST_RL_EN
ST_RLE_N
STR_L_EN
STR_LE_N
STRL_E_N
S_T_R_LEN
S_T_RL_EN
S_T_RLE_N
S_TR_L_EN
S_TR_LE_N
S_TRL_E_N
ST_R_L_EN
ST_R_LE_N
ST_RL_E_N
STR_L_E_N
S_T_R_L_EN
S_T_R_LE_N
S_TR_L_E_N
ST_R_L_E_N
S-T-R-L-E-N

NORMALIZE ALGORITHM PART I
STR
VS

STRING STEER


STR
VS
LENDER LENDER
STRING STEER
LENGTH LENGTH


STR
VS
LENDER LENDER
STRING STEER
LENGTH LENGTH

1. FIND COHESION BY SUMMING LOG OF
PROBABILITIES OF WORD PAIRS


STR
VS
LENDER LENDER
STRING STEER
+ LENGTH + LENGTH
COHESIONA COHESIONB



STR
VS
LENDER LENDER
STRING STEER
+ LENGTH + LENGTH
COHESIONA COHESIONB

2. SELECT EXPANSION THAT MAXIMIZES
COHESION

STR
VS
LENDER LENDER
STRING STEER
+ LENGTH + LENGTH
COHESIONA COHESIONB

STRING
2. SELECT EXPANSION THAT MAXIMIZES
COHESION

NORMALIZE ALGORITHM PART II

VS

STR-LEN ST-RLEN



VS

STR-LEN ST-RLEN
STRING LENGTH STOP RIFLEMEN



VS

STR-LEN ST-RLEN

1. FIND COHESION OVER EXPANSIONS



VS

STR-LEN ST-RLEN

2. SELECT EXPANSION OF THE SPLIT
THAT MAXIMIZES COHESION



VS

STR-LEN ST-RLEN

STRING LENGTH
2. SELECT EXPANSION OF THE SPLIT
THAT MAXIMIZES COHESION


ADDING CONTEXT


ADDING CONTEXT

DIR


ADDING CONTEXT

DIR E(DIR) = {DIRECTION, DIRECTORY}


ADDING CONTEXT

CONTEXT = {FORWARD, BACKWARD}


ADDING CONTEXT

CONTEXT = {FORWARD, BACKWARD}

FIND COHESION WITH CONTEXT WORDS IN ADDITION TO
EXPANSIONS OF OTHER SOFT WORDS

USED IN BOTH PART 1 AND PART 2


NORMALIZE IMPLEMENTATION

USES GenTest TO SPLIT IDENTIFIERS

RETURNS MULTIPLE SPLITS

GOOGLE 5-GRAM DATASET


EVALUATION

Program Loc SLoc Unique Ids

which-2.20 3,670 2,293 487

a2ps-4.14 62,347 38,436 4,393

Program Selected Ids Hard Words Soft Words

which-2.20 487 903 1214

a2ps-4.14 211 459 618


EVALUATION

THREE GROUPS OF IDENTIFIERS

STANDARD LIBRARY CALLS

NAMES FROM STANDARD HEADER FILES / KEYWORDS

DOMAIN NAMES


EVALUATION

THREE GROUPS OF IDENTIFIERS

STANDARD LIBRARY CALLS

NAMES FROM STANDARD HEADER FILES / KEYWORDS

DOMAIN NAMES

Program Filtered Ids Reported Ids

which-2.20 152 335

a2ps-4.14 46 166


EXAMPLE EXPANSIONS

id Top 10 Top Expansion
Expansion
nextchar next_character next_character
indfound index_found_need index_found
optarg option_are_g optarg
itemno i_them_not itemno


RESEARCH QUESTIONS

WHAT IS THE OVERALL ACCURACY OF NORMALIZE?

DOES THE VOCABULARY USED HAVE A SIGNIFICANT
IMPACT ON THE EXPANSION’S ACCURACY?

CAN THE EXPANDER INFORM THE SPLITTER?

CAN THE SPLITTER INFORM THE EXPANDER?


ACCURACY ON DOMAIN IDS


SOURCE OF EXPANSION WORDS

SOURCE CODE

INTERNAL DOCUMENTATION

MANUAL


BEST VOCABULARY SOURCE?


FUTURE WORK

EXPLORING DIFFERENT SOURCES OF CO-OCCURRENCE
DATA

EXPLORING DIFFERENT WAYS OF CALCULATING
PROBABILITIES

EXAMINING NORMALIZATION IN CONTEXT OF AN
INFORMATION RETRIEVAL TASK


SUMMARY

IDENTIFIERS ARE WRITTEN DIFFERENTLY THAN OTHER
SOFTWARE DOCUMENTS

DEGRADES PERFORMANCE OF IR TECHNIQUES

NORMALIZE CURRENTLY EXPANDS ABOUT HALF OF
SOFT WORDS CORRECTLY


QUESTIONS?

Need an identiﬁer split?
GenTest Splitter available at
splitit.cs.loyola.edu


Natural Language Analysis - Expanding Identifiers to Normalize Source Code Vocabulary

More Related Content

Viewers also liked (20)

Similar to Natural Language Analysis - Expanding Identifiers to Normalize Source Code Vocabulary (20)

Recently uploaded (20)

Natural Language Analysis - Expanding Identifiers to Normalize Source Code Vocabulary