Применение тематического моделирования в SE
В настоящее время применения тематического моделирования (topic modeling, TM) в области SE достаточно ограничены. В основном TM применяют в code comprehension, чтобы упрощать знакомство с кодовой базой, сопоставляя коду тематическую информацию. Также, в существующих работах по извлечению тем из кода применяют классические методы (LSI, LDA, ARTM), не учитывая специфику кода.
Нам кажется, что применимость TM не ограничена областью code comprehension. В нашей работе мы исследуем новых подход к TM на основании эмбеддингов идентификаторов в коде и предлагаем с его помощью извлекать интерпретируемые факторы из произвольных фрагментов кода (например, проекты, код отдельных программистов, изменения в рамках коммита).
В рамках семинара мы обсудим существующие подходы к тематическому моделированию, подходы к оценке их качества, особенности исходного кода и наши текущие результаты в этой области.
Докладчик: Егор Богомолов.
Слайды: https://drive.google.com/file/d/13M0f...