УДК 004.021
Кошкин Д.Е.
АВТОМАТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ТЕКСТА НА ОСНОВЕ АНАЛИЗА СЛОВ
Московский государственный технический университет радиотехники, электроники и автоматики
В данном докладе рассматривается способ гармонизации и нормирования неструктурированных групп текстов для дальнейшего машинного анализа вхождений с целью определения их схожести по тематике. Предложены способы нивелирования недостатков алгоритма k-means и метод кластеризации с алгоритмом, поддающимся многопоточной обработке. Такой подход в наше время актуален из-за простоты использования облачных и кластерных вычислений, а так же из-за перевода многих библиотек в электронный вид.
Ключевые слова: язык, кластер, многопоточная обработка, алгоритм k-means, к-средних, параллельные вычисления.