Для того чтобы большой массив текстовых документов сделать доступным для восприятия, необходимо разнести источники информации по тематическим группам. В данной работе фильтрация электронных документов основана на предварительном многоэтапном алгоритме кластеризации: на первом этапе для сокращения пространства признаков используются карты Кохонена (SOM), на втором этапе применяется алгоритм FOREL для автоматического определения числа кластеров. Для представления документов в пространстве термов выбрана модель «термин-документ», так как она позволяет использовать возможный учет морфологии, также к ней может быть применима очистка от «шума». На этапе тематической фильтрации составляется семантическое описание документа, а именно – частотный портрет документа. Определение тематики в соответствии с разработанным алгоритмом осуществляется по частотному портрету документа и весам нейронной сети. Осуществленная проверка эффективности работы созданной системы фильтрации показала высокую точность и полноту тематической фильтрации электронных документов
Ключевые слова: тематическая фильтрация, кластерный анализ, SOM, FOREL, физика.
In this paper describes process of documents filtering based on multi-stage clustering algorithm: in the first stage decreasing of feature space dimension by Kohonen maps (SOM), the second step is applied FOREL algorithm for automatic determination of the number of clusters. Identifying of documents topic produced on the base of frequency portrait of documents and weights of neural network. Checking the efficiency of the filtering system has demonstrated high precision and recall.
Keywords: filtering, clustering, SOM, FOREL, physics.