МОДЕЛЬ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ДЛЯ ОЦЕНКИ ИНФОРМАТИВНОСТИ ИНТЕРНЕТ СТРАНИЦ

УДК 004.852

Редькин Олег Константинович,,,,,,

МОДЕЛЬ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ДЛЯ ОЦЕНКИ ИНФОРМАТИВНОСТИ ИНТЕРНЕТ СТРАНИЦ

Redkin Oleg

THE TEXT MODEL IN A NATURAL LANGUAGE FOR THE EVALUATION OF INFORMATION VALUE OF WEB PAGES

Аннотация. В работе рассматривается подход к автоматизированному извлечению текстовых данных из интернет-источников, приводятся достоинства и недостатки существующих решений. Формулируется задача определения степени информативности интернет страниц для их классифика

Ключевые слова: интернет страница, извлечение данных, извлечение веб-структур, свойства текста, компьютерная лингвистика

Abstract. This paper considers the approach to the automated text data extraction from the internet with the advantages and disadvantages of existing solutions. The problem of determining the degree of information value of web content for their classification on in

Keywords: web page, data mining, web structure mining, text properties, computational linguistics

ЧИТАТЬ ВЕСЬ ТЕКСТ >>>