Аннотация. В работе рассматривается подход к автоматизированному извлечению текстовых данных из интернет-источников, приводятся достоинства и недостатки существующих решений. Формулируется задача определения степени информативности интернет страниц для их классифика
Ключевые слова: интернет страница, извлечение данных, извлечение веб-структур, свойства текста, компьютерная лингвистика
Abstract. This paper considers the approach to the automated text data extraction from the internet with the advantages and disadvantages of existing solutions. The problem of determining the degree of information value of web content for their classification on in
Keywords: web page, data mining, web structure mining, text properties, computational linguistics