Владимир Александрович Минаев
◽
Алена Дмитриевна Реброва
◽
Александр Викторович Симонов
В статье обсуждаются модели классификации текстового контента и методы его предварительной обработки с целью выявления деструктивных воздействий в социальных медиа. Показано, что основным источником деструктивного контента выступает профиль пользователей, характеризующийся набором личным данных, содержанием публикаций, параметрами сообщества, аккаунтов сети, сообщений и чатов. Говорится об актуальности автоматизированного сбора и анализа данных с помощью моделей прецедентного и дедуктивного обучения. Рассматриваются их основные разновидности и задачи, решаемые на их основе, включающие прогнозирование и типологизацию в аспекте деструктивного содержания текстов, снижение размерности признаков их описания. Исследованы и применены основные методы векторизации текстов: Bag of Words, TF_IDF, Word2vec. На практических корпусах текстов из социальной сети ВКонтакте решены задачи выявления деструктивного контента, связанного с радикальным исламом. Показано, что с помощью примененных моделей и методов все тексты, включающие деструктивный контент, классифицированы верно. Наиболее высокую точность (0,97) при решении задачи распознавания деструктивного контента дает системная интеграция алгоритма векторизации Bag of Words, метода главных компонент для снижения пространства признаков описания текстов и логистической регрессии или случайного леса как моделей обучения. Сделан вывод, что наборы данных, имеющие связь с исламским радикализмом, характеризуются достаточно четкими признаками, которые хорошо вычисляемы с помощью современных моделей, методов и алгоритмов, и могут эффективно применяться для автоматизированной классификации текстовых массивов с целью выявления их деструктивной направленности. Развитие направления, представленного в статье, связано с увеличением исследуемых корпусов документов, более детальным анализом текстов на основе сложных моделей распознавания латентной экстремистской пропаганды, в том числе - представленной в фото, аудио- и видеоформатах.
The article discusses models of classification of text content and methods of its pre-processing in order to identify destructive influences in social media. It is shown that the main source of destructive content is the user profile, which is characterized by a set of personal data, the content of publications, community parameters, network accounts, messages and chats. Automated data collection and analysis using case-based and deductive learning models is discussed. We consider their main varieties and the tasks solved on their basis, including forecasting and typology in the aspect of the destructive content of texts, reducing the dimension of the features of their description. The main methods of text vectorization are investigated and applied: Bag of Words, TF_IDF, Word2vec. The tasks of identifying destructive content related to Islamic radicalism are solved on the practical corpus of texts from the social network VKontakte. It is shown that using the applied models and methods, all texts that include destructive content are classified correctly. The highest accuracy (0.97) in solving the problem of recognizing destructive content is provided by the system integration of the Bag of Words vectorization algorithm, the principal component method for reducing the feature space of text descriptions, and logistic regression or random forest as learning models. It is concluded that the data sets associated with Islamic radicalism are characterized by sufficiently clear features that are well calculated using modern models, methods and algorithms, and can be effectively used for automated classification of text arrays in order to identify their destructive orientation. The development of the direction presented in the article is associated with an increase in the studied corpus of documents, a more detailed analysis of texts based on complex models for recognizing latent extremist propaganda, including those presented in photo, audio and video formats.