В статье рассматривается роль лингвистических признаков в задаче демографического профилирования текста. Под демографическим профилированием понимается автоматическое определение пола и возраста автора текста на основе языковых особенностей. Анализируется классификация лингвистических признаков и их влияние на точность анализа. Проводится эксперимент с оценкой влияния выбранных признаков на возможность определения пола и возраста автора текста.
Ключевые слова: демографическое профилирование, лингвистические признаки, определение пола, определение возраста, анализ текста.
Введение
Демографическое профилирование автора текста с помощью машинного обучения представляет собой процесс автоматического определения характеристик автора текста, таких как пол, возраст, уровень образования и социальный статус. В основе анализа текста лежит определение лингвистических признаков, которые отражают особенности стиля написания и восприятия информации различными социальными группами. Существенное влияние на качество результатов работы моделей оказывает выбор конкретных признаков.
Классификация лингвистических признаков
Существуют различные способы классификации лингвистических признаков в зависимости от уровня языка, способа представления, функциональной направленности, масштаба и сферы применения. Так, во многих исследованиях описывается деление признаков по языковому уровню: статистико-частотные (длина предложений, средняя длина слов, доля редких слов), морфологические (распределение частей речи, сложность морфологических форм), синтаксические (тип и глубина вложенности конструкций, количество подчинённых предложений), пунктуационные (тип и частота знаков препинания), лексико-семантические (ключевые слова, тематические словари), а также стилевые и тематические характеристики [1].
Также выделяются экстралингвистические признаки, к которым относят жанр, вид коммуникации, культурный, диалектный и региональный контекст, авторство, аудитория [2] и др.
Влияние признаков на профилирование авторов
Помимо того, что текстовую информацию можно отнести к различным классам, существуют определенные зависимости между признаками из конкретной классификации и демографическими характеристиками автора текста (полом, возрастом, уровнем образования и т. д.). Исследования подтверждают, что описанные признаки в значительной мере отражают пол и возраст автора.
Так, например, в современных российских и зарубежных исследованиях подтверждаются следующие теории о языковых различиях между мужчинами и женщинами:
- Женщины чаще используют личные местоимения и слова, отражающие психологические и социальные аспекты (об отношениях, эмоциях, людях), в то время как для мужчин характерна более информативная речь (о вещах, событиях, фактах), содержащая существительные и специализированные выражения [3]. Кроме того, различия в распределении служебных слов, местоимений [4] и стратегии коммуникации [5] влияет на определение пола автора текста.
- Женщины чаще используют смягченные хеджированные формулировки [6], то есть менее радикальные и более вежливые субъективные высказывания. Тексты мужчин в большинстве прямые и повествовательные.
Также существуют исследования, которые подтверждают влияние возраста автора на структуру и стиль его текста. Авторы старшей возрастной группы или с более высоким образованием оперируют развернутыми предложениями со сложной структурой [7, 8]. Молодежь же чаще использует сленговые слова и выражения, сокращения, эмодзи и неформальные конструкции [9, 10].
Ограничения использования признаков
В ходе анализа лингвистических характеристик, влияющий на демографическое профилирование, можно выделить факторы, ограничивающие их использование. Существенным препятствием является культурные особенности и различия между языками: модели, эффективно работающие в рамках одной культурной среды, зачастую оказываются непригодными для анализа текстов другой группы. Также ограничением является жанрово-стилистическое разнообразие текстов: тексты, написанные в социальных сетях, заметно отличаются от научных статей или официальных документов как стилем, так и используемой лексикой. Помимо этого, существует ограничение, связанное с поведением авторов: авторы нередко прибегают к сознательному искажению своей социально-демографической принадлежности путем подбора специфической лексики и стиля письма, характерных для иных групп населения. Это создает дополнительные трудности в идентификации демографических признаков автора текста и трактовке полученных исследовательских выводов.
Эксперимент по оценке влияния лингвистических признаков на возможность демографического профилирования
В рамках данной работы выполнен эксперимент по определению значимых лингвистических признаков в идентификации пола и возрастной группы авторов текстов.
В качестве исходных данных был взят набор из открытого источника данных kaggle.com. Набор содержит в себе текст, написанные человеком в одной из социальных сетей, пол и возрастную группу автора.
- Выбор признаков:
Для каждого текстового сообщения i выделялись следующие признаки:
— Количественные характеристики текста:
— WC i — количество слов (word_count);
— PC i — количество знаков препинания (punctuation_count);
— PR i — количество предлогов (preposition_count).
— Местоимения:
— LP i — количество личных местоимений (personal_pronouns_count);
— PP i — количество притяжательных местоимений (possessive_pronouns_count);
— LP i e , PP i e — количество тех же местоимений с заменой буквы «ё» на «е».
Вектор признаков текста:
Целевая переменная y i представляет собой либо пол автора (male=0, female=1), либо возрастную группу (0−19, 20−29, …, 50+).
- Методы анализа
Для выявления корреляциями между признаками и целевыми переменными использовался корреляционный анализ (коэффициент Пирсона):
Для исследования статистической значимости признаков по отношению к полу использовался метод t-тест:
Поскольку возрастная группа мультиклассовая целевая переменная, для исследования статистической значимости по отношению к ней использовался метод ANOVA:
где
- Результаты эксперимента
В таблице 1 представлены полученные результаты статистической значимости признаков по полу (t-тест) и их интерпретация:
Таблица 1
Статистическая значимость признаков по полу
Признак |
t_stat |
p_value |
Интерпретация |
punctuation_count |
-8.43 |
5.44e-17 |
Очень значимо, женщины чаще используют знаки препинания |
personal_pronouns_count |
-5.55 |
3.19e-08 |
Очень значимо, женщины чаще используют личные местоимения |
word_count |
-5.24 |
1.74e-07 |
Очень значимо, женщины пишут длиннее |
possessive_pronouns_count_e |
-3.54 |
4.07e-04 |
Значимо |
preposition_count |
-2.92 |
3.49e-03 |
Значимо |
personal_pronouns_count_e |
-2.28 |
2.27e-02 |
Значимо |
possessive_pronouns_count |
-1.28 |
2.01e-01 |
Не значимо |
В таблице 2 представлены результаты статистической значимости признаков по возрастной группе (ANOVA) и их интерпретация:
Таблица 2
Статистическая значимость признаков по возрастной группе
Признак |
t_stat |
p_value |
Интерпретация |
punctuation_count |
18.67 |
3.69e-15 |
Очень значимо, старшие группы чаще используют знаки препинания |
personal_pronouns_count |
12.09 |
9.66e-10 |
Очень значимо, молодые чаще используют личные местоимения |
possessive_pronouns_count |
5.11 |
4.20e-04 |
Значимо |
preposition_count |
4.51 |
1.24e-03 |
Значимо |
word_count |
2.48 |
4.20e-02 |
Значимо, эффект слабый |
personal_pronouns_count_e |
1.73 |
1.40e-01 |
Не значимо |
possessive_pronouns_count_e |
0.16 |
9.60e-01 |
Не значимо |
В таблице 3 представлены полученные коэффициенты корреляции признаков с полом:
Таблица 3
Корреляция признаков с полом
Признак |
r |
punctuation_count |
0.16 |
personal_pronouns_count |
0.1 |
word_count |
0.1 |
possessive_pronouns_count_e |
0.07 |
preposition_count |
0.05 |
personal_pronouns_count_e |
0.04 |
possessive_pronouns_count |
0.02 |
В таблице 4 представлены полученные коэффициенты корреляции признаков с возрастной группой:
Таблица 4
Корреляция признаков с возрастной группой
Признак |
r |
punctuation_count |
1.45e-01 |
personal_pronouns_count |
-7.58e-02 |
word_count |
1.91e-02 |
possessive_pronouns_count_e |
2.21e-03 |
preposition_count |
4.18e-02 |
personal_pronouns_count_e |
-1.82e-02 |
possessive_pronouns_count |
2.21e-03 |
В ходе проведенного исследования была осуществлена количественная оценка влияния отобранных лингвистических характеристик на процесс демографического профилирования авторов текстовых материалов. Были выявлены следующие закономерности:
— Профилирование по полу
Наиболее значимыми параметрами оказались количество знаков препинания (punctuation_count), частота употребления личных местоимений (personal_pronouns_count) и общий объём слов в тексте (word_count).
Статистический анализ показал существенные различия в использовании этих показателей между авторами разного пола. Например, для женщин характерно более активное использование знаков препинания, большее количество слов в тексте, а также, более частое использование личных местоимений.
— Профилирование по возрасту
В этой области, анализ показал менее явные, но все же значимые тенденции. К примеру, старшие возрастные группы чаще используют знаки препинания, чем молодежь, которая в свою очередь применяет больше личных местоимений.
Анализ замены буквы «ё» на «е» не выявил значимых различий между возрастными группами. Данный признак не подходит для профилирования.
— Общая оценка информативности признаков
Результаты проведённого корреляционного анализа демонстрируют существенные различия в диагностической ценности лингвистических маркеров при определении демографических характеристик авторов. Базовые лингвистические показатели (частота использования знаков препинания, личных местоимений и общий объём текста) демонстрируют значительно более высокую взаимозависимость с полом автора. Для повышения точности возрастного профилирования необходимо расширение параметров, например, сленг, синтаксические и стилевые особенности текста.
Литература:
- Морозов Д. А., Глазкова А. В., Иомдин Б. Л. Сложность текста и лингвистические признаки: как они соотносятся в русском и английском языках // Том 26, № 2 (2022): Компьютерная лингвистика и дискурсивная комплексология. — Москва: Российский университет дружбы народов, 2022. — URL: https://journals.rudn.ru/linguistics/article/view/31332/ru_RU
- Зикриева М. Х. Лингвистические и экстралингвистические признаки формирования текста — Вестник Педагогического университета, 2022. — URL: https://cyberleninka.ru/article/n/lingvisticheskie-i-ekstralingvisticheskie-priznaki-formirovaniya-teksta
- Newman M. L., Groom C. J., Handelman L. D., Pennebaker J. W. Gender Differences in Language Use: An Analysis of 14,000 Text Samples. — Discourse Processes, 2008. — URL: https://www.researchgate.net/publication/253291274_Gender_Differences_in_Language_Use_An_Analysis_of_14000_Text_Samples
- Кирилина А. В. Лингвистические гендерные исследования. — Отечественные записки, 2005. — URL: https://strana-oz.ru/2005/2/lingvisticheskie-gendernye-issledovaniya
- Голев Н. Д., Реттих Д. А. О гендерно-маркированных единицах в русскоязычных текстах как статистических характеристиках служебных частей речи. — СибСкрипт, 2015. — URL: https://cyberleninka.ru/article/n/o-genderno-markirovannyh-edinitsah-v-russkoyazychnyh-tekstah-kak-statisticheskih-harakteristikah-sluzhebnyh-chastey-rechi
- Li Xuwei, Li Feipeng. Gender Difference in Hedging: A Corpus-Based Study to TED Talks about Emotion. — Creative Education, 2020. — URL: https://www.scirp.org/html/19–6305283_103664.htm
- L. Zanichelli, R. P. Fonseca, K. Z. Ortiz. Influence of age and schooling in written discourse of healthy adults. — Psicol Reflex Crit, 2020. — URL: https://pubmed.ncbi.nlm.nih.gov/32514630/
- Соболев А. А. Методика определения возраста автора текста на основе метрик удобочитаемости и лексического разнообразия. — Доклады Томского государственного университета систем управления и радиоэлектроники, 2022. — URL: https://cyberleninka.ru/article/n/metodika-opredeleniya-vozrasta-avtora-teksta-na-osnove-metrik-udobochitaemosti-i-leksicheskogo-raznoobraziya
- L. Hilte, W. Daelemans, R. Vandekerckhove. Interlocutors’ Age Impacts Teenagers’ Online Writing Style: Accommodation in Intra- and Intergenerational Online Conversations. — Front Artif Intel, 2021. — URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC8435778/
- Хапалова А. И. Функционирование эмодзи в тексте. — Москва: Российский государственный гуманитарный университет (РГГУ), 2016. — URL: https://cyberpsy.ru/docs/instagram_emoji_hapalova.pdf