Отправьте статью сегодня! Журнал выйдет ..., печатный экземпляр отправим ...
Опубликовать статью

Молодой учёный

Влияние лингвистических признаков на определение пола и возраста автора текста

Информационные технологии
20.09.2025
3
Поделиться
Аннотация
В статье рассматривается роль лингвистических признаков в задаче демографического профилирования текста. Под демографическим профилированием понимается автоматическое определение пола и возраста автора текста на основе языковых особенностей. Анализируется классификация лингвистических признаков и их влияние на точность анализа. Проводится эксперимент с оценкой влияния выбранных признаков на возможность определения пола и возраста автора текста.
Библиографическое описание
Кузина, А. М. Влияние лингвистических признаков на определение пола и возраста автора текста / А. М. Кузина. — Текст : непосредственный // Молодой ученый. — 2025. — № 38 (589). — С. 1-5. — URL: https://moluch.ru/archive/589/128596/.


В статье рассматривается роль лингвистических признаков в задаче демографического профилирования текста. Под демографическим профилированием понимается автоматическое определение пола и возраста автора текста на основе языковых особенностей. Анализируется классификация лингвистических признаков и их влияние на точность анализа. Проводится эксперимент с оценкой влияния выбранных признаков на возможность определения пола и возраста автора текста.

Ключевые слова: демографическое профилирование, лингвистические признаки, определение пола, определение возраста, анализ текста.

Введение

Демографическое профилирование автора текста с помощью машинного обучения представляет собой процесс автоматического определения характеристик автора текста, таких как пол, возраст, уровень образования и социальный статус. В основе анализа текста лежит определение лингвистических признаков, которые отражают особенности стиля написания и восприятия информации различными социальными группами. Существенное влияние на качество результатов работы моделей оказывает выбор конкретных признаков.

Классификация лингвистических признаков

Существуют различные способы классификации лингвистических признаков в зависимости от уровня языка, способа представления, функциональной направленности, масштаба и сферы применения. Так, во многих исследованиях описывается деление признаков по языковому уровню: статистико-частотные (длина предложений, средняя длина слов, доля редких слов), морфологические (распределение частей речи, сложность морфологических форм), синтаксические (тип и глубина вложенности конструкций, количество подчинённых предложений), пунктуационные (тип и частота знаков препинания), лексико-семантические (ключевые слова, тематические словари), а также стилевые и тематические характеристики [1].

Также выделяются экстралингвистические признаки, к которым относят жанр, вид коммуникации, культурный, диалектный и региональный контекст, авторство, аудитория [2] и др.

Влияние признаков на профилирование авторов

Помимо того, что текстовую информацию можно отнести к различным классам, существуют определенные зависимости между признаками из конкретной классификации и демографическими характеристиками автора текста (полом, возрастом, уровнем образования и т. д.). Исследования подтверждают, что описанные признаки в значительной мере отражают пол и возраст автора.

Так, например, в современных российских и зарубежных исследованиях подтверждаются следующие теории о языковых различиях между мужчинами и женщинами:

  1. Женщины чаще используют личные местоимения и слова, отражающие психологические и социальные аспекты (об отношениях, эмоциях, людях), в то время как для мужчин характерна более информативная речь (о вещах, событиях, фактах), содержащая существительные и специализированные выражения [3]. Кроме того, различия в распределении служебных слов, местоимений [4] и стратегии коммуникации [5] влияет на определение пола автора текста.
  2. Женщины чаще используют смягченные хеджированные формулировки [6], то есть менее радикальные и более вежливые субъективные высказывания. Тексты мужчин в большинстве прямые и повествовательные.

Также существуют исследования, которые подтверждают влияние возраста автора на структуру и стиль его текста. Авторы старшей возрастной группы или с более высоким образованием оперируют развернутыми предложениями со сложной структурой [7, 8]. Молодежь же чаще использует сленговые слова и выражения, сокращения, эмодзи и неформальные конструкции [9, 10].

Ограничения использования признаков

В ходе анализа лингвистических характеристик, влияющий на демографическое профилирование, можно выделить факторы, ограничивающие их использование. Существенным препятствием является культурные особенности и различия между языками: модели, эффективно работающие в рамках одной культурной среды, зачастую оказываются непригодными для анализа текстов другой группы. Также ограничением является жанрово-стилистическое разнообразие текстов: тексты, написанные в социальных сетях, заметно отличаются от научных статей или официальных документов как стилем, так и используемой лексикой. Помимо этого, существует ограничение, связанное с поведением авторов: авторы нередко прибегают к сознательному искажению своей социально-демографической принадлежности путем подбора специфической лексики и стиля письма, характерных для иных групп населения. Это создает дополнительные трудности в идентификации демографических признаков автора текста и трактовке полученных исследовательских выводов.

Эксперимент по оценке влияния лингвистических признаков на возможность демографического профилирования

В рамках данной работы выполнен эксперимент по определению значимых лингвистических признаков в идентификации пола и возрастной группы авторов текстов.

В качестве исходных данных был взят набор из открытого источника данных kaggle.com. Набор содержит в себе текст, написанные человеком в одной из социальных сетей, пол и возрастную группу автора.

  1. Выбор признаков:

Для каждого текстового сообщения i выделялись следующие признаки:

— Количественные характеристики текста:

— WC i — количество слов (word_count);

— PC i — количество знаков препинания (punctuation_count);

— PR i — количество предлогов (preposition_count).

— Местоимения:

— LP i — количество личных местоимений (personal_pronouns_count);

— PP i — количество притяжательных местоимений (possessive_pronouns_count);

— LP i e , PP i e — количество тех же местоимений с заменой буквы «ё» на «е».

Вектор признаков текста:

Целевая переменная y i представляет собой либо пол автора (male=0, female=1), либо возрастную группу (0−19, 20−29, …, 50+).

  1. Методы анализа

Для выявления корреляциями между признаками и целевыми переменными использовался корреляционный анализ (коэффициент Пирсона):

Для исследования статистической значимости признаков по отношению к полу использовался метод t-тест:

Поскольку возрастная группа мультиклассовая целевая переменная, для исследования статистической значимости по отношению к ней использовался метод ANOVA:

где

  1. Результаты эксперимента

В таблице 1 представлены полученные результаты статистической значимости признаков по полу (t-тест) и их интерпретация:

Таблица 1

Статистическая значимость признаков по полу

Признак

t_stat

p_value

Интерпретация

punctuation_count

-8.43

5.44e-17

Очень значимо, женщины чаще используют знаки препинания

personal_pronouns_count

-5.55

3.19e-08

Очень значимо, женщины чаще используют личные местоимения

word_count

-5.24

1.74e-07

Очень значимо, женщины пишут длиннее

possessive_pronouns_count_e

-3.54

4.07e-04

Значимо

preposition_count

-2.92

3.49e-03

Значимо

personal_pronouns_count_e

-2.28

2.27e-02

Значимо

possessive_pronouns_count

-1.28

2.01e-01

Не значимо

В таблице 2 представлены результаты статистической значимости признаков по возрастной группе (ANOVA) и их интерпретация:

Таблица 2

Статистическая значимость признаков по возрастной группе

Признак

t_stat

p_value

Интерпретация

punctuation_count

18.67

3.69e-15

Очень значимо, старшие группы чаще используют знаки препинания

personal_pronouns_count

12.09

9.66e-10

Очень значимо, молодые чаще используют личные местоимения

possessive_pronouns_count

5.11

4.20e-04

Значимо

preposition_count

4.51

1.24e-03

Значимо

word_count

2.48

4.20e-02

Значимо, эффект слабый

personal_pronouns_count_e

1.73

1.40e-01

Не значимо

possessive_pronouns_count_e

0.16

9.60e-01

Не значимо

В таблице 3 представлены полученные коэффициенты корреляции признаков с полом:

Таблица 3

Корреляция признаков с полом

Признак

r

punctuation_count

0.16

personal_pronouns_count

0.1

word_count

0.1

possessive_pronouns_count_e

0.07

preposition_count

0.05

personal_pronouns_count_e

0.04

possessive_pronouns_count

0.02

В таблице 4 представлены полученные коэффициенты корреляции признаков с возрастной группой:

Таблица 4

Корреляция признаков с возрастной группой

Признак

r

punctuation_count

1.45e-01

personal_pronouns_count

-7.58e-02

word_count

1.91e-02

possessive_pronouns_count_e

2.21e-03

preposition_count

4.18e-02

personal_pronouns_count_e

-1.82e-02

possessive_pronouns_count

2.21e-03

В ходе проведенного исследования была осуществлена количественная оценка влияния отобранных лингвистических характеристик на процесс демографического профилирования авторов текстовых материалов. Были выявлены следующие закономерности:

— Профилирование по полу

Наиболее значимыми параметрами оказались количество знаков препинания (punctuation_count), частота употребления личных местоимений (personal_pronouns_count) и общий объём слов в тексте (word_count).

Статистический анализ показал существенные различия в использовании этих показателей между авторами разного пола. Например, для женщин характерно более активное использование знаков препинания, большее количество слов в тексте, а также, более частое использование личных местоимений.

— Профилирование по возрасту

В этой области, анализ показал менее явные, но все же значимые тенденции. К примеру, старшие возрастные группы чаще используют знаки препинания, чем молодежь, которая в свою очередь применяет больше личных местоимений.

Анализ замены буквы «ё» на «е» не выявил значимых различий между возрастными группами. Данный признак не подходит для профилирования.

— Общая оценка информативности признаков

Результаты проведённого корреляционного анализа демонстрируют существенные различия в диагностической ценности лингвистических маркеров при определении демографических характеристик авторов. Базовые лингвистические показатели (частота использования знаков препинания, личных местоимений и общий объём текста) демонстрируют значительно более высокую взаимозависимость с полом автора. Для повышения точности возрастного профилирования необходимо расширение параметров, например, сленг, синтаксические и стилевые особенности текста.

Литература:

  1. Морозов Д. А., Глазкова А. В., Иомдин Б. Л. Сложность текста и лингвистические признаки: как они соотносятся в русском и английском языках // Том 26, № 2 (2022): Компьютерная лингвистика и дискурсивная комплексология. — Москва: Российский университет дружбы народов, 2022. — URL: https://journals.rudn.ru/linguistics/article/view/31332/ru_RU
  2. Зикриева М. Х. Лингвистические и экстралингвистические признаки формирования текста — Вестник Педагогического университета, 2022. — URL: https://cyberleninka.ru/article/n/lingvisticheskie-i-ekstralingvisticheskie-priznaki-formirovaniya-teksta
  3. Newman M. L., Groom C. J., Handelman L. D., Pennebaker J. W. Gender Differences in Language Use: An Analysis of 14,000 Text Samples. — Discourse Processes, 2008. — URL: https://www.researchgate.net/publication/253291274_Gender_Differences_in_Language_Use_An_Analysis_of_14000_Text_Samples
  4. Кирилина А. В. Лингвистические гендерные исследования. — Отечественные записки, 2005. — URL: https://strana-oz.ru/2005/2/lingvisticheskie-gendernye-issledovaniya
  5. Голев Н. Д., Реттих Д. А. О гендерно-маркированных единицах в русскоязычных текстах как статистических характеристиках служебных частей речи. — СибСкрипт, 2015. — URL: https://cyberleninka.ru/article/n/o-genderno-markirovannyh-edinitsah-v-russkoyazychnyh-tekstah-kak-statisticheskih-harakteristikah-sluzhebnyh-chastey-rechi
  6. Li Xuwei, Li Feipeng. Gender Difference in Hedging: A Corpus-Based Study to TED Talks about Emotion. — Creative Education, 2020. — URL: https://www.scirp.org/html/19–6305283_103664.htm
  7. L. Zanichelli, R. P. Fonseca, K. Z. Ortiz. Influence of age and schooling in written discourse of healthy adults. — Psicol Reflex Crit, 2020. — URL: https://pubmed.ncbi.nlm.nih.gov/32514630/
  8. Соболев А. А. Методика определения возраста автора текста на основе метрик удобочитаемости и лексического разнообразия. — Доклады Томского государственного университета систем управления и радиоэлектроники, 2022. — URL: https://cyberleninka.ru/article/n/metodika-opredeleniya-vozrasta-avtora-teksta-na-osnove-metrik-udobochitaemosti-i-leksicheskogo-raznoobraziya
  9. L. Hilte, W. Daelemans, R. Vandekerckhove. Interlocutors’ Age Impacts Teenagers’ Online Writing Style: Accommodation in Intra- and Intergenerational Online Conversations. — Front Artif Intel, 2021. — URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC8435778/
  10. Хапалова А. И. Функционирование эмодзи в тексте. — Москва: Российский государственный гуманитарный университет (РГГУ), 2016. — URL: https://cyberpsy.ru/docs/instagram_emoji_hapalova.pdf
Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Ключевые слова
демографическое профилирование
лингвистические признаки
определение пола
определение возраста
анализ текста
Молодой учёный №38 (589) сентябрь 2025 г.
Скачать часть журнала с этой статьей(стр. 1-5):
Часть 1 (стр. 1-63)
Расположение в файле:
стр. 1стр. 1-5стр. 63

Молодой учёный