Skip to content

Latest commit

 

History

History

assoc

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 

Датасет: ассоциации к словам и выражениям русского языка

Ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.

Структура и формат датасета

Всего публикуются две группы файлов: общая база ассоциаций и данные со срезами по гендеру. В каждой группе публикуются две версии: полный набор и набор с наложенным семейным фильтром (safe-версия). Формат файлов в полной и безопасной версиях полностью идентичен.

Все файлы имеют формат CSV, разделитель точка с запятой, кодировка UTF-8.

Формат общей базы (assoc.csv и assoc.safe.csv)

  • word — головное слово — слово или выражение, к которому придумываются ассоциации
  • assoc — ассоциация — слово или выражение
  • pos_tag — тег частеречной разметки — для однословных ассоциаций: NOUN, ADJ, VERB, ADVERB или NO_TAG. Для фраз всегда PHRASE.
  • dir — направление ассоциации — BIDIR (зеркальная или, иначе, двунаправленная ассоциация), DIR (прямая), REV (обратная). Подробнее смотрите ниже.
  • weight — относительная частота ассоциации — значение от единицы (самая частая ассоциация к головному слову) и ниже. Подробнее смотри описание алгоритма нормировки. Для обратных (REV) ассоциаций равно нулю.
  • mirror_weight — вес зеркальной ассоциации — только для двунаправленных (BIDIR) и обратных (REV) ассоциаций. Для прямых (DIR) ассоциаций равно нулю.
  • is_safe — флаг семейного фильтра — 1 для безопасных слов и ассоциаций; 0 в противном случае

Формат набора со срезами по гендеру (assoc_gender.csv и assoc_gender.safe.csv)

  • word, assoc, is_safe — аналогично общему набору
  • weight_m — вес ассоциации, срез мужчины — нормировка идёт только в подгруппе ассоциаций, названных мужчинами
  • weight_f — по аналогии для женщин
  • mf_ratio — значение от -1 до 1, где -1 соответствует чисто мужским ассоциациям, 1 — чисто женским, 0 — гендерно-нейтральным

В файле со срезами часть атрибутов намерено не указывается, т.к. это приведёт к чрезмерному переусложнению формата файла и описания. Если под вашу задачу нужно что-то сверх приведённых данных - пишите нам на [email protected].

Что можно сделать с датасетом

  • Скачать и положить в папку "NLP датасеты, посмотреть потом" (нет).
  • Реализовать алгоритм assoc2vec, взяв за основу идеи из GloVe и заменив контекстную совстречаемость ассоциативной.
  • Кластеризовать ассоциации в рамках каждого отдельного головного слова или датасета в целом, например чтобы выделить кластера отдельных значений слова.
  • Исследовать возможность автоматического построения тезауруса русского языка. (Наблюдение: в отличие от контекстов матрица ассоциаций асимметрична.)
  • Использовать срезы ассоциаций по гендеру для проведения социологического исследования.
  • Сделать интересную визуализацию самих ассоциаций и связей внутри датасета. (Например карту всевозможных путей между ассоциациями.)
  • Исследовать природу симметричности/ассиметричности относительных частот зеркальных ассоциаций.
  • Придумать свою идею использования набора данных, провести исследование и опубликовать научную статью.

О направлении ассоциаций

Ассоциации не симметричны. Так, например, к слову ЛАЙМ будет сильная ассоциация ФРУКТ. Но обратное не верно — ЛАЙМ если и ассоциируется со словом ФРУКТ, то не в первую очередь.

Это связано как с обобщающей ролью слова ФРУКТ в языке, так и с актуальным культурным контекстом жителей России.

Соответственно зеркальность и её количественное выражение являются интересными атрибутами ассоциаций, выгодно отличающих их от чисто статистических инструментов, таких как контекстные связи.

Вернёмся к технической стороне вопроса. В датасете зеркальные или, иначе, двунаправленные ассоциации обозначаются (колонка for) как BIDIR. Прямой и зеркальный веса заданы в колонках weight и mirror_weight, соответственно.

Ассоциации, помеченные как DIR или REV являются однонаправленными. Для первых mirror_weight равен нулю, для последних обнуляется прямой вес weight.

По хорошему информация о направлении ассоциаций избыточна — её можно восстановить из более компактного набора колонок. Мы приводим её для удобства использования датасета что называется "из коробки".

Описание процесса подготовки датасета

В процессе подготовки датасета мы ставили три задачи:

  • Максимально очистить сырые данные и подготовить их к применению в исследованиях и реальных приложениях.
  • Сохранить полноту. Проще говоря, не удалять те ассоциации, которые оставил бы человек, исходя из его знаний о мире и культурного контекста.
  • Обогатить набор данных метаязыковой информацией, включая часть речи и флаг семейного фильтра.

Большую часть поставленных задач по обработке датасета мы выполнили, но некоторые соображения по дальнейшему улучшению будут описаны ниже в этом документе. Также мы будем рады любым замечаниям и предложением от пользователей.

Основные особенности и типы обработок

  • Орфография: в сырых данных есть большое количество слов, написанных с ошибками. Ошибочные написания удалены из датасета, а их веса добавлены к весам корректных написаний, если есть такая возможность.
  • Формы слов: жёлтый, жёлтая, жёлтое, цветы, цветок и т.д. В обработанном датасете все слова приводятся к начальной форме. В случае единственного/множественного числа существительного выбирается наиболее частотный вариант (в рамках головного слова), прилагательные согласуются с существительными по числу и по роду. Если согласование прилагательного невозможно, выбирается наиболее частотная из базовых форм (по роду). Глаголы, составляющие видовые пары (видеть — увидеть), считаются разными словами.
  • Все слова в датасете проходят фильтрацию через словарь. Последний имеет достаточно мощный объём и включает современную, в т.ч. сленговую лексику, а также имена собственные.
  • Фразовые ассоциации пропускаются через н-граммный фильтр. Словосочетания не приводятся к начальной форме; они могут содержать головное слово; части фраз могут встречаться как отдельные ассоциации.
  • Датасет по возможности ёфицирован.
  • Первая буква имён собственных по возможности капитализируется.
  • Все пробелы приведены к 0x20. Цепочки пробелов заменены на один.

Нормировка частот

Частота ошибочных написаний и неосновных словоформ приплюсовывается к частоте варианта, включённого в итоговый набор данных.

Относительная частота наиболее употребительной ассоциации принимается за единицу. Частоты остальных ассоциаций представляют собой долю по отношению к самой употребительной. (В рамках каждого головного слова.)

Для срезов по гендеру нормировка осуществляется независимо для ассоциаций, названых мужчинами и женщинами. Т.е. в общем случае в рамках каждого головного слова будет две ассоциации, условно мужская и женская, которые имеют вес 1.

Известные допущения и планы по развитию датасета

  • Более точно сводить ошибочно-раздельные написания слов (чудо-юдо, бизнес-центр) к нормативному.
  • Исследовать возможность использования семантики при обработке данных (например чтобы разводить словоформы типа копать/капать, которые могут быть как ошибочными написаниями друг друга, так и достоверными ассоциациями).
  • Подумать над альтернативными возможностями расчёта частот фразовых ассоциаций. (Сейчас можно доверять лишь соотношению частот между фразовыми ассоциациями в рамках одного головного слова.)
  • Промаркировать контекстные и неконтекстные ассоциации, указать тип контекста и сам контекст.

Также мы безусловно будем учитывать все разумные замечания, полученные от пользователей датасета.

Лицензия

Данный датасет распространяется по лицензии CC BY-NC-SA 4.0. Простыми словами — вы можете свободно использовать его в личных, научных, исследовательских и любых других целях, не подразумевающих получения дохода коммерческим путём. При этом от вас требуется указать ссылку на лицензию и на этот репозиторий. Производные работы должны распространятся под аналогичной лицензией.

Будем признательны, если вы скинете несколько строк на [email protected] о том, как вы планируете использовать датасет — нам это интересно, как исследователям, и поможет сделать датасет лучше в будущем.

По вопросам использования датасета в коммерческих целях смотрите развёрнутый комментарий: использование данных в коммерческих целях.