Ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.
Всего публикуются две группы файлов: общая база ассоциаций и данные со срезами по гендеру. В каждой группе публикуются две версии: полный набор и набор с наложенным семейным фильтром (safe-версия). Формат файлов в полной и безопасной версиях полностью идентичен.
Все файлы имеют формат CSV, разделитель точка с запятой, кодировка UTF-8.
- word — головное слово — слово или выражение, к которому придумываются ассоциации
- assoc — ассоциация — слово или выражение
- pos_tag — тег частеречной разметки — для однословных ассоциаций: NOUN, ADJ, VERB, ADVERB или NO_TAG. Для фраз всегда PHRASE.
- dir — направление ассоциации — BIDIR (зеркальная или, иначе, двунаправленная ассоциация), DIR (прямая), REV (обратная). Подробнее смотрите ниже.
- weight — относительная частота ассоциации — значение от единицы (самая частая ассоциация к головному слову) и ниже. Подробнее смотри описание алгоритма нормировки. Для обратных (REV) ассоциаций равно нулю.
- mirror_weight — вес зеркальной ассоциации — только для двунаправленных (BIDIR) и обратных (REV) ассоциаций. Для прямых (DIR) ассоциаций равно нулю.
- is_safe — флаг семейного фильтра — 1 для безопасных слов и ассоциаций; 0 в противном случае
- word, assoc, is_safe — аналогично общему набору
- weight_m — вес ассоциации, срез мужчины — нормировка идёт только в подгруппе ассоциаций, названных мужчинами
- weight_f — по аналогии для женщин
- mf_ratio — значение от -1 до 1, где -1 соответствует чисто мужским ассоциациям, 1 — чисто женским, 0 — гендерно-нейтральным
В файле со срезами часть атрибутов намерено не указывается, т.к. это приведёт к чрезмерному переусложнению формата файла и описания. Если под вашу задачу нужно что-то сверх приведённых данных - пишите нам на [email protected].
- Скачать и положить в папку "NLP датасеты, посмотреть потом" (нет).
- Реализовать алгоритм assoc2vec, взяв за основу идеи из GloVe и заменив контекстную совстречаемость ассоциативной.
- Кластеризовать ассоциации в рамках каждого отдельного головного слова или датасета в целом, например чтобы выделить кластера отдельных значений слова.
- Исследовать возможность автоматического построения тезауруса русского языка. (Наблюдение: в отличие от контекстов матрица ассоциаций асимметрична.)
- Использовать срезы ассоциаций по гендеру для проведения социологического исследования.
- Сделать интересную визуализацию самих ассоциаций и связей внутри датасета. (Например карту всевозможных путей между ассоциациями.)
- Исследовать природу симметричности/ассиметричности относительных частот зеркальных ассоциаций.
- Придумать свою идею использования набора данных, провести исследование и опубликовать научную статью.
Ассоциации не симметричны. Так, например, к слову ЛАЙМ будет сильная ассоциация ФРУКТ. Но обратное не верно — ЛАЙМ если и ассоциируется со словом ФРУКТ, то не в первую очередь.
Это связано как с обобщающей ролью слова ФРУКТ в языке, так и с актуальным культурным контекстом жителей России.
Соответственно зеркальность и её количественное выражение являются интересными атрибутами ассоциаций, выгодно отличающих их от чисто статистических инструментов, таких как контекстные связи.
Вернёмся к технической стороне вопроса. В датасете зеркальные или, иначе, двунаправленные ассоциации обозначаются (колонка for) как BIDIR. Прямой и зеркальный веса заданы в колонках weight и mirror_weight, соответственно.
Ассоциации, помеченные как DIR или REV являются однонаправленными. Для первых mirror_weight равен нулю, для последних обнуляется прямой вес weight.
По хорошему информация о направлении ассоциаций избыточна — её можно восстановить из более компактного набора колонок. Мы приводим её для удобства использования датасета что называется "из коробки".
В процессе подготовки датасета мы ставили три задачи:
- Максимально очистить сырые данные и подготовить их к применению в исследованиях и реальных приложениях.
- Сохранить полноту. Проще говоря, не удалять те ассоциации, которые оставил бы человек, исходя из его знаний о мире и культурного контекста.
- Обогатить набор данных метаязыковой информацией, включая часть речи и флаг семейного фильтра.
Большую часть поставленных задач по обработке датасета мы выполнили, но некоторые соображения по дальнейшему улучшению будут описаны ниже в этом документе. Также мы будем рады любым замечаниям и предложением от пользователей.
- Орфография: в сырых данных есть большое количество слов, написанных с ошибками. Ошибочные написания удалены из датасета, а их веса добавлены к весам корректных написаний, если есть такая возможность.
- Формы слов: жёлтый, жёлтая, жёлтое, цветы, цветок и т.д. В обработанном датасете все слова приводятся к начальной форме. В случае единственного/множественного числа существительного выбирается наиболее частотный вариант (в рамках головного слова), прилагательные согласуются с существительными по числу и по роду. Если согласование прилагательного невозможно, выбирается наиболее частотная из базовых форм (по роду). Глаголы, составляющие видовые пары (видеть — увидеть), считаются разными словами.
- Все слова в датасете проходят фильтрацию через словарь. Последний имеет достаточно мощный объём и включает современную, в т.ч. сленговую лексику, а также имена собственные.
- Фразовые ассоциации пропускаются через н-граммный фильтр. Словосочетания не приводятся к начальной форме; они могут содержать головное слово; части фраз могут встречаться как отдельные ассоциации.
- Датасет по возможности ёфицирован.
- Первая буква имён собственных по возможности капитализируется.
- Все пробелы приведены к 0x20. Цепочки пробелов заменены на один.
Частота ошибочных написаний и неосновных словоформ приплюсовывается к частоте варианта, включённого в итоговый набор данных.
Относительная частота наиболее употребительной ассоциации принимается за единицу. Частоты остальных ассоциаций представляют собой долю по отношению к самой употребительной. (В рамках каждого головного слова.)
Для срезов по гендеру нормировка осуществляется независимо для ассоциаций, названых мужчинами и женщинами. Т.е. в общем случае в рамках каждого головного слова будет две ассоциации, условно мужская и женская, которые имеют вес 1.
- Более точно сводить ошибочно-раздельные написания слов (чудо-юдо, бизнес-центр) к нормативному.
- Исследовать возможность использования семантики при обработке данных (например чтобы разводить словоформы типа копать/капать, которые могут быть как ошибочными написаниями друг друга, так и достоверными ассоциациями).
- Подумать над альтернативными возможностями расчёта частот фразовых ассоциаций. (Сейчас можно доверять лишь соотношению частот между фразовыми ассоциациями в рамках одного головного слова.)
- Промаркировать контекстные и неконтекстные ассоциации, указать тип контекста и сам контекст.
Также мы безусловно будем учитывать все разумные замечания, полученные от пользователей датасета.
Данный датасет распространяется по лицензии CC BY-NC-SA 4.0. Простыми словами — вы можете свободно использовать его в личных, научных, исследовательских и любых других целях, не подразумевающих получения дохода коммерческим путём. При этом от вас требуется указать ссылку на лицензию и на этот репозиторий. Производные работы должны распространятся под аналогичной лицензией.
Будем признательны, если вы скинете несколько строк на [email protected] о том, как вы планируете использовать датасет — нам это интересно, как исследователям, и поможет сделать датасет лучше в будущем.
По вопросам использования датасета в коммерческих целях смотрите развёрнутый комментарий: использование данных в коммерческих целях.