Датасет включает в себя слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].
Изучить датасет без необходимости скачивания можно в интерактивном навигаторе.
Общий объём — 46127 записей.
Метка | Объём |
---|---|
Положительное | 6215 записей |
Отрицательное | 11863 записей |
Нейтральное | 28049 записей |
Файл датасета kartaslovsent.csv
имеет формат CSV, разделитель точка с запятой, кодировка UTF-8.
Поле | Комментарий | Источник |
---|---|---|
term | слово или словосочетание (обобщённо «вход») | входные данные |
tag | метка тональности: PSTV («положительное»), NGTV («отрицательное»), NEUT («нейтральное») | формула |
value | скалярное значение эмоционально-оценочного заряда из непрерывного диапазона [-1, 1], где +1 соответствует входам с максимально положительной окраской, -1 — входам с максимально отрицательной окраской, 0 — входам с нейтральной окраской (то же, что отсутствие окраски) | формула |
pstv | доля голосов за положительную тональность | исходная разметка |
ngtv | доля голосов за отрицательную тональность | исходная разметка |
neut | доля голосов за нейтральную тональность | исходная разметка |
dunno | доля голосов «не знаю» | исходная разметка |
pstvNgtvDisagreementRatio | показатель рассогласованности между голосами за положительную/отрицательную тональность, 0 соответствует отсутствию рассогласованности, 1 — максимальной рассогласованности | формула |
Значения pstv
, ngtv
, neut
и dunno
округлены до трёх знаков после запятой (десятая доля процента), сумма значений
равна единице.
Поля value
, tag
и pstvNgtvDisagreementRatio
вычисляются по формуле на основе данных исходной разметки.
Значение value
и pstvNgtvDisagreementRatio
округлены до двух знаков после запятой.
Поле tag
рассчитывается из value
по следующему принципу:
tag | Условие |
---|---|
PSTV | value >= 0.55 |
NEUT | value ∈ (-0.35, 0.55) |
NGTV | value <= -0.35 |
Датасет размечается краудсорсингом. В процессе разметки отвечающему предлагается оценить то или иное слово как нейтральное, положительное или отрицательное. Также предусмотрен ответ «не знаю».
Датасет содержит обобщённые данные исходной разметки, включающие количественное соотношение голосов, отданных за каждый
из вариантов. Сумма значений pstv
, neut
, ngtv
и dunno
равняется единице (100% голосов).
Значение поля pstvNgtvDisagreementRatio
приводится для удобства и является показателем рассогласованности между
голосами за положительную/отрицательную тональность. Чем выше значение показателя, тем выше рассогласованность. С
практической точки зрения высокая рассогласованность обозначает, что тональность слова сильно зависит от контекста и/или
от внеязыковой ситуации и положения наблюдателя в ней.
Пользователю предлагается использовать приведённые предрассчитанные показатели value
, tag
и pstvNgtvDisagreementRatio
или рассчитать их самостоятельно на основе собственной модели.
Ссылки на предыдущие версии датасета приводятся для исторических целей, а также для использования в работах, опирающихся на конкретную версию данных.
Текст статьи доступен по ссылке: Открытый тональный словарь русского языка КартаСловСент.
Для библиографических ссылок:
Кулагин Д.И. Открытый тональный словарь русского языка КартаСловСент // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 20, М.: Изд-во РГГУ, 2021. — С. 1106-1119.
For bibliographic references:
Kulagin D.I. Publicly available sentiment dictionary for the Russian language KartaSlovSent // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog” [Komp’yuternaia Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog”], issue. 20, — 2021 — p. 1106-1119.
Данный датасет распространяется по лицензии CC BY-NC-SA 4.0. Простыми словами — вы можете свободно использовать его в личных, научных, исследовательских и любых других целях, не подразумевающих получения дохода коммерческим путём. При этом от вас требуется указать ссылку на лицензию и на этот репозиторий. Производные работы должны распространятся под аналогичной лицензией.
Будем признательны, если вы скинете несколько строк на [email protected] о том, как вы планируете использовать датасет — нам это интересно, как исследователям, и поможет сделать датасет лучше в будущем.
По вопросам использования датасета в коммерческих целях смотрите развёрнутый комментарий: использование данных в коммерческих целях.