Skip to content

Bangumi 番组计划(bgm.tv)评分透视数据快照备份(仅VIB有数据的条目)

Notifications You must be signed in to change notification settings

Jirehlov/VIB_Snapshots

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

VIB_Snapshots

简介

本项目旨在对 Bangumi 番组计划(bgm.tv)中 VIB(Very Important Bangumier)有数据的条目的评分透视数据进行快照备份。

API及其相关

我们提供查询单个 subject 部分最新数据的接口。
API 接口形如 https://api.jirehlov.com/vib/{subject_id},其中{subject_id}为所要查询的条目的 id。详见发布于 Bangumi 番组计划的帖子。但如果您要做批量数据处理,希望您能够下载 CSV 以避免无谓的 API 负载。最新的 CSV 可在此下载。
服务器日志公开于Telegram频道
凡部署于我的域名 *.jirehlov.com 下的服务皆受到 Cloudflare 的保护。如果您的访问请求被拦截,请尝试更换网络环境。

项目版本号与更新日志

3.0.1 (20250305)

【服务端】重置跳过列表,并修复了一些bug。

3.0 (20241028)

【服务端】重置跳过列表,并删去了依据HTML的数据解析逻辑,改用事后计算。

2.8 (20240729)

【服务端】增加对进度文件的备份。

2.7.2 (20240718)

【CSV】根据 RFC 4180 所引 RFC 2046 的意见,重新确定换行符为CRLF。并把历史 CSV 都改为了CRLF(如果不是)。

2.7.1 (20240718)

【CSV】确定换行符为LF。并把历史 CSV 都改为了LF(如果不是)。

2.7 (20240714)

【CSV】编码改为UTF-8 with BOM,解决了 Excel 打开乱码的问题。

2.6.1 (20240711)

【服务端】重置跳过列表,并且增加了跳过计数阈值,优化循环。

2.6 (20240710)

首次公开版本号。

CSV格式详解

编码格式:UTF-8 with BOM
引号类型:"
分隔符类型:,
MIME类型:text/csv
换行符:CRLF

列标 释义 来源 列数始末(0起)
subject 即条目的 id,与 Bangumi 官方 api 的 id 释义同。 N/A 0
类型 即条目类型,与 Bangumi 官方 api 的 type 释义同。1 为书籍,2 为动画,3 为音乐,4 为游戏,6 为三次元。 官方 API 1
标题 即条目名,与 Bangumi 官方 api 的 name 释义同。 官方 API 2
中文标题 即条目中文名,与 Bangumi 官方 api 的 name_cn 释义同。若为空,则以标题作中文标题的值。 官方 API 3
VIB评分 VIB 评分数据的加权平均数。 基于第 7-16 列计算 4
VIB标准差 VIB 评分数据的标准差。 基于第 7-16 列计算 5
VIB评分数 VIB 评分数据的样本数,即评分人数。 基于第 7-16 列计算 6
1.1、2.1、3.1、4.1、5.1、6.1、7.1、8.1、9.1、10.1 VIB 评分数据,依次是评分为 1、2、...、10 的频数。 官方透视 7-16
表面评分排名 站内常用表面评分的排名,与 Bangumi 官方 api 的 rating 下的 rank 释义同。 注意:本字段为获取时的官方值,并未做本地计算,因此可能存在多个条目排名相同的情况。因为时间跨度足够大时,官方进行了多轮复排。 官方 API 17
表面评分数 站内常用表面评分数据的样本数,即评分人数,与 Bangumi 官方 api 的 rating 下的 total 释义同。 官方 API 18
表面评分 站内常用表面评分数据的加权平均数,与 Bangumi 官方 api 的 rating 下的 score 释义同。 基于第 20-29 列计算 19
1.2、2.2、3.2、4.2、5.2、6.2、7.2、8.2、9.2、10.2 站内常用表面评分数据,依次是评分为 1、2、...、10 的频数,与 Bangumi 官方 api 的 rating 下的 count 释义同。 官方 API 20-29
是否被锁定 与 Bangumi 官方 api 的 locked 释义同,布尔值。TRUE则被锁定,FALSE则未被锁定。 官方透视 30
发布发售放送时间 与 Bangumi 官方 api 的 date 释义同。 官方 API 31
NSFW 与 Bangumi 官方 api 的 nsfw 释义同,布尔值。TRUE则为 NSFW,FALSE则不是 NSFW。 官方 API 32
子类型 与 Bangumi 官方 api 的 platform 释义同。 官方 API 33
搁置、抛弃、想、已、在 与 Bangumi 官方 api 的 collection 释义同。 官方 API 34-38
is1、is2、...、is50 透视中的其他数据。按收藏类型分布。每5个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为(含义未知,隐藏?想看/读/听/玩?)、看/读/听/玩过、在看/读/听/玩、搁置、抛弃。做通用数据处理时,可 mod 5。若源为空,则皆为 0。 官方透视 39-88
ad1、ad2、...、ad30 透视中的其他数据。按放送时间分布。每3个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为放送前、放送中、放送结束。做通用数据处理时,可 mod 3。若源为空,则皆为 0。 官方透视 89-118
tc1、tc2、...、tc80 透视中的其他数据。按用户收藏量分布。每8个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 1、10-、10+、50+、100+、200+、500+、1000+。做通用数据处理时,可 mod 8。若源为空,则皆为 0。 官方透视 119-198
rd1、rd2、...、rd70 透视中的其他数据。按用户注册时间分布。每7个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 10 天、1 月、6 月、1 年、2 年、3 年、>3 年。做通用数据处理时,可 mod 7。若源为空,则皆为 0。 官方透视 199-268
qd1、qd2、...、qd70 透视中的其他数据。按用户评价时间(注册 X 天内评分)分布。每7个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 10 天、1 月、6 月、1 年、2 年、3 年、>3 年。做通用数据处理时,可 mod 7。若源为空,则皆为 0。 官方透视 269-338
更新时间 VIB 相关字段被更新的时间,时区为UTC+0,格式为%Y-%m-%dT%H:%M:%SZ。注意这有时不是其他字段的更新时间。 N/A 339
表面标准差 站内常用表面评分数据的标准差。 基于第 20-29 列计算 340
VIB朴素排名 VIB 评分的类型内升序排序后的名次。 基于第 4 列计算 341
类型内VIB总平均分 计算 VIB 加权排名的中间量。 基于第 4 列计算 342
类型内前250的最小VIB评分数 计算 VIB 加权排名的中间量。 基于第 6、231 列计算 343
类型内加权VIB平均分 计算 VIB 加权排名的中间量,依照此处计算。 基于第 4、6、232、233 列计算 344
VIB加权排名 根据类型内加权 VIB 平均分升序排序后的名次。 基于第 234 列计算 345

注意

  1. 本 CSV 编码为UTF-8 with BOM,注意文件开头 subject 前的三字节EF BB BF。较老的副本编码为不带 BOM 的UTF-8,如果 Excel 乱码请自定义导入编码。
  2. 被锁定的和表面评分为 0 的条目因为不参与排名,其第 341、342、343、344、345 列将不会被计算,将为 0。
  3. 本 CSV 经过若干次扩充和格式修改,如果以上规则不符合历史版本,请以最新版为准。“透视中的其他数据”各行可能因为透视改版而变动,且因为 VIB 不存在的条目不会被更新,如果做纵向数据处理,请注意跳变。
  4. 本仓库将历史 CSV 用sorted_%Y%m%d%H%M%S.csv的格式命名,其中时间为 CSV 的生成时间戳,其时区通常为UTC+8,但并不保证,不应作为参考。请依照第 339 列更新时间为准。
  5. 本仓库将过早的历史 CSV 打包为 7z,一般情况半年打包一次,参考文件名识别。
  6. 如果某条目因为各种原因失去了 VIB 数据,其依然会留在 CSV 中。
  7. API 接口是疏于维护的,核心维护的精力在于 CSV 与本仓库。

版权声明

  1. 条目信息继承官方授权许可,依照 Bangumi 番组计划版权声明,遵循 CC BY-SA 3.0
  2. 数据信息授权许可遵循 CC BY-SA 4.0
  3. 本仓库数据获取遵循 Bangumi 开发者平台使用协议

About

Bangumi 番组计划(bgm.tv)评分透视数据快照备份(仅VIB有数据的条目)

Topics

Resources

Stars

Watchers

Forks