2022年6月
官网现提供三个时间段的用户下载日志数据:
官网也提供一份完整的 Sci-Hub 文章列表:
一份更新于2022年2月12日的完整 Sci-Hub DOI 清单, sci-hub-doi-2022-02-12.txt
,下载下来的数据包大小约478Mb,解压后约2.2Gb。
一份更新于2022年5月30日的 Sci-Hub 的文章的元数据,scimag_2020-05-30.sql.gz
,下载下来的数据包大小约9.64Gb。
导入数据后,一般先head()
、tail()
、str()
、summary()
看看,数据中有几个字段,都是什么类型,有无缺失(缺失比例),每个字段的大致取值范围。view()
time | doi | ip | user | country | city | latitude | longitude |
---|---|---|---|---|---|---|---|
2017-01-01 00:09:30 | 10.1007/s00134-016-4523-0 | 583 | 671 | China | Beijing | 39.904211 | 116.407395 |
2017-01-01 00:03:27 | 10.1080/15567036.2015.1057657 | 271 | 298 | China | Shanghai | 31.230416 | 121.473701 |
2017-01-01 00:09:52 | 10.1002/ejoc.201601322 | 604 | 692 | China | Dingxi Shi | 35.580663 | 104.626282 |
时间(time)字段踩到了一个坑:
>min(data$time) [1] "2017-01-01 UTC" >max(data$time) [1] "2017-12-31 23:59:59 UTC"
坛友 yufree :定西市没有知名研究机构,不太可能是自然流量(非自然流量趋势相对平缓)。
坛友 nan.xiao :IP 地理位置映射错误。
坛友 tctcab :定西流量来源于深圳。
定西流量来源于兰州
读者解伟:中科院兰州文献情报中心
读者汪舟:兰州大学榆中校区
都在1月底2月初出现波谷,正好对应中国传统春节假期的时间。
都缺失4.21日至4.29日以及10.7日至10.29日的数据,都在12.16日出现最小值(与 Sci-Hub 全站流量一致)。
都有明显的周期性波动。
104.626282,35.580662
、104.626282,35.580663
,坐标反查得到的地址是“甘肃省定西市安定区永定西路39”116.407395,39.904211
贡献约340万下载量- | IP | 用户数 | 城市数 | 国家数 | 纬度数 | 经度数 |
---|---|---|---|---|---|---|
最小值 | 1 | 1 | 1 | 1 | 1 | 1 |
1/4分位数 | 4199748 | 1 | 1 | 1 | 1 | 1 |
中位数 | 8462909 | 1 | 1 | 1 | 1 | 1 |
平均值 | 8503853 | 3.73 | 1 | 1 | 1 | 1 |
3/4分位数 | 12786557 | 2 | 1 | 1 | 1 | 1 |
最大值 | 17208864 | 170723 | 1 | 1 | 1 | 1 |
IP(12247800),对应的国家是荷兰,城市是阿姆斯特丹
IP 字段来源于 IP 地址,仅提取了原来的 IP 地址所代表的地理位置信息。
USER 字段才是由每一个登录 Sci-Hub 网站的设备留下的 IP 地址所转化而来。
IP 和 USER 的关系相当于网络路由和设备。在一个局域网内,会出现一个 IP(路由)对应多个 USER(设备)的情况。
流量上涨倍数
IP上涨倍数
按 IP 计算天数
按 IP 计算天数
按 IP 及 USER 计算天数
显然定西“IP与USER一对多”中既有自然流量也混入其他,不能仅以“IP与USER对应关系”来判断是否全为自然流量
按 IP 和 USER 计算天数
定西之谜的谜题
探索分析得到的线索
本咸鱼的结尾
DOI
引入各城市或地区的教育科研投入经费、大学生人数、科研从业人数等,从更多维度上进行交叉验证
拆分出工作日、周末或节假日,或计算 IP、USER 的时间跨度作进一步观察
北京2017-08-16日的流量组成
身在深圳的人会不会使用 Sci-Hub?
在 1-4月的24小时流量趋势:
在5-12月的24小时流量趋势: