知乎程瀚 知乎核心用户大数据报告:你知道知乎的男女比例是多少吗?

2018-02-21
字体:
浏览:
文章简介:我的爬虫规则是这样的:从关注量上万的知乎大V中随机抽取10个作为种子,依次爬取其关注的人,再从其关注的人爬取关注的人的关注的人,如此递归.也

我的爬虫规则是这样的:从关注量上万的知乎大V中随机抽取10个作为种子,依次爬取其关注的人,再从其关注的人爬取关注的人的关注的人,如此递归。也就是说爬虫的规则保证了进入数据库的每一个人至少有一个关注者。以下的数据分析均来自于爬虫所得到的资料,所以要是报道上面出了偏差,还请大家见谅。

首先是对知乎用户的职业描述进行词云分析,列出前一百的高频词,结果如下。 在职业描述中进行高频词分析,“互联网”以4552次频率完胜,然后是”大学“紧随其后,其频率是2163。这和我们平时所看到的互联网从业者和名校学生占领内容输出的主力一致。这一百个高频词也囊括了知乎用户的兴趣,居住地等信息,不过这些我们以后还会仔细分析。

我们先来看看知乎的各种“最”。最高赞同数,最多关注者,写得最多答案,参与了最多Live的人,分别是哪些呢?

首先是最高赞同数的排行榜。 在赞同数上面,@张佳玮 老师以一己之力超越了第二名一倍不止,可谓是稳拿的冠军。然后前五名是@肥肥猫 ,@朱炫 ,@唐缺 ,@马前卒 。轮子哥排在了第六名。

然后我们来看最多关注者排行榜。 在关注者排行榜上,@张佳玮 老师还是遥遥领先于@李开复 老师。再往后走就是知乎的大佬@黄继新 和@周源 ,再往后是@yolfilm 。

我们再来看写的答案最多排行榜。

@Phil 以极高的产量勇夺答案数最高Top1,而素有”轮带逛“之称的@vczh 只能屈居第二。排行前五的有@王若枫 、@柴健翌 、@zhen-liang 等大V。

再来看看提问最多排行榜。 @David Chang 以2648个提问排行第一,以未来知识图谱闻名的@图灵Don 排行第二。排行前五的还有@歆盐 ,@程瀚 、@张亮 。

参与Live最多排行榜。 @峰仔 同学以参与了392个Live荣居榜首,排在前五的还有@Raymond Wang ,@周源 ,@杨坚 、@陈雨桐 。

然后是BAT三厂的员工数量比较,这个比较基于爬取到的的用户职业描述词频进行统计。 可以看到鹅厂员工在知乎比例最高,阿里次之(词频:0.004554),熊厂稍稍落后。

都说知乎是985/211满天飞的地方,那么清北复交浙到底哪家强呢?

可以看到北京大学和清华大学的词频不相上下,后面那三位还需加把劲啊。

在移动智能时代,Android、iOS、WEB前端工程师在当今软件开发中简直大放异彩。那么知乎哪一种程序员最多呢? 结果是前端词频远高于Android和iOS,其实差那么一点点就是Android和iOS的和了。这么说吧,你可能是坚定乔布斯less is more信念的果粉,也可能是拥抱开源的Android粉,可是所有人都需要浏览网页,不是吗:)

然后我还比较好奇知乎用户的普遍兴趣爱好是什么。 结果发现健身独占鳌头般占领榜首。看来知乎上还是普遍推崇健身提高颜值提高自身吸引力。可是为什么阅读的比例是最底的呢?为此我只能假设知乎上的同学学习效率都比较高,在完成基本的阅读任务后去了另外的领域探索更大的世界。又或者说阅读,相对于旅游健身摄影来说,对于提升自身的价值性价比并不是很高,因而大家更倾向于去健身房,去旅游,去拍照吧。

知乎用户地域分布。 词频集中分布在北上广深杭四川浙江江苏等地方。和个人的主观印象是相似的。毕竟以上颜色较深的都是互联网行业比较发达的省份。

然后就是大家最关心的知乎男女比例问题了。

在爬到的用户数据中,男性比例占了67.8%,女性只占了32.2%。也就是说男女比例比2:1还要大。 看到这里,你可能会反驳我说知乎初始用户的性别就是男性啊,这样子搞个大新闻是不行的。我也觉得挺有道理的,于是进一步筛选了核心中的核心部分用户,筛选条件为粉丝数大于200且赞同数大于400的用户,这下采样应该准确了吧。

然后有了下图。 女性的比例降到了30.1%,男性比例相应为69.9%。这个数据比之前的数据更为不平衡。所以说女性用户在知乎更为稀缺,也显得更为珍贵。

所以,与其说知乎是一个高质量的问答社区,还不如说: