白银表友
  
- 认证:

勋章:
认证表主
腕表之家注册会员都可以申请 [详情]
◆
◇
|
47028
浏览
/
64
回复
[数据分析贴] 对劳坛帖子的一些数据分析
楼主
发表于广东广州 2019-3-30 11:16:12
[来自Android客户端]
|
只看该作者
|倒序浏览
最近换了工作岗位,被老大安排去搞数据分析。由于之前没有接触过,所以先练练手。想到之家里劳坛讨论、发帖之热烈,自然觉得这是一个很好的数据源。因此,采集了劳力士论坛里面,从19年3月29日往前大概30000篇(大致估算)帖子的内容(不包含评论),用来训练算法模型,做词频统计和语义分析。目前暂时得出一些词语频率的统计,在此和各位表友分享一下。
PS.因为刚入数据分析的坑,写的分析代码可能不太好,部分数据都应该存在漏算或者重复计数的情况,但对总体分布影响应该不大,大家就了解一下大致,不能作为准确数据。
PSS.不要说我统计这些数据很无聊,只是拿来练手,也为工作做技术储备,又能将将成果反馈给表友,是利己乐人的一件事哈。
跑完程序,没有出错!
首先是劳力士各个系列的分布,尽可能将一些我们口语昵称归类,比如“黑鬼”归类到潜航者一类。(探险家的数据有问题,词典做得不好,有些昵称没有收录到,数字型号也没有收录)ps:补充一个数据 空中霸王型:420
一些常见机芯型号在帖子里提及的分布
“咸甜党”类型提及次数的对比
国内地区提及次数的分布(只列出较常见城市和省份)
国外地区提及次数的分布。因为对部分国外城市不了解,无法做到从城市归类到国家。
常见争议提及数量
其他比较高频的词语。为什么要加上“老婆”,因为发现很多表友购表都要跟家里那位斗智斗勇,所以加上这个数据让大家乐呵一下哈哈。
|
|