92

主题

698

帖子

5683

积分

白银表友

Rank: 9Rank: 9Rank: 9

认证:

勋章:

  • 认证表主

    腕表之家注册会员都可以申请 [详情]

    31363 浏览 / 65 回复
    [数据分析贴] 对劳坛帖子的一些数据分析
    楼主
    发表于广东广州 2019-3-30 11:16:12 [来自Android客户端] | 只看该作者 |倒序浏览
    最近换了工作岗位,被老大安排去搞数据分析。由于之前没有接触过,所以先练练手。想到之家里劳坛讨论、发帖之热烈,自然觉得这是一个很好的数据源。因此,采集了劳力士论坛里面,从19年3月29日往前大概30000篇(大致估算)帖子的内容(不包含评论),用来训练算法模型,做词频统计和语义分析。目前暂时得出一些词语频率的统计,在此和各位表友分享一下。
    PS.因为刚入数据分析的坑,写的分析代码可能不太好,部分数据都应该存在漏算或者重复计数的情况,但对总体分布影响应该不大,大家就了解一下大致,不能作为准确数据。
    PSS.不要说我统计这些数据很无聊,只是拿来练手,也为工作做技术储备,又能将将成果反馈给表友,是利己乐人的一件事哈。

    跑完程序,没有出错!



    首先是劳力士各个系列的分布,尽可能将一些我们口语昵称归类,比如“黑鬼”归类到潜航者一类。(探险家的数据有问题,词典做得不好,有些昵称没有收录到,数字型号也没有收录)ps:补充一个数据   空中霸王型:420



    一些常见机芯型号在帖子里提及的分布



    “咸甜党”类型提及次数的对比



    国内地区提及次数的分布(只列出较常见城市和省份)



    国外地区提及次数的分布。因为对部分国外城市不了解,无法做到从城市归类到国家。



    常见争议提及数量



    其他比较高频的词语。为什么要加上“老婆”,因为发现很多表友购表都要跟家里那位斗智斗勇,所以加上这个数据让大家乐呵一下哈哈。




    0

    主题

    13

    帖子

    1345

    积分

    初级表友

    Rank: 5Rank: 5

      沙发
      发表于广东广州 2019-3-30 11:18:53 [来自iPhone客户端] | 只看该作者
      哈哈哈哈哈

      2

      主题

      987

      帖子

      2061

      积分

      中级表友

      Rank: 6Rank: 6

        板凳
        发表于北京 2019-3-30 11:24:00 | 只看该作者
        “理性”才被提及33次?不能吧,理性哥一人起码说了上千次。理性玩表,理性买表,钱包舒坦,自己舒坦。

        42

        主题

        1210

        帖子

        3483

        积分

        禁止发言

        勋章:

        • 元老勋章

          注册时间9年以上并且发帖数大于100 [详情]

          地板
          发表于江苏常州 2019-3-30 11:26:50 [来自iPhone客户端] | 只看该作者
          提示: 作者被禁止或删除 内容自动屏蔽

          92

          主题

          698

          帖子

          5683

          积分

          白银表友

          Rank: 9Rank: 9Rank: 9

          认证:

          勋章:

          • 认证表主

            腕表之家注册会员都可以申请 [详情]

            5#
             楼主| 发表于广东广州 2019-3-30 11:27:18 | 只看该作者
            平林漠漠 发表于 2019-3-30 11:24
            “理性”才被提及33次?不能吧,理性哥一人起码说了上千次。理性玩表,理性买表,钱包舒坦,自己舒坦。{:1_ ...

            因为没有采集帖子的评论,而且代码写不好,会有漏掉的

            92

            主题

            698

            帖子

            5683

            积分

            白银表友

            Rank: 9Rank: 9Rank: 9

            认证:

            勋章:

            • 认证表主

              腕表之家注册会员都可以申请 [详情]

              6#
               楼主| 发表于广东广州 2019-3-30 11:27:43 | 只看该作者
              猪重肥 发表于 2019-3-30 11:18
              哈哈哈哈哈
              [来自iPhone客户端]

              乐呵一下六个字

              5

              主题

              1544

              帖子

              7238

              积分

              禁止发言

              认证:

              勋章:

              • 认证表主

                腕表之家注册会员都可以申请 [详情]

                7#
                发表于浙江绍兴 2019-3-30 11:31:25 [来自iPhone客户端] | 只看该作者
                提示: 作者被禁止或删除 内容自动屏蔽

                15

                主题

                3168

                帖子

                7373

                积分

                禁止发言

                认证:

                勋章:

                • 认证表主

                  腕表之家注册会员都可以申请 [详情]

                  8#
                  发表于英国 2019-3-30 11:36:05 [来自iPhone客户端] | 只看该作者
                  提示: 作者被禁止或删除 内容自动屏蔽

                  15

                  主题

                  3168

                  帖子

                  7373

                  积分

                  禁止发言

                  认证:

                  勋章:

                  • 认证表主

                    腕表之家注册会员都可以申请 [详情]

                    9#
                    发表于英国 2019-3-30 11:37:15 [来自iPhone客户端] | 只看该作者
                    提示: 作者被禁止或删除 内容自动屏蔽

                    92

                    主题

                    698

                    帖子

                    5683

                    积分

                    白银表友

                    Rank: 9Rank: 9Rank: 9

                    认证:

                    勋章:

                    • 认证表主

                      腕表之家注册会员都可以申请 [详情]

                      10#
                       楼主| 发表于广东广州 2019-3-30 11:44:06 [来自Android客户端] | 只看该作者
                      表中宝沃 发表于 2019-03-30 11:37
                      你又贡献了四次!
                      谢谢老哥支持!没有采集评论内容,所以不算数的哈哈。而且之后的帖子不采集了。
                      您需要登录后才可以回帖 登录 | 立即注册

                      分享到 更多
                      返回顶部