首页 > 竞赛 > 竞赛详情

微博热度预测 算法竞赛
竞赛已结束。你可以报名参赛,并提交得到排名,但不会获得实物奖励。
¥50000

参赛队伍: 739

参赛人数: 1161

作品提交数: 1181

竞赛背景

互联网新媒体的诞生极大促进了信息的广泛传播,尤其是微博的兴起,更是推动了自媒体时代的发展。依赖信息广泛传播的各行业,如广告业、新闻业,乃至个人,无不希望自己发布的信息能够得到广泛的关注。 近些年,一些研究表明,一条微博发出以后,只需要观察其在之后一小段时间内的转发情况,它的传播规模便可以被预测。但是不同类型的微博会有不同的传播方式,比如明星晒一张生活状态就能得到众多粉丝的热捧,具有较大的传播广度,但是往往在传播深度上稍显不足;相比之下,一些被广泛讨论的新闻类微博往往具有较深的传播深度。也有统计结果显示,一些谣言往往会得到大规模的传播,辟谣类的消息反而得不到广泛关注。不仅如此,我们在热门微博中能看到不少正能量的信息,同时也能看到一些话题被持正反两种不同意见的人掀起讨论热潮。简而言之,微博初期的传播速度、用户关系、信息类型、内容情感等特征都是影响微博传播规模和深度的重要影响因素。 为预测微博的传播规模,我们收集了大约1-3万条微博及其它们的转发微博,希望参赛者能够结合微博用户的关注关系、微博的内容类型和情感分析以及初期的传播模式,来预测微博的传播规模(传播规模定义:源微博一共有多少人转发)和传播深度(传播深度定义:源微博到其他转发微博的最长距离)。

奖项

本次比赛共设排名奖5名,奖励终极排行榜排名前五的队伍。各名次奖金设置如下: 终极排行榜第一名——30,000元人民币&证书 终极排行榜第二名——10,000元人民币&证书 终极排行榜第三名——5,000元人民币&证书 终极排行榜第四名——3,000元人民币&证书 终极排行榜第五名——2,000元人民币&证书 主办方同时为优秀人才提供高级算法工程师等职位。 说明:奖金为税前金额,由参赛者承担相应税费。获奖证书每人一份。

时间安排

1. 报名参赛&初赛提交[8月26日~10月27日] 数据:微博转发数据(包含匿名化的用户名)、用户之间的关注关系、微博内容等数据 任务:参赛者通过DataCastle自行报名和组队,下载竞赛数据,预测测试集中微博的传播规模和传播深度。 2. 决赛提交[10月29日,当天4小时,20点~24点] 数据:主办方卧龙大数据抓取决赛前一日中午12点~决赛当日16点新产生的微博(数据类型及各式同初赛),由主办方处理完毕后,交由DataCastle对外发布。 任务:参赛者通过应用模型,分析已抓取好的近期微博数据(类别及内容同初赛),预测微博传播未来3天的传播规模和传播深度。 3.成绩评定[11月2日~11月18日] 竞赛线上排行榜成绩=初赛环节成绩*0.4+决赛环节成绩*0.6。 因竞赛初赛和决赛均为线上提交,且无线下答辩环节,为保证竞赛的公正、公平性和成绩的有效性,特增设代码验证和成绩评定环节。 因预测截止时间迟于决赛提交截止时间,成绩将根据11月1日真实的传播规模和传播深度,进行评定。 11月7日 公布决赛环节成绩。 11月8日~11月13日收集成绩验证材料。主办方将根据线上排行榜,收取前10名参赛队的竞赛方案说明文档、代码和代码说明,进行验证。验证通过的队伍获得相应奖金及证书,未通过参赛队将对外公布未通过原因。 11月14日~11月18日 卧龙进行代码验证,产生并公布最终排名。 4.竞赛奖励颁发[11月21日~11月25日] 竞赛最终排名公布后,DC小运营将通过银行转账的方式,发放竞赛奖金,并邮寄认证证书给每位参赛队员。 PS:此竞赛旨在为大家提供“数据分析和建模”方面竞技的机会,请大家不要通过“去匿名化”或其他投机的方法提高竞赛成绩。如发现违规行为,取消参赛资格,成绩无效。

参赛与组队规则

所有参赛人员及队伍,视为已同意《DC竞赛作弊管理规则》及其他相关规定。队长对其队员的参赛行为负责。 本次竞赛,个人参赛或团队参赛均可,参赛队人数上限为5人(含5人)。 初赛&决赛阶段,各参赛队每天有效提交次数为2次。 因决赛预测的传播截止时间在参赛者提交截止时间之后,参赛者提交后无法马上看到决赛成绩。DC将保存各队的最后一次提交,与真实传播规模和深度进行比对,得出决赛成绩。 团队人数上限5人。 在第一阶段的最后3天无法新建队伍,但是可以加入其它队伍。 在最后一个阶段最后3天无法新建队伍,无法加入队伍。 竞赛进入历史阶段后解除一切限制,注意:答辩队伍成员仅限活跃期间加入的成员。

评分标准

评分算法
regression
评分标准
[注意]微博传播深度计算说明: 以源微博的用户为起点,计算转发链上其他节点到源节点的距离,最长距离就是此微博的传播深度。 举个例子,假如源微博用户是a,用户b从a处转发了微博,用户c从b处转发了微博,用户d又从c处转发了微博,那么微博传播就是a->b->c->d,深度就为3。 但是需要注意三点! 第一点:一个用户可能从多个源都做转发,比如在之后的时间里,c从d处进行了转发,或者a又从c处做了转发,在这种情况下,深度并不增加;同样的,若源微博用户a再次转发了自己的微博,深度也不增加。 第二点:若在转发链为a->b->c->d中,出现了新的用户e,从a转发了微博,然后又从d处转发了一次:对于这种情况,我们认为转发链的深度并没有增加,因为e已经被认定为距离a只有1步,此时再从d处转发,并没有实际深度的增加。但需注意,若e先从d处转发,此时传播深度便需要加1,之后e再从a处转发,深度不会降低。 第三点:在数据采集过程中,由于各种原因(比如新浪自动截断、用户手动删除、采集遗漏等),转发链可能出现中断,继续采用上面的例子,假如用户e可能从a、b、c或d中做了转发,但是训练集中没有这一纪录,反倒是有用户f从e处转发了此微博,也就是说无法得知用户e的父亲节点,导致深度计算出现问题。为解决这一问题,我们在计算深度的时候,默认添加从a到e的转发关系,于是从a到e的距离就为1,到f的距离为2。

竞赛论坛 技术共享 官方QQ群

快分享给朋友吧!

用户
反馈

扫一扫分享给周围朋友