品牌安全评分

秒针黑客马拉松

秒针

奖励
500美元
+
秒针实习Offer

美东时间2017年10月28日10:00 AM
比赛结束。

英雄榜

第一名:NOOBS
队员介绍:
Jonathan Liu
Shuheng Li

第二名:ZouJiDaoQi
队员介绍:
Zezhen Qiu
Yue He

第三名:Test
队员介绍:
William Zhang

代码下载(稍后更新)

请登录下载代码

测试数据集 (包含评分)
数据格式为text/plain,字符集为utf-8,返回值为每行一个URL,以\n作为行分隔符。

比赛当天将通过http://hackathon.mzsvn.com/download.php获取数据

本次黑客马拉松的题目十分开放。选手可以使用关键词列表、机器学习等方式进行自动化评分,也可以使用提升标注效率的工具在给定时间内完成人工标注;不管黑猫白猫,抓住老鼠就是好猫。
本次黑客马拉松实际使用的URL均来自中国大陆境内网站。

Python网页爬虫教程下载地址https://github.com/zty9030/web-crawling/blob/master/CrwalURL.ipynb

10月14日Python爬虫教程视频

https://youtu.be/opj-30I8ipw

其他信息参考:
Python:http://cuiqingcai.com/1052.html
R:https://zhuanlan.zhihu.com/p/22940722?refer=rdatamining
R:http://www.jianshu.com/p/543ce849eef6

http://hackathon.mzsvn.com/submit.php

建议以POST形式提交,也可以GET形式提交。字符集为utf-8。提交内容包含鉴权和评分两部分:
鉴权部分参数名为token,参数取值为分配的token;

接口测试期间,统一使用token
iOkjn2dsAl7js4iD

评分部分按下载数据中的顺序排列,参数名为url1至url100,参数取值为评分。
提交内容举例:
token=iOkjn2dsAl7js4iD&url1=80&url2=15&url3=66&…&url100=50
返回值数据格式为text/plain,字符集为utf-8。

附python提交方法:

品牌广告投放时,品牌安全是广告主关注的重点之一。在互联网鱼龙混杂的环境中,广告主不希望自己的品牌常常与低俗、暴力、色情等内容挂上钩;最简单的解释,如果面向准妈妈的奶粉广告出现在宣传暴力内容的页面上,这个广告起到的作用就是负面的。

为了避免类似情况的发生,互联网广告生态圈中的各方都有动机准确识别广告所处的环境是否安全。秒针作为中国领先的互联网广告监测公司,也会致力于使用更好的技术为广告主的品牌安全保驾护航。因此,秒针通过本次黑客马拉松,向全体参赛选手征集解决方案。

丁若谷介绍视频

https://youtu.be/r9IsViChCsI

现有若干组、每组100个URL,均为秒针监测时通过Referrer信息获取的广告所在页面URL。选手需要在180秒内对一组中的URL进行品牌安全评分。

评分取值范围为[0,100]的整数,0表示该页面完全不适合品牌广告投放,100表示该页面完全适合品牌广告投放。同时,主办方对全部URL进行人工标注,获取标准评分,并计算选手评分与标准评分的均方根误差(RMSE),误差较小者胜。

均方根误差(RMSE)的计算方式:对于选手评分Pi和标准评分Si,有

第一名团队:$400美元 + 秒针实习Offer
第二名团队:$100美元 + 秒针实习面试 + 数问工作直推
第三名团队:秒针实习面试 + 数问工作直推

本次黑客马拉松共有9次提交机会,如下表所示:

阶段时间备注
准备10:00 – 10:27
Leaderboard 110:27 – 10:30
调整10:30 – 10:57
Leaderboard 210:57 – 11:00
调整11:00 – 11:27
Leaderboard 311:27 – 11:30
调整11:30 – 11:57
Leaderboard 411:57 – 12:00
休息12:00 – 13:00
调整13:00 – 13:27
Leaderboard 513:27 – 13:30
调整13:30 – 13:57
Leaderboard 613:57 – 14:00
调整14:00 – 14:27
Leaderboard 714:27 – 14:30计入成绩
调整14:30 – 14:57
Leaderboard 814:57 – 15:00计入成绩
调整15:00 – 15:27
Leaderboard 915:27 – 15:30计入成绩

在比赛之前是接口测试时间。

接口测试期间可以重复提交;正式提交期间每个Leaderboard仅允许提交一次

Leaderboard 1-6不作为评价依据,仅供参赛选手参考。Leadboard 7-9三次提交中,取成绩最好的一次作为最终成绩。每次提交机会均使用不同的100个URL。

秒针作为中国领先的全域营销数据与技术服务提供商,目前致力于通过客观、真实的数据,创新、完善的技术解决方案,帮助企业获得敏锐的洞察力及卓越的运营能力。秒针系统为超过70%的全球百强品牌提供过个性化的智慧商业解决方案。