2016ccf搜狗年龄怎么分类

分成147(3*7*7)类, 后来觉得这样效果不好,后来看了看竞赛要求的也是分别预测,分别评分,而不是一次就把3类的标签都给出
所有后来我们改进了当时的想法,决定对年龄,性别,学历进行分别预测
我们先对所有的单词进行分类,分成比如体育,经济,教育等等,一些大类别,然后看看每个用户搜索的关键词属于哪一类。作为特征
后来,因为无法确定分为多少类,,所以否定了这个想法。
Step1:进行文本分词处理,提取出搜索词中的关键词;
Step2:建立向量空间模型 (1)权值计算(布尔权值,词频权值,TF/IDF,TFC,ITC等方法)
(2) 向量相似度量(内积,绝对值距离,切比雪夫距离等) ;
Step3:对文本进行分类(概率分类器,决策树分类器,神经网络分类器等)
Step4:进行数据测试,根据给定的查询词,首先也对它先分词,提取关键词,然后和一个大类进行相关性测量,
VSM中的(两个向量的夹角越小说明关联度越大),然后决定出它是属于哪一个类,
之后再和这个类别下的关键词进行相关性对比,然后逐个决定出人物属性(年龄,性别,学历)
确定了思路之后,我用skleran 这个机器学习包进行了实现。
&初赛思路v1:
一 Preprocessing
1分词 采用结巴分词
2数据清洗,删掉缺失数据,例如数据中的未知(标签为0)
二 Feature extraction
? 1 countvector:计算词频
2 tfidfvector: 计算tfidf作为权重值
3 hashvector: 利用hash 算法将单词映射到向量空间
三 Feature selection ?
选择特征的数量,也就是数据矩阵的维度。v1没有使用算法,直接指定特征的维度。
四 Feature union
初赛中没有使用特征融合?
五 Model selection
SVM 效果最好
六 Model Evaluation and Optimization
利用准确率衡量分类的结果
&初赛思路v2:
在特征提取的时候,我们担心数据过拟合,所以进行特征选择
我们的特征选择的方法主要是卡方跟LDA主题模型
但是经过测试,LDA+TFIDF的效果不如单纯的tfidf
TFIDF+卡方的效果稍好一点点
特征提取我们也试过n-gram效果也不是很好
&最终初赛思路(v2):
1.jieba分词
2.特征提取:tfidf
3.特征选择:卡方
4.分类:SVM
阅读(...) 评论()数字图书馆
专业委员会
  中国计算机学会(CCF)成立于1962年,全国一级学会,独立社团法人,中国科学技术协会成员。
中国计算机学会是中国计算机及相关领域的学术团体,宗旨是为本领域专业人士的学术和职业发展提供服务;推动学术进步和技术成果的应用;进行学术评价,引领学术方向;对在学术和技术方面有突出成就的个人和单位给予认可和表彰。
2016年度CCF优秀博士学位论文奖评奖结果公告
阅读量:<span id="hitcount8
中国计算机学会本年度共收到20所高校或研究机构及理事推荐的36篇博士学位论文。根据同行专家的函评意见,评奖分委员会确定20篇推荐论文入围候选CCF优秀博士学位论文并进行了公示。由CCF优秀博士学位论文奖评奖分委员会组成评选小组,对20篇入围论文进行了终评。评选小组评选出获奖候选论文并提交CCF奖励委员会终审。经CCF奖励委员会终审,最终9篇论文获奖,名单附后。特此公告。中国计算机学会日2016年度CCF优秀博士学位论文奖名单(以得票由高到低排序。得票相等时,按作者姓氏拼音为序)姓名论文题目培养单位导师陆游游&闪存文件系统的关键技术研究&清华大学舒继武罗 勇&针对小标注样本量的图像分类研究&北京大学许 超任 堃&分布式数据库系统中确定性事务执行策略研究&西北工业大学李战怀吴陈沭&基于群智感知的无线室内定位&清华大学刘云浩严骏驰&图匹配问题的研究和算法设计&上海交通大学查宏远杨怡玲&基于分布谓词检测的开放环境感知技术研究&南京大学吕 建窦文生&基于单元阵列的电子表格计算语义错误检测与修复&中国科学院大学魏 峻杜子东&神经网络加速器研究&中科院计算所陈云霁江俊君&基于一致流形学习的人脸超分辨率算法研究&武汉大学胡瑞敏
<<< 上一篇
<<< 下一篇&
版权所有 中国计算机学会技术支持:
联系电话: (+86)10 邮件:ccf@京ICP备号-4京公网安备25号
网站建议或者意见请发送邮件:suggest@2016&CCF大数据与计算智能大赛&开源资料整理
大数据与计算智能大赛已经落下帷幕,11个赛题由众多大神包揽奖项,其中有些还在赛后开源了比赛资料,现将目前已知的资料整理如下,供各位同学一起参考学习。若有意公开自己的比赛资料或者发现整理的列表中有遗漏的,可以联系我(金陵书生,&&)补充修订。有问题也可在群里讨论。部分比赛PPT已经放到大数据比赛交流群,请在群文件里查看。
1)O2O 赛题
wepon、天音和charles提供的CCF O2O比赛第一名的全套代码和资料:
2)农产品价格预测赛题
CCF农产品价格预测线上rank2代码,感谢 xing89qs&
线上第5,决赛答辩逆袭为第1名的团队,只有代码没有任何说明。
复赛第35名的团队:
3) 客户用电异常行为分析
线上第4名的代码。这个队伍非常强悍,只提交很少的几次,而且最后3天都没提交,还一直前5名。同时,他们还是搜狗比赛的二等奖。
4)搜狗的用户画像比赛
线上第3名的TNT_000,同时也是上面客户用电异常行为分析比赛的二等奖。目前代码库是空的,但是我跟他们联系确认过了,元旦后他们会开源,因此先放上地址。
线上第5名的The
Right队伍的代码和决赛答辩PPT,而且他们还给出了数据下载地址,大赞。同一个团队的几个人分别开源了,链接如下:
复赛第14名的团队:
5)联通的用户轨迹赛题
不确定名次:
6)Human or Robot
决赛第6名,很可惜的团队
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。2016CCF大数据与计算智能大赛启动_网易新闻
2016CCF大数据与计算智能大赛启动
用微信扫码二维码
分享至好友和朋友圈
(原标题:2016CCF大数据与计算智能大赛启动)
中国经济网北京9月25日讯 (记者 徐红)由中国计算机学会(CCF)主办的大数据及人工智能领域算法挑战及创新创业大型赛事——“2016 CCF大数据与计算智能大赛”9月24日在北京启动。
中国经济网记者从本次大赛启动会上了解到,数据驱动的智能时代正在到来,就是利用机器学习,统计分析的方法,从数据中发现规律,真正的大数据应用体现在数据的深度挖掘上。但眼下,大数据“炒作”的热潮仍在持续,大数据的理论和技术都还处于发展早期。
因此,为向社会输出大量高质量大数据人才,帮助金融、零售、教育、医疗、人工智能等多个行业及领域的市场主体顺利完成大数据应用整合,加速“中国智造2025”进程,以“数据驱动,智见未来”为主题的本次大赛的主要目的,就是希望能将人才培养与社会的需求协同起来,挖掘培养大数据,人工智能领域创新人才。
“大赛对学生来说,是一个重大的利好。”上海市教卫工作党委副书记、市教委副主任高德毅在启动仪式上表示,通过CCF大数据,与计算智能大赛这样一个平台,每一个有梦想、有创意、有能力的青年人,都可以发挥自己的聪明才智,来实现自己的梦想。希望本次大赛不仅是推进政府企业社会数据资源的开放共享,创新和应用,也为今年搭建一个重创的空间,还能够为各个行业的特别是教育行业,提供一个更加好的创新的解决方案。
启动仪式上,发布了来自各创新企业与科研机构的11道高质量大数据与人工智能创新赛题,涉及智能电网、搜索广告、O2O营销、舆情分析、监控识别、计算广告、无人驾驶、市场预测、LBS营销、气候预测等多个热门方向,将为图像处理、自然语言处理、用户画像、推荐系统等领域提供大量来自真实场景的问题与数据,促进相关领域的技术创新。
为了更好地支持参赛者进行大数据技术研究,解决参赛者计算资源缺乏等问题,本次竞赛的专业大赛平台将联合各企业与科研机构为优秀参赛者提供专业的云计算平台支撑。
在东华大学副校长李永智看来,本届大赛的特色在于:第一,它是比拼智慧的大赛,对专业知识没有特别限制,更直白地说,参加这个大赛的学生和指导教师可以不拼资本,不拼空间,不拼人脉,也就是说“不拼爹”,只拼智慧,会给全国大学生提供一个创新创业的大舞台。第二,赛题涉及的11个问题,全部是现实当中急需解决的难题,非常接地气。第三大赛聚集了庞大的专家群体和数百位业界各领域大咖,一起探讨大数据和人工智能学术领域和现实层面的难题。
为此,参赛选手可登陆大赛指定平台DF(DataFountain, http://www.),迎接大数据竞赛带来的挑战。
据大会组委会介绍,启动仪式后,全球数千支参赛队伍将就企业单项奖、CCF综合奖展开从初赛、复赛到决赛为期3个多月的激烈比拼,冲击总计75万元的高额奖金池。最终,奖金和奖牌将花落谁家?谁又将成为大数据领域的顶尖人才?将在今年12月31日揭晓,敬请期待。
据悉,本项赛事至今已成功举办了三届,“双创”价值凸显。CCF大数据专家委员会秘书长程学旗举例说,第一届大赛一等奖获得者上海交大的团队获奖之后,直接带项目去创业,目前正在进入第二轮融资。借助大赛创业创新的例子每届都有。今年会有更多的专家去指导学生参赛,题目也更深更广。期待更多的优秀人才,更好的成果能够应用起来,能够让我们的人才形成聚集效应。
统计显示,仅去年参赛队伍就达到1338支,递交的作品高达5647个,参赛人数6000人,其中77%的参赛队伍来自全国27个省市自治区的131所高校和科研院所,覆盖了所有的985高校和59所211的高校,23%的参赛队伍来自30多家企业或者自由职业者。另外还有来自美国、英国、新加坡、香港地区的境外参赛队伍近10支。可以说,通过大赛演进,一个为青年搭建大数据应用的重创平台正在形成。
(原标题:2016CCF大数据与计算智能大赛启动)
本文来源:中国经济网
责任编辑:王晓易_NE0011
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈

我要回帖

更多关于 ccf推荐期刊列表2016 的文章

 

随机推荐