广告

假如马蜂窝用了AI......

时间:2018-10-23 作者:Challey 阅读:
自从2018年8月份足球世界杯刷屏以来,马蜂窝沉寂了一段时间,时隔两月有余,马蜂窝再次火起来了,这次是因为被捅爆料:1800万条点评系造假。总共才2000余条旅游评论,超过85%造假,如果属
广告
ASPENCORE

自从2018年8月份足球世界杯刷屏以来,马蜂窝沉寂了一段时间,时隔两月有余,马蜂窝再次火起来了,这次是因为被捅爆料:1800万条点评系造假。3G9EETC-电子工程专辑

总共才2000万条旅游评论,超过85%造假,如果属实,听说175亿的估值将缩水至20亿!!!3G9EETC-电子工程专辑

马蜂窝是什么?百度一下,得到百科词条:3G9EETC-电子工程专辑

马蜂窝是马蜂的蜂房,马蜂的窝是蜜蜂栖息、繁殖、贮存、生活、越冬及其他活动的场所,为蜂箱内部的空脾、蜜脾、粉脾、子脾、蜂路和空间的总称。3G9EETC-电子工程专辑

如果不是2018年的那场世界杯,很多人都不知道还有一个这样的旅游攻略网站:3G9EETC-电子工程专辑

旅游之前,先上马蜂窝,靠谱的旅游攻略,精选自由行攻略,自助游分享社区。你对这个世界的好奇,马蜂窝都有答案。3G9EETC-电子工程专辑

言归正传,这次马蜂窝陷入评论造假旋涡,一篇题为《估值175亿的马蜂窝 竟是一座僵尸和水军构成的鬼城?》的文章在网络上刷屏,爆料出蚂蜂窝1800万条涉嫌抄袭大众点评、携程等网站的用户点评信息,顿时间引起了网友们的转载及热议。3G9EETC-电子工程专辑

01.jpg3G9EETC-电子工程专辑

在网上一片呼声之中,马蜂窝出了一纸声明,并要起诉造谣者,这似乎让人有点怕怕,如果是真的呢?3G9EETC-电子工程专辑

 且不说真相如何,在大多数人的眼里,马蜂窝评论造假基本是坐实了(可不是小编说的)。3G9EETC-电子工程专辑

马蜂窝发布声明称,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的帐号数量在整体用户中的占比更是微乎其微,马蜂窝已对这部分账号进行清理。并表示,“自媒体文章所述的马蜂窝用户数量,与事实和第三方机构数据都严重不符。”马蜂窝称针对该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益。3G9EETC-电子工程专辑

03.jpg3G9EETC-电子工程专辑

不是号称旅游大数据的新型服务平台呢?”“说好来自上亿用户 的真实分享?还挺怕自己去错地方”。而另一边网友们则站在中立角度评价,认为马蜂窝上面的攻略和游记还是很受用的,大数据的运用需要时间的验证。3G9EETC-电子工程专辑

既然马蜂窝强调了他的大数据,今天我们从工程师技术的角度来说说,马蜂窝运用大数据的升级版:AI了吗?3G9EETC-电子工程专辑

在这个忽如一夜东风来的潮流下,AI一下子引爆了中国整个互联网,从语音识别AI到人机耦合,从芯片到算法,再到波士顿机器人,无一不透露出AI的繁星点点。而在涉及到评论方面,我们搜索了国内外的资料,最靠谱的应该是AI中的NLP。3G9EETC-电子工程专辑

NLP:Natural Language Processing: 自然语言处理,是人工智能(AI)的一个子领域。3G9EETC-电子工程专辑

自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。3G9EETC-电子工程专辑

理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。3G9EETC-电子工程专辑
由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。有关理解定义问题的研究已经引发关注。
3G9EETC-电子工程专辑

其实NLP不是今天或者这几年才开始研究的,早在很多年前Google就开始了NLP实验室和平台建设,2016年上线了开放云处理平台,目前不仅可以处理英语,还可以处理中文等语言。3G9EETC-电子工程专辑

实际上,NLP是(或者说几乎是)所有信息密集型处理过程的核心。NLP驱动了搜索引擎、虚拟个人助理、系统推荐、现代生物医药研究、智能和商业调查、消费者洞察……3G9EETC-电子工程专辑

不仅是谷歌,现在的阿里,百度都推出了NLP处理云平台,可见NLP在未来AI中的地位有多重要。3G9EETC-电子工程专辑

回到我们今天的主题:假如马蜂窝用了AI3G9EETC-电子工程专辑

第一种前提:哪怕,即使马蜂窝是通过抓取其他网站的评论(其实这是互联网行业公开的秘密,只是或多或少的程度问题),形成了大数据,然后通过BI等手段对这些大数据进行清洗、切片、整理、再重新分类,同时与各旅游景点和人群进行细分,利用NLP再造一个真正的点评世界,完全是可能的。3G9EETC-电子工程专辑

第二种前提:马蜂窝的数据大部分是自身的,是真实的,而游客的评价是离散的,分片的,只有少数专业的点评才是有条理的。那么利用AI算法及其NLP,可以造出一个更加符合真实情况的比较完美的点评系统。3G9EETC-电子工程专辑

我们来看看谷歌NLP的一个应用案例,这要感谢那些伟大的工程师们:3G9EETC-电子工程专辑

2018年10月11日,谷歌人工智能语言研究组发表了一篇论文,立刻引起业界巨大反响。3G9EETC-电子工程专辑
这篇论文的题目是,《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。这个题目很直白,一眼望去就能猜得到,这篇文章至少会讲到四大问题中的三个,应用场景、模型、训练数据。
3G9EETC-电子工程专辑

谷歌AI团队新发布BERT模型,BERT在机器阅读理解测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP任务中创出最佳成绩。这项工作被认为是NLP领域里程碑式的进步。3G9EETC-电子工程专辑

这篇论文介绍的模型,BERT,它至少能解决 NLP 诸多任务中的 11 种,包括:3G9EETC-电子工程专辑

* 淘宝上有很多用户评论,能否把每一条用户转换成评分?-2、-1、0、1、2,其中 -2 是极差,+2 是极好。假如有这样一条用户评语,“买了一件鹿晗同款衬衫,没想到,穿在自己身上,不像小鲜肉,倒像是厨师”,请问这条评语,等同于 -2,还是其它?3G9EETC-电子工程专辑
* 当用户提问,“两岁的男孩为什么食欲不振”,深度学习是否可以从大量书籍中,自动摘录相关内容,并组织成流畅的语言,回答用户提问?3G9EETC-电子工程专辑
用同一种模型,解决多种不同任务。这涉及到一个十分激进的猜想:在以往的实践中,我们通常为每种具体任务,单独定制模型。是否存在一种“通用”的语言模型,能够用它来完成多种不同的任务?3G9EETC-电子工程专辑
BERT 的研究者们,试图证明 Deep Bidirectional Transformers就是这样一种通用的语言模型,它不仅能解决 11 种不同的 NLP 任务,而且在所有任务上的精度,大幅度领先以往其它模型,甚至超越人类。
3G9EETC-电子工程专辑

论文地址:https://arxiv.org/abs/1810.048053G9EETC-电子工程专辑

无论哪种前提,殊途同归,如果马蜂窝真的投入了较多的精力在技术上,不至于时隔两个月就形成这么大的反差。看看阿里,从一个被百度腾讯看不起的只会做电商的平台成长为一个技术巨无霸。这很大部分要归功于其对云计算及相关技术的投入研发,十年磨一剑,终成霸主,中国互联网无人能出其右了。3G9EETC-电子工程专辑

当然,马蜂窝无法与阿里相比,但是,中国互联网已经走入了这样的怪圈,拼命的弄数据,做报表,搞营销,拼估值,找融资......,而技术却一再的荒废。连基于自己的主要核心业务都不去深耕,只是简单的数据堆砌,就美其名曰:大数据。3G9EETC-电子工程专辑

如果当年马云不投入云计算,可能现在的阿里无法站在世界的舞台,今天他可能只是一个小小的电商平台而已。3G9EETC-电子工程专辑

假如马蜂窝早点多投入研发,至少在现在也不会这么狼狈,只会通过律师和一纸声明,让消费者云里雾里寻找真相。3G9EETC-电子工程专辑

结局是:谁也不是赢家,包括消费者。3G9EETC-电子工程专辑

 3G9EETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Challey
暂无简介...
  • 最严技术工作签证(H1B)限制令发布,醒醒吧你的美国梦 10月7日,特朗普政府发布两项严格限制H-1B(技术工作签证)的新规,堪称 20 年来最严政策,让大批中国留学生叫苦不迭。在H-1B签证新规下,雇主需要对海外人才雇工支付更高的工资,表面看似留美就业将获得更高的收入,但事实上将促使许多在美就业的海外人员被迫离开。
  • 反转!北航学者被控窃取代码在美被捕,检方撤诉 胡海洲在弗吉尼亚大学研究的是仿生学和流体动力学,8月25日,现年34岁的胡海洲在芝加哥奥哈拉国际机场准备飞往中国青岛时被捕。他在过海关的时候,计算机里有他所有的研究数据,他准备一起带回国,随后他被指控窃取商业秘密。在校方承认这位研究人员有授权获取其中某些内容后,检方撤销了所有指控。
  • 应用到中国电子行业的机器人,完整形态是什么样? 数字化、智慧化生产已经进入人们的生活,此前我们也采访过不少提供智能制造解决方案的厂商。在我们的印象里,如今的智能制造,理应是一座工厂中的所有流水线操作,都可由机械臂、机器人精确完成。就好像一块板子从流水线这头,到那头,焊接、点胶、封装等各种操作都如此。这是我们想象中的场景,那么实际生产的这些机器人如今已经发展成什么样了?
  • 2020阿里云栖大会:发布云电脑“无影”和首款机器人“小 9月17日,2020云栖大会正式开幕,与往年不同的是,今年因为疫情原因从线下搬到了线上。会上,阿里云智能总裁张建锋展示了第一台云电脑“无影”,以及第一款物流机器人“小蛮驴”……
  • 日媒拆解大疆无人机盛赞技术精密,部分器件仍被美国卡脖 近日,《日经亚洲评论》(Nikkei Asian Review)联同总部位于东京的调查公司Fomalhaut Techno Solutions对大疆创新今年初推出的Mavic Air 2无人机进行拆解分析,发现其竞争力根源在于硬件成本只是竞争对手的一半,却能实现不低的性能。
  • 日本“飞行汽车”试飞成功,10米高空盘旋4分钟 作为智慧交通的另一种解决方案,“飞行汽车”正在一点点走进现实。虽然比电影《回到未来2》中预言的时间晚了五年,但人类终于还是造出了可以安全上天的飞行汽车。近日,日本SkyDrive公司首次载人飞行汽车试验成功,其代号SD-03飞行汽车在10米高空盘旋4分钟后成功着陆。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了