近日,有自媒体曝出在线旅游网站马蜂窝的产品评论涉嫌抄袭甚至造假。 马蜂窝回应称,将采取积极改进措施弥补审查漏洞,但针对歪曲事实的言论和经核实的有组织攻击,将采取法律措施维护自身权益。 该民事诉讼事件正在接受司法调查,但业内人士表示,这一事件反映了技术伦理和法律问题。
新华每日电讯记者调查发现,近五年来,互联网行业用户生成内容平台(UGC)数据造假现象长期存在。 尤其是网络“爬虫”技术的非法运营,不仅侵犯了相关平台的知识产权和消费者的合法权益。 ,还可能导致平台敏感用户信息泄露。
捅了马蜂窝后:UGC数据造假引关注
日前,微信公众号“小生比比”发表了一篇题为《估值175亿的旅游独角兽,是僵尸和海军组成的鬼城吗?》的文章爬虫软件干嘛用,援引互瑞数据团队提供的数据,作为马蜂窝核心资产之一的2100万条“真实点评”中,有1800万条是通过机器人抄袭携程等竞争对手的。 其中,7000多个抄袭账号共抄袭餐厅点评572万条、酒店点评1221万条,占点评总数的85%。
随着事件不断升级,UGC平台数据造假的行业问题备受关注。 业内人士认为,从其他平台抢数据的目的是为了制造大流量的假象,不仅是为了用户和商家,也是为了让投资者获得上市的不同轮次投资。 从其他网站抓取页面商家内容和用户评论数据非常简单。 可以使用“爬虫”技术和手动编辑来完成。
据App开发者李斌介绍,爬虫最早应用于搜索引擎领域。 他们抓取网站页面,为其他用户提供快速搜索和访问。 目前,爬虫技术已经成为“大数据”概念的重要组成部分,爬取的对象也从少数种子扩大到全网数据。 为此,业界还达成了Robots协议,形成了互联网行业在数据抓取方面普遍遵守的规则。
然而,近年来,一些企业开始利用“爬虫”技术恶意爬取其他平台的数据。 例如,今年7月,生活分享平台“小红书”官方微博发布声明,指责大众点评抄袭大量小红书用户内容。 随后,大众点评道歉; 今年2月,视频弹幕网站哔哩哔哩的大量用户视频、昵称、头像和用户评论出现在一个新成立的视频网站上; 而航空公司官网上的机票、座位预订等信息,早已被代理商抓取、占用座位,然后发布到其他网站Upsell上。
“爬虫”被滥用,数据造假成为互联网“灰色产品”
网宿科技发布的《2018年上半年中国互联网安全报告》显示,今年上半年,Web应用攻击总数环比增长97.82%,恶意“ “爬虫”攻击环比增长55.79%。 另数据显示,交通类恶意“爬虫”流量排名第一,其次是电商、社交、评论、运营商、公共管理等。网络爬虫的非法使用给互联网竞争环境带来了诸多负面影响。 。
“目前,市面上各大互联网公司都会推出自己的刷票软件,目的就是分享12306网站的‘流量红利’。” 中国铁道科学院电子所相关负责人表示,“这些刷票软件利用‘爬虫’等技术刷新12306网站页面,拦截官网车次、车票量等数据,制造自己的网站页面,然后利用程序抢票,收取非法差价,其中,12306订票网站流量中约有一半来自“爬虫”技术支持的机票诈骗软件,不仅给网站服务器带来巨大压力,还扰乱了正常的订票秩序,由此带来的购票难一直是令铁路部门头疼的问题。
山东日众律师事务所律师陈冠文表示,企业未经许可或授权,利用“爬虫”技术获取可能带来商业利益的信息,可被判定构成不正当竞争。 新华每日电讯记者回顾相关案例发现,法院往往认为技术作为工具在价值上是中性的,但这并不意味着技术本身可以作为免除当事人法律责任的依据。
——2017年,广东省深圳市中级人民法院审理的一起案件中,武汉远光科技有限公司为了增加智能公交的用户数量和信息查询的准确性“这里其在中国市场开发的“来了”App,未经深圳市龟米科技有限公司许可,指导公司员工使用网络“爬虫”软件从龟米服务器获取实时数据,真实谋求该软件的竞争优势准时公交信息查询软件违反诚实信用原则和公认的商业道德,构成不正当竞争。
——2016年,上海知识产权法院二审民事判决认为,百度大量利用大众点评信息,通过百度地图、百度智造与大众点评争夺网民,导致大众点评流量下降。 同时,大力推广自己的团购等业务,抓住大众点评的部分交易机会。 百度的行为损害了瀚淘公司(大众点评网旗下公司)的利益,违反了公认的商业道德,构成不正当竞争。
搜狐视频高级总监闵波认为,网络“爬虫”的滥用还可能影响网络安全,导致网站服务器宕机。 “当某些‘爬虫’工具的用户采用‘全站抓取’模式时,就相当于在短时间内模拟大量用户向源站发起访问请求,一旦访问量达到瞬间的极限负载能力,会导致服务器宕机,从而威胁网络空间的安全。”
有业内人士指出,网络“爬虫”捕获的信息不仅可以用于同类型平台制作,还可能被转售或用于制作钓鱼网站等其他非法活动,这不仅会影响网络安全。给平台带来重大损失,也给平台造成严重损失。 更有可能导致平台敏感用户信息泄露,从而使用户遭受各类网络、电信诈骗。
记者在社交网站、购物网站搜索时发现,部分卖家公然出售“爬虫”自动评价软件或接单爬取个人隐私信息。 在QQ群搜索中输入关键词“网络爬虫”,会出现多个涉及外包网络“爬虫”技术的群。 业内人士介绍,这些群体进行的网络“爬虫”任务,大部分都是未经授权的非法爬虫操作。 由于该技术具有一定的保密性,普通用户的隐私数据很难被抓取。 已鉴定。
技术和法律遏制假冒,防止“爬虫”成为害虫
“每当一项技术被使用时,责任方都应该扪心自问,它是否侵犯个人隐私、损害言论自由、损害公共利益、损害其他数据产权人的财产所有权、是否涉及不正当竞争。 很多大型互联网公司,都会同时存在“爬虫”部门和“反爬虫”部门。 ‘爬虫’技术早已广泛应用于互联网行业,但‘爬虫’绝不能成为害虫。”中国人民大学法学院教授刘俊海表示。
记者了解到,目前“反爬虫”技术有两种:一是限制同一IP、同一台电脑在一定时间内访问网站的次数,二是设置复杂的验证码机制,防止“爬虫”访问网站。 确认。 但对于一些网站来说,屏蔽IP可能会一不小心伤害到真实用户,而设置非常复杂的验证码也可能会造成用户流失。 因此,除了加大技术防范力度外,还必须运用法律手段克服取证困难的盲点,明确红线。
业内人士表示爬虫软件干嘛用,《网络安全法》虽然规定了非法获取个人信息等相关行为,但并未规定爬取公共信息的行为。 有关部门应进一步查清、填补空白,尽快缩小新技术应用中的法律歧义。
中国传媒大学教授、大数据挖掘与社会计算实验室主任沉浩介绍,欧洲已经出台了GDPR(通用数据保护条例)。 如果想要收集欧盟境内公司和个人的信息,即使您不在欧盟境内,收集活动也必须受到相应的法规和控制。 但目前国内尚无全面的法规。 要从根本上解决此类问题,仍需从立法层面入手。
此外,过去国内对网站数据造假的处罚案例很少,且处罚不严,也是造成数据或内容造假的重要原因之一。 搜狐视频高级总监闵波认为,有关部门应加强对网络“爬虫”工具用户的监管,严厉查处恶意拦截网络访问等滥用行为,全力保障小微企业使用网络空间的安全。中型互联网企业。
专家认为,未经对方许可,从其他平台抓取数据并谋取商业利益,一般属于不正当竞争行为,应受到工商部门的监管。 但由于此类行为通常比较隐蔽,工商部门一般需要有人举报并提供相应的证据或线索才能立案调查。 因此,需要技术手段来更有效地打击。
诚信经营、守法经营,互联网也不例外。 正如北京知识产权法院在涉及爬虫技术的庭审中所言,网络运营者应当遵循合法、正当、必要的原则,履行管理义务。 第三方应用开发者收集、使用个人数据应遵循诚实信用原则和公认的商业道德。