第三方数据未回传不给出款怎么解决 未来演算机:大数据助力城市生活决策
活得健康长寿是投保人和保险公司的共同目标,在新模式下,投保人收获了更健康的生活方式,日常运动量比普通人提高了34%,住院费用却比普通人低30%左右。而用户生存时间越长,保险公司就越能长时间持有客户保费。这种模式吸引了大量用户,2016-2019年间,使用该计划进行健康数据跟踪的人数增加了700%。
除了John 这种将大数据与生活服务结合的企业,还出现了一些“数据中间商”,例如美国最大的病友互助社区平台 Like Me,它将收集的病情、治疗信息进行量化,成为了病人的数据共享平台,药企的研发助手。
平台的前身成立于2004年,是一个针对罕见病“渐冻人症”的交流小组。如今平台上注册用户已经超过83万,涵盖了2900多种疾病。病人在此分享他们的病情、治疗史、药物副作用等信息。平台将这些原始信息数据化,并对其进行分析和可视化处理。然后经用户同意,将处理后的数据出售给研究机构和药物公司,用于疾病研究和药物研发,平台以此营利并为患者提供更加完善的服务。
对于病人而言,他可以在这个 Like Me平台上看到其他病人完整的健康记录,比如服用某种药两年以上的病例,或者每日服用4毫克该药物的病例,然后利用这些信息来辅助治疗。对于药企而言,平台为其提供了珍贵的临床数据。
目前,平台与默克、阿斯利康等大型药企展开研发合作,具体领域包括呼吸系统疾病、狼疮、糖尿病和肿瘤。2015年,平台甚至与美国食品药物管理局(FDA)达成合作,协助监测药物上市后的不良反应。而 Like Me之所以能与FDA合作,是因为它在收集数据时使用了与FDA的不良事件报告(AER)相同的编码框架。
Like Me将患者数据结构化、标准化为医学级别证据,让它不同于传统的病人互助社区,为医疗健康服务开辟了一条全新赛道。正如 Like Me的研究主管维克斯(Paul Wicks)所言,“量化的资讯,才是我们要做的”。
对“数据辅助生活决策”来说,最大的难题并非算法本身,而是运算过程中的“算法黑箱”问题。也就是说,算法的运算机制就像一个黑箱,如何运作并不为人所知。比如在美国大选中,数据分析公司利用的数据,预测选民动向,向持摇摆立场的选民投放偏向性内容。
如果通过数据分析发现喜欢乡村音乐的人更支持共和党,那么共和党人就会更关注这些喜欢乡村音乐的人,向他们投放偏向性内容。但是为什么喜欢乡村音乐的人更支持共和党,算法本身无法回答。
虽然在很多情况下,我们并不需要考虑“为什么”的问题,但在一些注重逻辑性的生活服务领域,一个没有给出理由的结论很难让人信服,我们不但要知其然,更要知其所以然。2018年,AI Now 发布的一份报告甚至建议,负责司法、社会福利以及教育的公共机构应该避免使用算法技术。可见,算法的不可解释性正在演变成阻碍其应用的关键因素。
所以,我们需要运用知识图谱技术提升算法的解释性,打造一个“负责任”的演算机。知识图谱技术类似于人类的思考过程,可以大大提升未来演算机的解释性。
在2012年提出知识图谱的概念,这是一种用图模型来描述知识的技术方法。如下图所示,每个节点代表现实世界中的某个实体,它们之间的连线上标记的是实体间的关系。它以人类对世界认知的角度,阐述世间万物之间的关系,把知识信息结构化,以便机器计算、存储、查询,起到赋予机器人类智慧的效果。
▼知识图谱
未来,在那些看重逻辑性的生活服务领域,知识图谱将发挥关键作用。以法律行业为例,一些法律服务公司正通过数据挖掘预测诉讼的结果。Lex 软件通过学习大量判决书,可以根据法官以往的判例来预测他倾向于支持哪一方,或者基于对方律师过去的法庭表现来制定相应的辩护策略。
▼未来,法律行业将是大数据与人工智能被引入的重点行业(来源:)
在我国,上海的206系统也实现了这一功能。2017年2月6日,中央政法委交办给上海一项重大任务——研发刑事案件智能辅助办案系统。在庭审中,法官会将系统预测结果作为参考来辅助决策。
最高法院司改办规划处处长何帆曾公开介绍,法官可以在判决前把写好的判决书放入系统,系统会将其与类似判例进行比较,找出其中的分歧点。目前,206系统在上海市一线办案人员中的使用率已经达到了100%,全国已有多个省市开展了206系统的应用试点工作。
这种“类案同判”功能的实现离不开法律知识图谱的构建,图谱的颗粒化程度越高,案件结果预测也就越准确。而知识图谱构建的核心是将案件解构为不同层级要素,让机器能够模拟法律人的真实思考逻辑,这要求开发者拥有非常深厚的专业知识和对业务的深刻理解。上海206系统工程就是采用全国法院“众筹”的模式,在众多法律工作者的协同下才完成了知识图谱的绘制。
未来,将覆盖更多生活服务场景,将为人类提供透明的、可理解的机器外脑,引导我们做出更明智的生活决策。
▍提升算力——开发实时计算引擎,获得零延迟反馈
升级未来演算机的第三个环节是提升算力,也就是数据的处理能力。只有快速处理海量数据,才能及时给出反馈,协助人做出更明智的决策。
在某些生活场景中,反馈的实时性尤为重要。自动驾驶就是一个非常典型的场景,在危险情况下,车辆制动响应时间关系到乘客安全,制动反应时间不仅是指车辆控制的时间,还包括自动驾驶系统的响应时间,如果要使汽车在100千米的时速下实现不超过30m的制动距离,那么系统整体响应时间不能超过0.1秒。可见,数据也有时效,一旦错过,数据就失去了意义。
▼自动驾驶对数据的0延迟要求是刚性的
目前,主流的大数据计算模式有离线计算和实时计算两种,离线计算需要数据积累,积累到一定量后进行批量处理,而实时计算是数据随到随处理,降低了处理延时,能够在更短的时间内挖掘数据的价值。显然,实时计算更适合需要即时反馈的生活服务场景。
目前最热门的实时计算引擎当属 Flink,2019年开年,阿里收购了Flink的母公司Data ,交易金额为1.033亿美元。2020年双十一购物节期间,Flink完美通过了大考,实时计算峰值达到了破纪录的每秒40亿条记录,数据量也达到了惊人的7TB每秒,相当于一秒钟要读完500万本《新华字典》。
除了网购之外,Flink的算力还被广泛地用于其他生活场景。比如在阿里城市大脑项目中,Flink负责实时交通预测,使车行速度提升了15%,救护车到达现场的时间则减少了一半。
在一些交互性强的生活服务领域,实时计算也起着十分重要的作用。例如在教育领域,美国个性化教育公司通过连续收集学生行为数据,对其参与的学习活动进行实时分析,进而通过算法推荐最合适的学习目标和任务,并对学生的表现给出实时反馈。当学生完成某项学习活动后,系统会自动推送学生进行下一个活动。
这样一来,每个学生的学习路径都是基于自身学习数据定制的,实现了真正意义的因材施教。亚利桑那州立大学尝试将传统教学模式和定制学习模式相结合,两个学期后,课程退课率从原来的13%下降到6%,通过率则从66%上升到75%。
实时计算的最终形态,也许是一个高度智能化的生活决策助手,就像《钢铁侠》中的贾维斯一样,随时为人们提供生活解决方案。
▍数据共享——打通壁垒实现联动
最后一个环节是实现数据的共享,让多维度数据在生活服务中发挥最大价值,因为数据维度越多,能挖掘出的关联性也越多,据此就能催生出全新的生活服务内容。然而,“数据孤岛”问题严重制约了大数据多维度价值的释放,各个企业、部门间的数据无法共通,难以发挥合力。究其原因,一方面是数据持有方不愿公开,或不能公开数据;另一方面,即便是公开的数据,也因为缺乏统一的格式标准而难以整合利用。
但互联网时**育的“超级平台”正在试图整合“数据孤岛”,发挥大数据的多维度价值。所谓“超级平台”,是指、这类掌握了多维度数据的互联网平台。比如所记录的数据,不仅包括用户在社交平台留下的数据,还包含那些用账号登陆过的游戏、购物软件、新闻资讯App、学术平台之上的数据。
▼将“数据孤岛”整合成“数据群岛”
▼很多互联网大厂都在试图整合数据孤岛。图为园区
在我国,生活服务领域也出现了类似的“超级平台”。比如占据中国手机用户近30%时间的微信,截至2019年底,微信小程序总量已达230万个,与苹果应用商店里的APP数量大致相当。不止微信,美团点评等APP也已经覆盖了到店餐饮、外卖、出行各个领域,与消费者建立起紧密的多维度数据联系。
通过多维度数据分析精确描绘用户画像,对于以用户匹配为核心的生活服务行业来说意义重大。比如成立于2015年的房地产中介公司REX,使用机器学习处理来自“超级平台”和的用户数据,通过购房者的位置、收入、兴趣等多维度因素,准确快速地匹配房屋买卖双方,不仅加快了房屋的销售速度,还完成了“技术换人”,大幅度缩减了人力成本,从而在激烈的市场竞争中获得了优势。
与传统房屋中介6%左右的佣金相比,REX只收取2%的佣金,平均算下来,使用REX平台的卖家平均可节约2万美元的成本费用,而买家也可省下1万美元的购房费用。
然而,超级平台不仅在整合数据,也在垄断数据,阻碍充分竞争的“数据海洋”形成。近年来,各大平台因数据互掐的事件屡见不鲜。2017年6月1日,顺丰断开与菜鸟网络的数据接口,使得淘宝上顺丰包裹的物流详情无法正常回传。顺丰指责菜鸟要求自己提供非淘系数据,菜鸟则说在合作中顺丰大量查询使用了非顺丰的数据,最终国家邮政局居中调停才结束这场闹剧。
当然,数据战争不止于物流业,在其他生活服务领域也比比皆是。2020年2月,钉钉、飞书遭到微信封禁,用户无法直接在微信内跳转。2020年10月,抖音直播间购物车不再允许添加第三方来源商品。
从宏观角度看,数据垄断不仅限制了数据价值的进一步挖掘,也阻碍了生活服务业的创新和发展。要解决这个问题,我们可以借鉴国外的先进经验。2018年,欧盟创造性地设立了数据携带权,赋予用户在不同的网站和设备上自由转移个人数据的权利,极大推动了数据的流动与共享,也为在生活服务业中发挥多维度数据价值提供了制度保障。
03
推动未来演算机落地,编写四套“城市代码”
REGAL
以上关于技术环节的“人为干预”,都只是推动数据服务生活的“术”;而要真正实现数据向善,只有技术突破和市场主体的积极创新并不够,更需要的是进行合理利用数据的“价值观引导”。
这就需要更具公信力和权威度的政府出面,进行数据向善的“布道”——由政府“降维”打破企业和资本由于“各自为战”和商业逐利而难以全然克服的数据孤岛和隐私侵犯等问题,以实现数据资源的良性共享、开发和利用,进而更好的预测生活、服务生活。
未来各地政府应着重编写四种“城市代码”,以落实“向善价值观”对市场的贯彻和约束。
首先,政府要不断优化“数据开放码”,推动数据整合,盘活数据富矿。政府数据是一座亟待挖掘的数据富矿。因此,政府各部门应率先进行数据整合,实现数据共享。2017年6月,杭州市成立数据资源管理局,其首要任务就是将杭州市的政务数据归集到一个平台。为了达成这个艰巨的任务,数据管理局以任务、需求为导向来推动数据归集过程,也就是推动“最多跑一次”改革,把企业投资项目审批、商事登记、不动产登记和公民个人办事这四类与日常生活最相关的数据归集起来。
如此一来,民众到任何一个部门办事,该部门就能向数据共享平台申请调取所有需要的文件,不用再跑其他部门。四个月后,杭州市总计归集了59个部门的218亿条数据,并实现了36个部门196亿条数据的开放共享。
▼杭州市是城市数字化管理做的较为先进的城市之一
其次,政府要输入一段“市场搭建码”,率先培育大数据市场,探索兼顾多方开源和隐私保护的数据利用机制。2020年4月9日,中共中央、国务院正式发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术等传统要素并列为生产要素。北京作为全国领先的数字经济城市,于2021年3月成立了北京国际大数据交易所,力图打造国内领先的数据交易基础设施,促进数据要素的流通。
不同于此前贵州、上海、浙江等地的大数据交易所,北数所使用了隐私计算技术,需求方获得的不是原始数据,而是一个通过算力、带宽和多方安全计算技术加工而成的计算结果,并实现了按使用次数定价,保证了数据交易的安全和高效。
再次,政府要准备一套“技术开发码”,搭建共性技术研发平台,让大数据赋能更多市场主体。生活服务业市场主体以中小企业为主,而中小企业难以承担长周期、大规模的数字化投入。为此,政府可以搭建共性技术平台,助力服务业的数字化。
2021年7月8日,上海现代服务业联合会大数据中心正式成立。平台将围绕服务业数字化进程中的“痛点”环节开展关键共性技术研发,为各细分领域提供有针对性的数据全链路服务,帮助上海市乃至全国现代服务业加快实现数字化转型。
最后,政府还要预留最强力的“安全监管码”,通过立法护航大数据利用。2021年6月10日,《数据安全法》经历三轮审议,在十三届全国人大常委会第二十九次会议上表决通过,成为我国数据安全领域内的“基础性法律”。
各地政府近两年也在进行地方立法探索,2021年7月,深圳推出《深圳经济特区数据条例》,在强化个人数据保护的基础上,对大数据杀熟行为做出了明确的处罚规定——最高可处以5000万元罚款。此外,还在国内首次明确,除征得其监护人同意外,不得向未满14岁的未成年人进行个性化推荐。
大数据时代势不可挡,越来越多的城市投身数据之城的打造,各地可以将大数据作为抓手,以服务于民为价值导向,推动生活性服务业升级。相信当我们再次面对大数据是天使还是魔鬼的灵魂拷问时,可以自信地说出,决定权在我手上!
笔记碎碎念:
大数据时代势不可挡,越来越多的城市投身数据之城的打造,各地可以将大数据作为抓手,以服务于民为价值导向,推动生活性服务业升级。相信当我们再次面对大数据是天使还是魔鬼的灵魂拷问时,可以自信地说出,决定权在我手上!
