从大数据平台到数据治理,智慧医院大数据何去何从

背景:上周看了阿里章剑锋写的一篇大数据文章,加上对健康医疗大数据相关政策的分析,想就医院大数据的建设说几点看法,毕竟国家健康大数据战略下智慧医院大数据是必然先驱,有大数据抱负的医院信息科大部分还在摸着石头找过河的路,而其他行业的经验还是很有借鉴意义的。

2019年6月,中国卫生信息与健康医疗大数据学会会长金小桃(中国卫生信息学会会长)在6月20日的2019(14th)中国卫生信息技术/健康医疗大数据应用交流大会上发布《新一代医院数据中心建设指南》(尽管找遍网络都没找到这个指南,可能还在整理中…)

而基本同一时间,国家卫健委统计信息中心初版了《医院数据治理框架、技术与实现》,对“医院大数据”明确为“医院数据”,这也是我一直在解释的名词,正符合大数据的正确引导和深度理解。

2019年的厦门CHIME,中国医院协会信息专业委员会发布了《医疗机构医疗大数据平台建设指南(征求意见稿)》。在结合2015年以来的每年一批的健康医疗大数据国家战略政策指导,大数据国家战略的决心和国家支持引导的力度可见一斑,而医院侧信息化的现阶段热点就是医院信息平台,信息平台的热方向就是医院大数据和人工智能,当然这脱离不了首先建设完备的医院信息化系统。我们再来看一个政策:

2018年4月,国家卫生健康委员会规划与信息司发布了《全国医院信息化建设标准与规范(试行)》。它是在2016年《医院信息平台应用功能指引》和2017年《医院信息建设应用技术指引(试行)》基础上,形成的较为完整的医院信息系统体系框架。在《医院信息平台应用功能指引》明确医院信息化功能和在《医院信息化建设应用技术指引》上明确了医院信息化技术。看医院信息化完整地图,云计算、大数据、物联网以及传统信息化支撑的是金字塔顶端的人工智能,最近几年AI大数据经常被一起称呼,不可能脱离信息化基础和大数据基础去建设AI的空中楼阁。所以大数据和AI找同一厂家(或者同一生态圈)建设会是最好的选择,毕竟做AI的一定先做数据,但是做数据的却不一定做得好AI,看市场上那么多数据搬运工公司就清楚了,这也是造成医院大数据前期建设重数量轻质量的主要原因。

从大数据平台到数据治理,智慧医院大数据何去何从
医院信息化地图

再来看大数据的宏观发展环境,从2009年闪亮登场到2015年泡沫顶峰,已经迈过了甘特曲线的2个关键节点,现在正处于稳步发展。

从大数据平台到数据治理,智慧医院大数据何去何从
googletrend 上大数据发展曲线

大数据技术的2个维度是我觉得章剑锋最深刻的大数据概念解析,垂直的技术栈维度和水平的数据流维度,也就是垂直的平台+应用,水平的数据处理。何为大数据?这一轮数据到大数据的概念,水平维度的数据处理理论正式出现已经30年了并没有大变化(这个维度数据大数据都应该称为数据处理),而聚变的是技术栈维度:hadoop、spark、storm、flink等等,但是闪亮的hadoop不也在没落么,因为技术为业务而生,符合业务需求的才是最合理的技术。而医院大数据建设出的第二个比较大的问题就是追求新技术典型如hadoop,就医院数据体量和应用需求,hadoop真不是最佳实践,而繁杂的运维和庞大高昂的资源硬件成本可能是压垮信心的根本原因。

从大数据平台到数据治理,智慧医院大数据何去何从
大数据2个维度

再来看医院大数据上云,尽管很多人觉得国内是数据隐私和数据安全比较宽松的环境,但是医院数据侧一直都比较谨慎。虽然最近国内出了政策,允许医院将患者数据对患者开发,但是把医院数据放在厂家提供的云上,对于大型三甲医院目前依然不现实。医院除了诊疗水平,最重要的资产就是医院数据,医院数据又比较敏感,医院本身是要遵从严格监管的,所以按照当前形势,更适合医院的还是数据在医院(很多医院通过免费大数据战略合作协议让医院数据上医某云)。

从大数据平台到数据治理,智慧医院大数据何去何从
医院数据运维安全方案

还是回到大数据平台,伴随着大数据概念火热,hadoop缺在逐步没落,就大数据技术栈本身,不存在hadoop架构和oracle架构的选择(在这个点上大量概念混淆,oracle和hive HDFS只是存储方案的差异,hadoop是大数据完整技术栈),只存在数据存储架构的选择,根据数据量、数据使用方式、数据分析方式决策更合理的架构,选了hadoop就不能用oracle吗?这是医院大数据平台建设里经常混淆的点。根据应用场景选择存储方案,根据数据分析需求选择技术栈,如果不清楚需求,何不来个混合架构搞个万金油?其实医院大数据,oracle是可以用的,国产化另论。如果定了oracle是不是就不能用hadoop了呢?

这里又引申到另一个问题,Hadoop、Spark、Flink等大数据技术的发展,医院大数据建设技术要求必提,但是真正建了之后会发现好像哪里不对劲,难道大数据就是这么高大上到信息科要大量学习新技能吗?能用的技术才是好技术,自己都用不了的一定有问题。其实医院信息科真正需要的不应该是Hadoop、Spark、Flink等大数据技术的堆砌,应该是信息科都可以简单上手操作做数据治理,以这些技术为基础的能解决业务问题的产品。也即真正的易操作、专业化、流程化、全链路的数据平台(绝对不是hadoop),这个平台准备后续专门介绍。

智慧医院从大数据平台的建设到数据治理平台建设,大部分是从技术栈的hadoop转向数据专业治理本身,也就是从垂直的技术栈维度转换为横向的数据流维度,还是要平台,而此平台已经不再hadoop。数据治理到底如何做呢?参见前一篇文章《如何做数据治理》,数据治理最早成熟应用是在零售业、银行业,以及运营商,现在每个AI互联网公司都会有数据部门,医院数据治理可能还是先解决自身的业务问题本身,能不能发展到数据中台,还要看医院战略,而不是各种广告中的概念。

还有一点需要补充的,中美贸易摩擦,美对中进行了严格的出口管制,无论从硬件还是软件,能支持国产化会是一个更好的选择。

最后,数据治理本身是一个重运维重交付重实施的事情,当前市场大量充斥草台班子的数据搬运,没有深度长期的价值挖掘,再好的搬运工做的也是劳民伤财的事,参考谷歌和梅奥的十年战略合作协议,这才是医院大数据真正有远见的规划。

简单总结下,智慧医院大数据发展趋势:

1. 政策会频繁颁布,医院大数据(数据)建设一定是必然,目前已经开始稳步发展;

2. 大数据平台概念会褪去,医院真正需要的一定是全产业链整合的数据管理平台;

3. 智慧医院会更加重视数据流即数据治理本身,现阶段还需要一套简单上手的平台辅助;

4. 智慧医院大数据中心依旧以私有云机房为最佳方案;

5. 智慧医院大数据中心需要兼容国产化需求;

6. 找一家AI大数据公司作为长期战略合作伙伴将更加现实,毕竟只讲大数据的大部分都是数据搬运工;

本文章来源于互联网,如有侵权,请联系删除!原文地址:从大数据平台到数据治理,智慧医院大数据何去何从

相关推荐: 模拟量、数字量&PLC

原文:傅工Engineer PLC的模拟量处理,实质是一系列线性转换的过程。 首先,我们需要明确,模拟量是什么。模拟量广泛应用于工业控制过程中,石化、钢铁,暖通、设施农业等任何自动化控制都少不了对于模拟量的处理,而模拟量其实就是模拟自然界各种连续変化的量。 什…