从大数据看最厉害的医院

    作者:课课家教育更新于: 2017-07-03 18:46:41

      欢迎各位阅读本篇文章,本篇文章讲述了教大家如何在DateFrame中计划任务,课课家教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!

      先啰嗦几句:

      1.最近经常跑医院,医院各种制度,各种流程,交通、住宿都很不方便。所以想做个统计,看看哪个医院比较好。

      2.这是获取某个挂号网站的数据,因为挂号网站并没有形成严格垄断,所以有些医院并不在上面。

      3.另外,一些小的诊所,因为没有网络挂号的必要,这些网站也是没有收录的。

      4.被收录的医院一般都是比较大,人流比较多的医院。

      5.如果有统计建议或者想知道哪个城市的医院情况的可以留一下言

      下面直入主题吧:

      ●医院等级数量

    从大数据看最厉害的医院_地理数据_大数据_数据分析_课课家

      结论:、

      在数据科学中超过10,000包,是主要的编程语言之一。R是开源软件,作为 统计学和计算机科学课程的一部分,在专科和本科大学广泛传授。R使用DateFrame作为API可以方便操控数据。R还有很强大的基础设施,让数据分析师可以很有效的解释数据。

      使用R分析数据会被单机的可用内存量限制,并且R是单线程,在大型数据集上使用R分析不太现实。为了解决R扩展性的问题, Spark社区用R用户熟悉的语法规则使数据处理结构化,基于分布式数据框架开发了SparkR包。Spark提供分布式处理引擎、数据源、off-memory数据结构。R提供了动态环境, 交互式, 打包, 可视化等,而 SparkR 结合了Spark和 R两者的优点。

      在下一环节中, 我们将证明如何集成SparkR和 R,然后用它从传统R用户的视角解决一些典型的数据科学问题。

      SparkR 架构

      SparkR架构包含两种主要的组件:把R—JVM绑定在驱动程序上,这样子R程序就可以把工作提交到Spark集群上并且支持R在Spark执行器上运行

      在SparkR DataFrames上自动执行操作将所有可用节点分布到Spark集群上。

      我们使用socket-based API调用R上JVM的函数。这些函数支持两种语言跨平台使用,而且不使用任何外部库。由于大部分被传递的信息都是控制信息, 所以使用sockets的成本比使用进程内通信方法低。

      数据科学的工作流

      数据科学是一科激动人心的学科, 你可以将原始数据转换成知识,对于R用户来说,典型的数据项目

      首先,您必须将数据导入R。这通常意味着你首先要把数据存储在文件、数据库、云存储或web API,然后将其加载到R的一个数据框架中。

      当数据导入完成之后,最好是将它井然有序的整理。在实际生活中的数据集包括冗余行/列和消失的值,这就需要我们增加步骤来解决这些问题。

      一旦数据整理完成,操作者需要做一个常见的转换步骤select/filter/arrange/join/groupBy。同时, 数据整理和转换被称作数据清洗,因为要将数据转换成合适使用的格式,往往会像一场战斗一样!

      一旦你需要数据以行/列的形式有理化以后,就会生成两个主要的知识引擎:可视化和建模。这些使得他们的优缺点互补了,因此这当中任何真实的分析都会迭代很多次。

      随着数据量持续增长, 数据分析师使用类似的工作流来解决问题, 但是需要添加革命性的工具, 例如 SparkR。然而SparkR 不可能具备所有的R功能, 也没必要, 毕竟不是所有的功能都需要可扩展性,也不是每个数据集都很大。例如,你有10亿条记录,并且你的模型具有有几十个功能的逻辑回归一样简单,你可能就不用训练整个数据集。但是随机森林分类器却有上千个功能,它就可以利用更多的数据。我们应该在正确的地方使用正确的工具,在下一节中, 我们将用一个典型的案例证明 SparkR和 R集成的最佳运作方法。

      将SPARKR + R用于数据科学工作流

      使用SparkR可以克服单机R主要的可扩展性问题并加速数据科学工作流,

      BIG DATA, SMALL LEARNING

      用户通常以存储在HDFS, AWS S3, 或者 RDBMS等系统上、并且存储为 JSON, CSV, ORC或者 parquet等文件格式的大数据集开始。特别是基于云的大数据基础设施不断发展。 数据科学开始联结需要的数据集,然后:

      执行数据清理操作删除无效的行或者列。

      选择具体的行/列。

      以下这些用户一般通过聚合或者采样数据这些步骤来降低数据集的大小。我们通常称这些步骤为数据清洗,数据清洗涉及了数据集操控,并且SparkR是最适合处理这种工作负载的工具。

      预处理后的数据集合在本地,用于建模或者在单机R上执行其他的统计任务。通常数据科学家应该都很了解单机R能从成千上万的CRAN包中获取的利益。

    预处理后的数据集合在本地,用于建模或者在单机R上执行其他的统计任务。通常数据科学家应该都很了解单机R能从成千上万的CRAN包中获取的利益。

      作为数据科学家, 我们通常执行探索性数据分析,并提前导入dplyr 包。dplyr为单机时代方便处理数据提供了很多很棒,容易操作的功能。而在大数据时代,SparkR支持和API接口基本相同的功能,用于处理更大规模的数据集, 对于传统的R用户, 这种功能可以非常顺滑的迁移。

      我们将使用著名航空公司的数据集(http://stat-computing.org/dataexpo/2009/)来证明这篇文章的所描述的观点。

      首先我们使用SparkR DataFrame API的功能做一些预处理输入。作为预处理的一部分,我们决定采用 dropna().删除空行值。

      1.有部分医院找不到具体级别,都归为“其他”了。

      2.三级医院是最高级的,占了三分一,二级医院也差不多。

      3.一级医院只有不到六分一。

      4.出现高级医院比低级医院多的原因估计是很多医院没有被收录,另外很多小诊所可能也没有达到评级标准。

      5.这些医院都分布在哪里呢?下面看看医院的地理分布。

      ●医院的地理分布

      结论:

      1.这些医院都是集中在天河、海珠、越秀比较发达的区域,超过80%。

      2.这个区域也是租房供应量最密集最贵的地方。可以猜想城市规划都是集中发展的。

      3.白云区也有相当多的医院,分布在白云山两旁。这可能是因为早年的规划,那一带当时算是郊区,兴建了一批制药厂,后来就建立一些医院,当然,这只是个人猜测。

      4.离中心区域越远的地方,大医院的分布就越少了,从化、增城、花都、南沙寥寥无几。

      5.所以考虑买房的同学们,真的应该想一下,偏远地区是否值得去,因为太远了,仅仅从租房信息和医院信息来看,基础设施还没完善。推荐旁边的佛山,那边其实更加近。

      ●医院评分

      结论:

      1.这个图是按挂号量来排列的,量最多的是在最前面。

      2.大德路总院不知道是比较特殊还是跟这个网站做了合作,挂号量远远超出其他医院。

      3.黄色的线是医生的平均评价,相对来说比较平稳,也有个别是比较低分的。

      4.绿色的是等待时间,越低分表示等待时间越长,效率越差。

      5.蓝色是总体服务的评价,波动也很大。

      6.通常越大的医院是越多人的,这个肯定会比医务人员多更多。所以造成大医院的等待时间更长,感觉更差,但是并不能就一定说明医疗服务就差的。

      7.还有很多医院的,因为篇幅问题,只能放挂号量最多的20个了。

      8.至于建议就不给了,有些评分特别低的大家自己●医生数

      结论:

    结论:

      1.医生分好多级别的,原始数据里面,有很多是主任医师。所以就分成两个数据来处理。

      2.这个图是按医生数量来排列的。

      3.红色柱是挂号量,从图中看医生多的医院,有部分挂号量很低,应该会比较少人。

      4.互联网医院医生最多,其主要是通过网络进行诊断,估计很多其他医院的医生在里面兼职。

      5.大德路总院的医生也是最多的,看来挂号量这么高也有妥妥的实力原因。

      6.中山大学、广州中医药大学、南方医科大学对广州的医疗行业影响巨大。

      7.医疗这种极度专业的行业,我们外行人并不能做出比较准确的判断,所以只能从大数据透露出来的信息中找出一点点希望有用的信息。大家可以保存下来以备使用,或者关注公众号

      ●网络诊断数量

      结论:

      1.网络时代怎么少得了网络医疗,挂号网站除了提供挂号,还提供了网络诊断。

      2.广州互联网医院占了40%多的份额,妥妥的第一。

      3.南方医科大学也有相当多的份额。其他医院的份额就少很多了。

      4.这个网站的价格是60元进行一次邮件诊断,可以上传图片,200元10分钟视频诊断。

      5.对于中国人现在的消费习惯来说,这个收费难以判断是否合理。毕竟还是很多人习惯以实物来判断价值,而不是服务。

      6.从大德路总院来看,网络诊断10000多的量,跟挂号量400多万来比较是微不足道的。也可以看出这个领域还有巨大的发展空间。但是这个处理技术,更多的是人们生活习惯和观念的转变。

      最后再说一次,对医疗行业真的不熟,但是数据不会说谎,仁者见仁智者见智,还是大家判断好了。

      相信最后大家阅读完毕本篇文章,肯定学到了不少知识吧?其实大家私下还得多多自学,当然如果大家还想了解更多方面的详细内容的话呢,不妨关注课课家教育平台,在这个学习知识的天堂中,您肯定会有意想不到的收获的!

课课家教育

未登录

1