Python数据可视化

    作者:课课家教育更新于: 2017-07-12 13:33:19

      欢迎各位阅读本篇文章,本篇文章讲述了教大家如何在from matplotlib import pyplot as plt中计划任务,课课家教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦

      学到了一些用Matplotlib进行数据可视化的方法。在这里整理一下。

      最开始,当然还是要导入我们需要的包:

      # -*- coding=utf-8 -*-

      from matplotlib import pyplot as plt

      from sklearn.datasets import load_iris

      import numpy as np

      import itertools1234512345

      1. 画散点图

      画散点图用plt.scatter(x,y)。画连续曲线在下一个例子中可以看到,用到了plt.plot(x,y)。

      plt.xticks(loc,label)可以自定义x轴刻度的显示,第一个参数表示的是第二个参数label显示的位置loc。

      plt.autoscale(tight=True)可以自动调整图像显示的最佳化比例 。

      plt.scatter(x,y)

      plt.title("web traffic")

      plt.xlabel("Time")

      plt.ylabel("Hits/hour")

      plt.xticks([w*7*24 for w in range(10)],['week %i' %w for w in range(10)])

      plt.autoscale(tight=True)

      plt.grid()

      ##plt.show()1234567812345678

      2. 式拟合并画出拟合曲线

      ## 多项式拟合

      fp2 = np.polyfit(x,y,3)

      f2 = np.poly1d(fp2)

      fx = np.linspace(0,x[-1],1000)

      plt.plot(fx,f2(fx),linewidth=4,color='g')

      ## f2.order: 函数的阶数

      plt.legend(["d=%i" % f2.order],loc="upper right")

      plt.show()12345678912345678

      3. 画多个子图

      这里用到的是sklearn的iris_dataset(鸢尾花数据集)。

      此数据集包含四列,分别是鸢尾花的四个特征:

      sepal length (cm)——花萼长度

      sepal width (cm)——花萼宽度

      petal length (cm)——花瓣长度

      petal width (cm)——花瓣宽度

      这里首先对数据进行一定的处理,主要就是对特征名称进行两两排列组合,然后任两个特征一个一个做x轴另一个做y轴进行画图。

      # -*- coding=utf-8 -*-

      from matplotlib import pyplot as plt

      from sklearn.datasets import load_iris

      import numpy as np

      import itertools

      data = load_iris()

      #print(data.data)

      #print(data.feature_names)

      #print(data.target)

      features = data['data']

      feature_names = data['feature_names']

      target = data['target']

      labels = data['target_names'][data['target']]

      print(data.data)

      print(data.feature_names)123456789101112131415161718123456789101112131415161718

      这里有一个排列组合参考代码,最后是取出了两两组合的情况。

    Python数据可视化_大数据_数据分析_消费风险控制_课课家

      排列组合的结果是feature_names_2包含了排列组合的所有情况,它的每一个元素包含了一个排列组合的所有情况,比如第一个元素包含了所有单个元素排列组合的情况,第二个元素包含了所有的两两组合的情况……所以这里取出了第二个元素,也就是所有的两两组合的情况

      feature_names_2 = []

      #排列组合

      for i in range(1,len(feature_names)+1):

      iter = itertools.combinations(feature_names,i)

      feature_names_2.append(list(iter))

      print(len(feature_names_2[1]))

      for i in feature_names_2[1]:

      print(i)123456789123456789

      下面是在for循环里画多个子图的方法。对我来说,这里需要学习的有不少。比如

      for i,k in enumerate(feature_names_2[1]):这一句老是记不住。

      比如从列表中取出某元素所在的索引的方法:index1 = feature_names.index(k[0]),也即index = list.index(element)的形式。

      比如for循环中画子图的方法:plt.subplot(2,3,1+i)

      比如for循环的下面这用法:for t,marker,c in zip(range(3),”>ox”,”rgb”):

      plt.figure(1)

      for i,k in enumerate(feature_names_2[1]):

      index1 = feature_names.index(k[0])

      index2 = feature_names.index(k[1])

      plt.subplot(2,3,1+i)

      for t,marker,c in zip(range(3),">ox","rgb"):

      plt.scatter(features[target==t,index1],features[target==t,index2],marker=marker,c=c)

      plt.xlabel(k[0])

      plt.ylabel(k[1])

      plt.xticks([])

      plt.yticks([])

      plt.autoscale()

      plt.tight_layout()

      plt.show()12345678910111213141234567891011121314

      这里的可视化效果如下:

      4. 画水平线和垂直线

      比如在上面最后一幅图中,找到了一种方法可以把三种鸢尾花分出来,这是我们需要画出模型(一条直线)。这个时候怎么画呢?

      下面需要注意的就是plt.vlines(x,y_min,y_max)和plt.hlines(y,x_min,x_max)的用法。

      plt.figure(2)

      for t,marker,c in zip(range(3),">ox","rgb"):

      plt.scatter(features[target==t,3],features[target==t,2],marker=marker,c=c)

      plt.xlabel(feature_names[3])

      plt.ylabel(feature_names[2])

      tuple一开始指向的list并没有改成别的list,所以,tuple所谓的“不变”是说,tuple的每个元素,指向永远不变。即指向’a’,就不能改成指向’b’,指向一个list,就不能改成指向其他对象,但指向的这个list本身是可变的!

      理解了“指向不变”后,要创建一个内容也不变的tuple怎么做?那就必须保证tuple的每一个元素本身也不能变。

      条件判断和循环

      条件判断

      计算机之所以能做很多自动化的任务,因为它可以自己做条件判断。

      if语句

      比如,输入用户年龄,根据年龄打印不同的内容,在Python程序中,可以用if语句实现:

      age = 20

      if age >= 18:

      print 'your age is', age

      print 'adult'

      print 'END'

      注意: Python代码的缩进规则。具有相同缩进的代码被视为代码块,上面的3,4行 print 语句就构成一个代码块(但不包括第5行的print)。如果 if 语句判断为 True,就会执行这个代码块。

      缩进请严格按照Python的习惯写法:4个空格,不要使用Tab,更不要混合Tab和空格,否则很容易造成因为缩进引起的语法错误。

      注意: if 语句后接表达式,然后用:表示代码块开始。

      如果你在Python交互环境下敲代码,还要特别留意缩进,并且退出缩进需要多敲一行回车:

      >>> age = 20

      >>> if age >= 18:

      ... print 'your age is', age

      ... print 'adult'

      ...

      your age is 20

      adult

      if-else语句

      当 if 语句判断表达式的结果为 True 时,就会执行 if 包含的代码块:

      if age >= 18:

      print 'adult'

      如果我们想判断年龄在18岁以下时,打印出 ‘teenager’,怎么办?

      方法是再写一个 if:

      if age < 18:

      print 'teenager'

      或者用 not 运算:

      if not age >= 18:

      print 'teenager'

      细心的读者可以发现,这两种条件判断是“非此即彼”的,要么符合条件1,要么符合条件2,因此,完全可以用一个 if ... else ... 语句把它们统一起来:

      if age >= 18:

      print 'adult'

      else:

      print 'teenager'

      利用 if ... else ... 语句,我们可以根据条件表达式的值为 True 或者 False ,分别执行 if 代码块或者 else 代码块。

      注意: else 后面有个“:”。

      if-elif-else语句

      有的时候,一个 if ... else ... 还不够用。比如,根据年龄的划分:

      条件1:18岁或以上:adult

      条件2:6岁或以上:teenager

      条件3:6岁以下:kid

      我们可以用一个 if age >= 18 判断是否符合条件1,如果不符合,再通过一个 if 判断 age >= 6 来判断是否符合条件2,否则,执行条件3:

      if age >= 18:

      print 'adult'

      else:

      if age >= 6:

      print 'teenager'

      else:

      print 'kid'

      这样写出来,我们就得到了一个两层嵌套的 if ... else ... 语句。这个逻辑没有问题,但是,如果继续增加条件,比如3岁以下是 baby:

      if age >= 18:

      print 'adult'

      else:

    else:

      if age >= 6:

      print 'teenager'

      else:

      if age >= 3:

      print 'kid'

      else:

      print 'baby'

      这种缩进只会越来越多,代码也会越来越难看。

      要避免嵌套结构的 if ... else ... ,我们可以用 if ... 多个 elif ... else ... 的结构,一次写完所有的规则:

      if age >= 18:

      print 'adult'

      elif age >= 6:

      print 'teenager'

      elif age >= 3:

      print 'kid'

      else:

      print 'baby'

      elif 意思就是 else if。这样一来,我们就写出了结构非常清晰的一系列条件判断。

      特别注意: 这一系列条件判断会从上到下依次判断,如果某个判断为 True,执行完对应的代码块,后面的条件判断就直接忽略,不再执行了。

      循环

      for循环

      list或tuple可以表示一个有序集合。如果我们想依次访问一个list中的每一个元素呢?比如 list:

      L = ['Adam', 'Lisa', 'Bart']

      print L[0]

      print L[1]

      print L[2]

      如果list只包含几个元素,这样写还行,如果list包含1万个元素,我们就不可能写1万行print。

      这时,循环就派上用场了。

      Python的 for 循环就可以依次把list或tuple的每个元素迭代出来:

      L = ['Adam', 'Lisa', 'Bart']

      for name in L:

      print name

      注意: name 这个变量是在 for 循环中定义的,意思是,依次取出list中的每一个元素,并把元素赋值给 name,然后执行for循环体(就是缩进的代码块)。

      这样一来,遍历一个list或tuple就非常容易了。

      while循环

      和 for 循环不同的另一种循环是 while 循环,while 循环不会迭代 list 或 tuple 的元素,而是根据表达式判断循环是否结束。

      比如要从 0 开始打印不大于 N 的整数:

      N = 10

      x = 0

      while x < N:

      print x

      x = x + 1

      while循环每次先判断 x < N,如果为True,则执行循环体的代码块,否则,退出循环。

      在循环体内,x = x + 1 会让 x 不断增加,最终因为 x < N 不成立而退出循环。

      如果没有这一个语句,while循环在判断 x < N 时总是为True,就会无限循环下去,变成死循环,所以要特别留意while循环的退出条件。

      break退出循环

      用 for 循环或者 while 循环时,如果要在循环体内直接退出循环,可以使用 break 语句。

      比如计算1至100的整数和,我们用while来实现:

      sum = 0

      x = 1

      while True:

      sum = sum + x

      x = x + 1

      if x > 100:

      break

      print sum

      咋一看, while True 就是一个死循环,但是在循环体内,我们还判断了 x > 100 条件成立时,用break语句退出循环,这样也可以实现循环的结束。

      continue继续循环

      在循环过程中,可以用break退出当前循环,还可以用continue跳过后续循环代码,继续下一次循环。

      假设我们已经写好了利用for循环计算平均分的代码:

      L = [75, 98, 59, 81, 66, 43, 69, 85]

      sum = 0.0

      n = 0

      for x in L:

      sum = sum + x

      n = n + 1

      print sum / n

      现在老师只想统计及格分数的平均分,就要把 x < 60 的分数剔除掉,这时,利用 continue,可以做到当 x < 60的时候,不继续执行循环体的后续代码,直接进入下一次循环:

      for x in L:

      if x < 60:

      continue

      sum = sum + x

      n = n + 1

      多重循环

      在循环内部,还可以嵌套循环,我们来看一个例子:

      for x in ['A', 'B', 'C']:

      for y in ['1', '2', '3']:

      print x + y

      x 每循环一次,y 就会循环 3 次。

      Dict类型

      我们已经知道,list 和 tuple 可以用来表示顺序集合,例如,班里同学的名字:

      ['Adam', 'Lisa', 'Bart']

      或者考试的成绩列表:

      [95, 85, 59]

      但是,要根据名字找到对应的成绩,用两个 list 表示就不方便。

      如果把名字和分数关联起来,组成类似的查找表:

      'Adam' ==> 95

      'Lisa' ==> 85

      'Bart' ==> 59

      给定一个名字,就可以直接查到分数。

      Python的 dict 就是专门干这件事的。用 dict 表示“名字”-“成绩”的查找表如下:

      d = {

    d = {

      'Adam': 95,

      'Lisa': 85,

      'Bart': 59

      我们把名字称为key,对应的成绩称为value,dict就是通过 key 来查找 value。

      花括号 {} 表示这是一个dict,然后按照 key: value, 写出来即可。最后一个 key: value 的逗号可以省略。

      由于dict也是集合,len() 函数可以计算任意集合的大小:

      # plt.xticks([])

      # plt.yticks([])

      plt.autoscale()

      plt.vlines(1.6, 0, 8, colors = "c",linewidth=4,linestyles = "dashed")

      plt.hlines(2.5, 0, 2.5, colors = "y",linewidth=4,linestyles = "dashed")

      plt.show() 12345678910111234567891011

      此时可视化效果如下:

      plt.ion()打开交互模式。plt.show()不再阻塞程序运行。

      注意plt.axis()的用法。

      plt.axis([0, 100, 0, 1])

      plt.ion()

      for i in range(100):

      y = np.random.random()

      plt.autoscale()

      plt.scatter(i, y)

      plt.pause(0.01)1234567812345678

      可视化效果:

      相信最后大家阅读完毕本篇文章,肯定学到了不少知识吧?其实大家私下还得多多自学,当然如果大家还想了解更多方面的详细内容的话呢,不妨关注课课家教育平台,在这个学习知识的天堂中,您肯定会有意想不到的收获的!

课课家教育

未登录