通过python分布式开发 网页数据抓取(一)——设计

    作者:课课家教育更新于: 2016-01-08 14:06:17

    大神带你学编程,欢迎选课

      这几天做一个小项目,分给我的模块是对于BOKECC体系网站的抓取。

      从来没有用过Python,这次来尝一下鲜,感觉还行~

      BOKECC就是一个视频网站的解决方案,我的任务很简单,就是给定一个网址,我来抓取对应页面上的数据内容。

      整个系统采用分布式架构,我来负责做爬虫节点。

      

    通过python进行分布式网页数据抓取(一)——设计_python_课课家

     

      简单来说就是整个系统可分布式部署,每个节点接收来自控制者的远程调用,独立完成任务,并向上级汇报完成情况。

      这里采用暴露WebService的方式来提供接口。

      BOKECC体系网站有非常多个,通过进行实际情况调研,发现各个页面在数据上有所不同(但大同小异),为了省事,我决定只用一套代码来爬取所有对应站点。那就要求我们的代码具有通用性。

      另外,客户端要实现0配置,爬取的结果写入数据库。(数据库配置参与也应该由控制者——WEB接口调用者来决定)。所以我们在节点上维护一个数据库连接池。

      大致流程如下:

      

     

      在实际编码过程中也没有严格遵守此流程,进行了相应的扩展,不过大体如上。

      日志记录设计

      

      技术选型:

      开发平台: WindowsXP

      部署平台: 跨平台

      编程语言:python2.5

      IDE+plug-in:MyEclipse 7.0 + pydev

      具体使用的python技术:

      

      下面一节将进入正式编码阶段。  (课课家

python 更多推荐

课课家教育

未登录