在前几天,我们主要学习了python的基本语法,在后来两天我们接触了python的网络编程。爬虫是从网络获取大量的目标数据,所以网络技术运用的好坏直接决定着后续爬虫核心技术的学习。
在用python进行网络编程前,我们首先了解了网页的特点。网页的三大特点:1.网页都有自己唯一的url(网址)。2.网页都是使用HTML编写来描述网页信息。3.网页都是用HTTP/HTTPS来传输数据。正因为网页有这些特点,所以可得出爬虫的基本思路为:1.确定要爬取的网页url地址。2.通过HTTP/HTTPS协议来获取HTML页面。3.提取HTML页面中的有用数据:a.如果是需要的数据,直接保存。b.如果是页面里的其他url,则继续执行第二步。
通过一天的学习,我大概了解到Python网络爬虫的特点为:1.拥有各种爬虫框架,方便高效的下载网页。2.多线程、进程模型成熟稳定,爬虫是一个典型的多任务处理场景,请求页面时会有较长的延迟,总体来说更多的是等待。多线程或进程会更优化程序效率,提升整个系统下载和分析能力。3.GAE 的支持,当初写爬虫的时候刚刚有 GAE,而且只支持 Python ,利用 GAE 创建的爬虫几乎免费,最多的时候我有近千个应用实例在工作。
我们最后的实践内容为利用python网络编程实现有道字典的*爬取翻译,并且输入的语言不受限制,输入他国任何语言都可自动翻译为中文,输入中文自动翻译为英文。
点赞 (0)
回复