达内实习--python简洁的网络编程

来自发布于：2019-08-04 23:17:21

在前几天，我们主要学习了python的基本语法，在后来两天我们接触了python的网络编程。爬虫是从网络获取大量的目标数据，所以网络技术运用的好坏直接决定着后续爬虫核心技术的学习。

在用python进行网络编程前，我们首先了解了网页的特点。网页的三大特点：1.网页都有自己唯一的url（网址）。2.网页都是使用HTML编写来描述网页信息。3.网页都是用HTTP/HTTPS来传输数据。正因为网页有这些特点，所以可得出爬虫的基本思路为：1.确定要爬取的网页url地址。2.通过HTTP/HTTPS协议来获取HTML页面。3.提取HTML页面中的有用数据：a.如果是需要的数据，直接保存。b.如果是页面里的其他url，则继续执行第二步。

通过一天的学习，我大概了解到Python网络爬虫的特点为：1.拥有各种爬虫框架，方便高效的下载网页。2.多线程、进程模型成熟稳定，爬虫是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待。多线程或进程会更优化程序效率，提升整个系统下载和分析能力。3.GAE 的支持，当初写爬虫的时候刚刚有 GAE，而且只支持 Python ，利用 GAE 创建的爬虫几乎免费，最多的时候我有近千个应用实例在工作。

我们最后的实践内容为利用python网络编程实现有道字典的*爬取翻译，并且输入的语言不受限制，输入他国任何语言都可自动翻译为中文，输入中文自动翻译为英文。

点赞 (0) 回复