BeautifulSoup4库

发表于 2019-06-28 更新于 2020-07-14 分类于爬虫本文字数： 14k 阅读时长 ≈ 13 分钟

和lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要的功能也是解析和提取HTML/XML数据。

lxml只会局部遍历，而BeautifulSoup是基于HTML DOM的，它会加载整个文档，解析整个DOM树，因此在时间和内存上也会有很大的开销，所以性能要低于lxml。

BeautifulSoup用来解析HTML比较简单，其API设计的非常人性化，同时BeautifulSoup也支持CSS选择器、Python标准库中的HTML解析器、lxml的XML。

阅读全文 »

XPath语法详解

发表于 2019-06-28 更新于 2020-07-14 分类于爬虫本文字数： 3.9k 阅读时长 ≈ 4 分钟

Xpath语法和lxml模块

什么是XPath？

xpath (XML Path Language)是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

阅读全文 »

Python 3中的Urllib库的使用

发表于 2019-06-15 更新于 2020-07-14 分类于爬虫本文字数： 4.7k 阅读时长 ≈ 4 分钟

在Python中有着这样一个常用的、基础的爬虫库。在Python2中为urllib.urllib，在Python3中官方为了便于管理，将和请求有关的函数封装进了urllib.request模块中。

在此处，使用Python3做记录。

阅读全文 »

为Next加上彩色标签云

发表于 2019-05-20 更新于 2020-07-14 分类于起始篇本文字数： 1.9k 阅读时长 ≈ 2 分钟

最近一直看hexo官方的标签云太难看，就google了一下。最终搜索到了这篇文章（传送门），在此也做下记录吧！

阅读全文 »

使用Cython保护Python文件

发表于 2019-05-02 更新于 2020-07-14 分类于 Cython 本文字数： 3.5k 阅读时长 ≈ 3 分钟

使用Cython保护Python代码库

从语言层面来说，Cython是一种拓展的Python，其文件的扩展名为.pyx。这种类型的文件通过编译之后可以变成供Python直接调用的动态链接库（Linux/Mac下是.so，Windows下是.pyd）。根据官方文档，主要如下几编译方式：

(推荐) 通过setup.py中调用Cython.Build进行编译

使用pyximport调用.pyx文件，这种方法.pyx文件相当于普通的.py文件

在命令行使用cython命令从.pyx文件生成.c文件，再使用外部编译器将.c文件编译成Python可用的库

使用Jupyter Notebook或者Sage Notebook直接运行Cython代码

阅读全文 »

PostgreSQL学习总结

发表于 2019-05-02 更新于 2020-07-14 分类于 PostgreSQL 本文字数： 2.2k 阅读时长 ≈ 2 分钟

PG数据库：

理解：对于PostgreSQL数据库，我个人理解为和MySQL数据库很相识，比MySQL功能多，在pg数据库中，用户可以指定表集合，这点和mongodb很像。

模式(架构)：是指定的表集合，它还可以包含视图、索引、序列、数据类型、运算符和函数.

阅读全文 »

Git学习总结

发表于 2019-05-02 更新于 2020-07-14 分类于 Git 本文字数： 3.2k 阅读时长 ≈ 3 分钟

git整理：

工作区中的.git目录为Git版本库，git add将文件提交到暂存区,git commit将文件提交到本地仓库，git push将文件提交到远程仓库。

阅读全文 »

Docker学习总结

发表于 2019-05-02 更新于 2020-07-14 分类于 Docker 本文字数： 5.4k 阅读时长 ≈ 5 分钟

Docker 中的三个基本概念

镜像(Image)
容器(Container)
仓库(Repository)

阅读全文 »

0%