Beautiful Soup 是用Python实现的一个HTML/XML的解析器,主要功能是解析和提取 HTML/XML 数据。

1、Beautiful的来源

网页的HTML代码是超级复杂的并且是不规则的,令人感到可怕(awful)的,很多时候我们需要把它进行格式化已达到美化(Beautiful)目的。

2、Beautiful Soup vs Tag Soup

早在2004年,大多数解析器只能解析格式良好的XML和HTML。而那些杂乱的,格式不好的HTML代码则被称为“标签汤(Tag Soup)”,犹如一锅乱炖汤,只有网络浏览器才能解析它。Beautiful Soup最初是一个HTML解析器,它接受Tag Soup并使其变得漂亮,或者至少是可读的。Beautiful Soup和传统的Tag Soup做对照,前者希望改进用户的使用体验。

标签: none

添加新评论