[转载]分享: 利用Readability解决网页正文提取问题 – Ivan Zou – 博客园

分享: 利用Readability解决网页正文提取问题 - Ivan Zou - 博客园. 做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢? - 如何从各式各样的网页中提取正文!? 虽然可以用SS为各种网站写脚本做解析, 但是互联网各类网站何止千万种, 纵使累死我们也是做不完的. 这里我给大家热情推荐使用Readability来彻底解决这个难题 (呵呵, 不是做广告, 真心热爱这个好