基于区块的网页正文自动提取实例

    测试DEMO :http://autoext.fineyi.com

    基于区块的网页正文自动提取实例,对于资讯类网站,提取准确度很高,能较好的保留正文格式,图片。

    以下是已经测试过的网站:    

    网易科技http://tech.163.com

    新浪科技http://tech.sina.com.cn

    腾讯新闻http://news.qq.com

    搜狐IT:http://it.sohu.com

    36kr:http://www.36kr.com

    艾瑞网http://www.iresearch.cn

    爱范儿http://www.ifanr.com

    …

    因为对科技类比较感兴趣,所以就对科技类网站测试的比较多了,欢迎大家测试,指正。

    怡然之乐