首页

手机版

首页游戏库网络软件系统工具应用软件图形图像多媒体类聊天软件安全软件编程开发

当前位置：电脑软件网络软件浏览辅助GeneralNewsExtractor

GeneralNewsExtractor 官方版v0.2.6

大小：16KB
语言：简体中文
类别：浏览辅助
类型：免费软件
授权：国产软件
时间：2021/04/27
官网：https://www.3h3.com
环境：Windows7, Windows10, WindowsAll

4.4分

相关软件

软件简介相关版本猜你喜欢精品推荐用户评论

GeneralNewsExtractor是一个非常实用的新闻网页正文通用抽取器，软件并非是通过爬虫的原理，而是基于论文《基于文本及符号密度的网页正文提取方法》来实现的正文抽取器。可以帮助用户快速提取网页文章的内容，标题和作者。适用于多个主流的新闻资讯平台，目前测试下来准确率是100%，非常可观。

GeneralNewsExtractor图片1

开发介绍

项目起源

开发这个项目，源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》）

这篇论文中描述的算法看起来简洁清晰，并且符合逻辑。但由于论文中只讲了算法原理，并没有具体的语言实现，所以我使用 Python 根据论文实现了这个抽取器。并分别使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试，发现提取效果非常出色，几乎能够达到100%的准确率。

项目现状

在论文中描述的正文提取基础上，我增加了标题、发布时间和文章作者的自动化探测与提取功能。

目前这个项目是一个非常非常早期的 Demo，发布出来是希望能够尽快得到大家的使用反馈，从而能够更好地有针对性地进行开发。

本项目取名为抽取器，而不是爬虫，是为了规避不必要的风险，因此，本项目的输入是 HTML，输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

本项目现在不会，将来也不会提供主动请求网站 HTML 的功能。

使用说明

一般情况下，你只需要把网页粘贴到最上面的多行文本框中，然后点提取按钮即可。通过附加更多的参数，可以让提取更精确。

标签：网页文字提取

下载地址

PC版/

GeneralNewsExtractor 官方版v0.2.6

普通下载通道

精品推荐

网友评论

浏览辅助周排行/ 浏览辅助总排行

1 flash中心

2.15MB
详情
2 Tampermonkey(油猴插件)

1.21MB
详情
3 scholarscope(pubmed影响因子插件)

134KB
详情
4 猫抓下载工具

182KB
详情
5 Custom Cursor for Chrome(自定义光标)

3.19MB
详情
6 奥维互动地图电脑版破解版

12.54MB
详情
7 暴力猴插件

233KB
详情
8 至尊宝店群工具

158KB
详情

装机必备软件

百度云管家

360安全卫士

百度输入法

软件介绍


猜你喜欢
相关版本
下载地址
精品推荐
返回顶部

回顶部去下载

返回顶部