冰糖自媒体图文素材采集器是一款强大的数据抓取工具,经常找到资料的用户应该知道,不少网站都禁止用户复制内容,那么如果用户想要获得相关资料该怎么办,使用这款工具帮助完成。
软件介绍
如果恰好你是做自媒体的,那么这款软件能帮助你采集图片及文章等素材哦。目前可采集大部分网站上的图文素材,包括百度文库、360图书馆、起点中文等相关站点的文章文字,就算网页不允许复制也能抓取。
使用方法
1、运行软件,在目标网址处输入你需要采集的网站地址,可以是一个图片站或是一篇文章、小说,或者是图文版网页,然后点击“访问”按钮等到软件彻底打开该网页后,采集图片列表会自动列出该页面所包含的图片链接。
网页打开过程视你网速快慢,可能需要几秒钟。这过程中若是弹出“安全警报”的对话框,问你是否继续,那是ie浏览器的安全设定提示,点击“是”即可继续访问该站以便于采集,若点击“否”就采集不到了。有时可能还会弹出脚本错误的提示,不用理会点是或则否就行。
2、待采集的网站图片链接全部出来后(鼠标移动到软件浏览器窗口会提示“网页加载完毕”),点击“抓取并保存文字”按钮,即可自动抓取该网页内的文字,并自动按标题保存在你指定的“存放路径”下面(文章篇幅太长的话,软件右边文字抓取框可能显示不完整,这时请打开自动保存的文字采集文件查看)。
需要采集图片的,这时候点击“开始采集/压缩”按钮即可自动批量采集,图片自动保存到你指定的“存放路径”文件夹下面。当然你也可以选择只下载单个文件,并且可以点击“预览图片”按钮预览待采集的图片文件。为了节约空间,在批量下载图片的同时,你还可以在“自动压缩采集图片”选项打上勾,那么下载的图片将会被自动压缩(当然图片质量会同步受损),如果压缩之前先备份原图片文件,你还可以在“压缩前备份图片”选项打上勾即可。
批量压缩图片功能除了能压缩远程采集下来的图片文件外,还可以批量压缩你(电脑)本地图片文件哦。
3、当前网页的图文素材采集完后,还想采集下一栏目或是下一篇网页的,需要鼠标在软件浏览器窗口点击该网站相关栏目或“下一页”(“下一篇”),待彻底打开下一个页面后再行采集即可。“设为空白页”旁边的小箭头可以放大软件浏览器窗口,便于查看相关内容。
4、每次输入的网址软件会自动保存到下拉菜单,方便下次你直接点开访问。若是内容太多想清除的话打开软件安装目录下面myurl.ini文件即可整理删除网址。“设为空白页”打上勾,软件每次启动时不会自动打开网站主页。
5、采集日志保存在软件安装目录下面mylog.txt。
此外,预览有的png图片或是空网址图片可能会报错或闪退,请无视即可。
标签: 网站爬取
装机必备软件
网友评论