type
status
date
slug
summary
tags
category
icon
password
URL
今天一狠心,使用一个工具扒取了迈点网的很多报告(仅用于科研项目,不会商用更不会公开,请原谅),但是是html页面,里面内容中还带有很多代码,几百篇报告不可能手动再去复制里面的文字内容,于是AI又被搬上了荧幕。
提示词:
AI 回复:
代码:
上面的代码能将html里多余的代码都删除,但是文件格式还是html,虽然html也是一种文本格式,可以使用记事本直接打开,但是总是看着不顺眼,所以让AI继续生成代码将文件夹里的所有html文件转换成txt文件。
从扒取报告到提取文本内容再到格式转换,还包含AI写代码,几百文件前后用了不到20分钟……
- 作者:Miro
- 链接:http://begs.cn/article/tech-pick-up-content
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章