文本文章提取
提取高质量文章内容和段落
文本文章提取
从网页或文档中提取高质量的文章内容和段落。
功能特点
- 智能段落识别
- 可按段落或句子提取
- 自动过滤广告内容
- 支持提取前N段
使用场景
- 文章内容提取
- 段落筛选
- 内容去噪
- 长文本处理
操作说明
- 在左侧文本框中输入文章内容
- 在设置区域调整提取参数
- 右侧实时显示提取的文章段落
- 点击"复制结果"按钮复制到剪贴板
- 点击"下载文本"按钮下载为文本文件
参数说明
- 最小段落长度:过滤过短的段落
- 提取模式:
- 按段落提取:保留完整段落
- 按句子提取:按句号分割
- 段落和句子:结合两者
- 移除广告内容:过滤常见广告关键词
- 仅提取前N段:限制提取数量
注意事项
- 自动去除HTML标签
- 解码HTML实体
- 建议设置适当的最小长度过滤