在浏览网页时,我们常常遇到这样的困扰:文章被 Google Adsense广告、侧边栏、推荐阅读、Cookie隐私弹出、浮动导航栏包围,阅读体验大打折扣。另一方面,当我们想将网页内容用于笔记、AI分析、存档时,需要干净的核心内容,而非一堆包含乱七八糟HTML元素的完整页面。

网页核心内容提取和网页内容编辑工具汇总

汇总一下能够帮助打造更专注、更干净的浏览与内容消费体验的工具,整体而言,有两类工具:

网页核心内容提取工具:自动识别并剥离无关元素,只保留标题、正文、作者、日期等主要内容(常输出干净Markdown或结构化文本)
网页内容编辑工具:允许用户手动或半自动修改页面UI,去除/隐藏/调整任意元素(类似“所见即改”)

网页核心内容提取工具
网页内容提取的核心目标是:从复杂 HTML 中提取“真正有价值的正文”,典型去除内容包括:

广告(Ads)
导航栏(Nav)
推荐内容(Recommendations)
评论区(Comments)

最终输出:

只包含核心内容的HTML
Markdown
纯文本
此类工具的鼻祖是Mozilla Readability,但由于Mozilla Readability 更新维护较慢,如今已涌现更多现代替代品,尤其适合AI时代(LLM/RAG需要干净输入)。

Mozilla Readability: