近段时间在批量建站,又看了QuickCreator 文章(作者:Tony Yan,请查看文章结尾参考资料-参考 1),感觉关键词聚类操作可变成可复用、可调参、成本可控的内容生成流程。
关键词聚类分组后便于新建栏目和支柱页(Pillar page),以及后续内容生产。之前都是使用 WriterZen的Keyword Planner进行聚类分组,而且分组后有搜索量/黄金得分等参考数据,便于筛选pramary keywords来编写文章。奈何囊中羞涩,WriterZen太贵了,实在不想充值就想着找找替代方案。
基于以上原因有了本篇文章。大体思路都是 ChatGPT 和 Gemini 给的。先让 ChatGPT 给思路,跑了几版代码,结果不符合预期。后来换成Gemini 给的思路,使用“SERP 条件 + BGE 语义 + 图聚类”,再反复调参数,才得到一版能用于内容规划的关键词聚类方案。
本文不是“科普”,而是一篇复盘,其中包含大量失败方案,而且最后跑通方案和参数也不具备通用性,可能不同品类新站都需要调整参数等,仅仅作为参考。聚类后补充搜索量、CPC、`allintitle搜索结果` 和黄金得分(KGR,请查看文章结尾处-参考 2 获取详细信息),以及下一步文章生产仅作为补充内容。
为什么要自己做关键词聚类?
| 需求 | WriterZen | 本地版本SERP+BGE+图聚类 |
| 成本 | 高(会员+token) | 低(接口费用) |
| 参数调整 | 有限 | 可调聚类阈值、接口参数等 |
| 聚类方法 | 黑盒 | 可调整不同聚类方法 |
| 工程化 | 不方便 | 便于新站工作流/站群流接入 |
1. 关键词聚类思路整理
结合参考资料 1 和万能的chatgpt,得到如下思路:
- 基于SERP的聚类
- 基于语义关键词聚类(NLP 聚类)
- 混合聚类(图聚类)
- 大模型聚类(英文:ChatGPT/Gemini;中文:千问/DeepSeek。最好多个模型结果参考着进行聚类)
4种聚类方案差异对比
| 评估维度 / 指标 | 大模型聚类 | SERP 聚类 | NLP聚类 | 混合聚类 |
| 成本(万词) | $25.00 ~ $45.00(调GPT接口计算) | $10.00 | $0.00 | $1.00 ~ $2.00 |
| 时间效率(万词) | 约 13.5 min | 约 8.3 min | 约 4.5 s | 约 1.2 min |
| 内存占用 | 极低 | 约20MB | 约 1.5GB(加载向量模型) | 约 2GB |
| 聚类质量(SEO对齐度,人工预估) | 70% | 80% | 55%(语义聚类,无搜索意图) | 92% |
| 漏词率 | 5% ~ 10%(特别是长文本,极易发生幻觉和漏词) | 0% | 0% | < 1% |
| 增量更新成本 | 极低 | 极高(新增词需重跑) | 极低(新词计算向量计算即可) | 中等(对新簇动态微调) |
结论:
- 关键词个数 500 内,直接使用大模型+人工校对。
- 关键词个数 500 以上,使用混合聚类。(本文主要以混合聚类为主介绍)
为什么不直接使用 ChatGPT/千问 直接聚类?
关键词数量几百而且成本有限的话,也不是不可以。毕竟数量少可人工兜底。如果关键词数量太大时会有如下问题:
- –缺乏敏感度。超长长尾词、行业专属词/黑话、新兴词(大模型停留在其训练截止日期,晚于训练日期的新兴产品/工具/品牌)存在错乱问题。
- 与 google 真实情况不一致。大模型归为相同主题,但google 真实反馈不一致。比如:AI工作流自动化工具 vs 如何自己开发AI工作流。AI工作流自动化工具,前 10 名全是 B2B 商业落地页/软件官网(搜索意图为 Commercial), 如何自己开发AI工作流,前 10 名全是 GitHub 、技术博客、教程为主(搜索意图为 Informational),不应该归为一个主题。
- 幻觉和不稳定性。一定概率存在输入 800 词,吐出 801 词或者模型修改后的长尾关键词。
基于以上考虑如果关键词量级更小,比如 300 内,可以使用大模型+人工来最快捷且成本低。如果关键词量级比较大,如果 大几百甚至几万,最好以 SERP为主。
2. 实测样本、工具、接口选择评估
2.1 SERP接口选择
通过对比Tavily、Serper、SerpAPI、serpbase、Exa、spider.cloud、valueserp等接口结果与真实google搜索结果,最终选择Tavily、Serper、serpbase,结合费用成本和并行情况,最终选择如下:
- 免费:优先使用Tavily(每月 1000)、Serper(每个账号 2500次 免费调用)
- 付费:使用SerpBase(最便宜$0.5 / 1k,量大可达$0.3 / 1k)。Serper差不多$1 / 1k,而且$50起充。Tavily更贵,$8 / 1k。使用ValueSerp,因为其支持查看搜索结果数和related search和related questions($2.5 / 1k)
2.2 模型选择
因本地mac运行embedding模型,通过比较模型大小、CPU效率(1000字符转换为向量所耗时)、准确度等,最终选择模型如下:
bge-base-zh-v1.5 (优先使用:准确度高,250MB,512维度,速度快)
bge-small-zh-v1.5 (准确度一般,48MB,512维度,速度极快)
bge-small-en-v1.5(优先使用:准确度一般,37MB,512维度,速度极快)
all-MiniLM-L6-v2(准确度一般,91MB,512维度,速度快)
2.3 聚类方法选择
大模型测试:使用chatgpt测试小关键词样本、中关键词样本、真实关键词样本,测试效果并不理想。
NLP 测试:在不知道簇数的情况下聚类,可选择层次聚类、HDBSCAN、图聚类算法。测试NLP下使用层次聚类、HDBSCAN算法聚类,结果未达到预期,跟真实结果不差距较大,还不如直接使用大模型。
| 聚类方法 | 优点 | 缺点 |
| 层次聚类 | 不必指定中心词 | 阈值换一批词就要重调 |
| HDBSCAN | 能识别噪声 | 参数敏感,结果不稳定 |
| 纯 BGE 相似度 | 本地快、成本低 | 语义相近不等于同一搜索意图 |
混合聚类:
ChatGPT 版:SERP * 0.7 + NLP * 0.3,阈值为综合评分 > 0.75 即可聚类
Gemini 版本:SERP URL ≧ 3;SERP URL = 2 && NLP ≧0.55 ; NLP ≧0.85,满足以上条件即可聚类
结论:
跑通流程最终选择了Serper 最为 SERP 接口,bge-base-zh-v1.5 跑中文,bge-small-en-v1.5 跑英文,混合聚类为主。以下表格为补充其他选择准备。
| 项目 | 测试设置 |
| 关键词测试集 | 小规模跑通代码流程:6 个关键词(测试集) 中规模测试算法实际应用:47 个关键词(测试集) 大规模实践应用:800 个关键词(验证集) |
| 主要语言 | 测试集关键词以中文为主 实践以英文为主 |
| SERP 来源 | Serper 为主,必要时对比 Serpbase / ValueSERP |
| 模型 | 中文 bge-base-zh-v1.5,英文 bge-small-en-v1.5 |
| 聚类方法 | 混合聚类为主 |
| 验收方式 | 人工验证(抽查主词、长尾词、页面类型、误合并、漏合并) 结合WriterZen 已聚类数据对比(验证集) |
3. 关键词聚类实践
3.1 第一版:ChatGPT版的 SERP+NLP+阀值聚类思路失败
结合实际生成和落地,稍微修改了一下方案为Graph Clustering + SERP Similarity,使用图聚类(Union-Find)
参考资料:
参考 1:关键词聚类:出海企业如何在 AI 搜索时代建立主题权威
参考 2:All-in-title and KGR (Keyword Golden Ratio)
参考 3:How Golden Filter was developed (Part 2) – KGR updated