关键词聚类方案：如何用SERP+BGE+图聚类做出跨境网站自动聚类分组效果-vigflow

目录（The Table Of Content）

近段时间在批量建站，又看了QuickCreator 文章（作者：Tony Yan，请查看文章结尾参考资料-参考 1），感觉关键词聚类操作可变成可复用、可调参、成本可控的内容生成流程。

关键词聚类分组后便于新建栏目和支柱页（Pillar page），以及后续内容生产。之前都是使用 WriterZen的Keyword Planner进行聚类分组，而且分组后有搜索量/黄金得分等参考数据，便于筛选pramary keywords来编写文章。奈何囊中羞涩，WriterZen太贵了，实在不想充值就想着找找替代方案。

基于以上原因有了本篇文章。大体思路都是 ChatGPT 和 Gemini 给的。先让 ChatGPT 给思路，跑了几版代码，结果不符合预期。后来换成Gemini 给的思路，使用“SERP 条件 + BGE 语义 + 图聚类”，再反复调参数，才得到一版能用于内容规划的关键词聚类方案。

本文不是“科普”，而是一篇复盘，其中包含大量失败方案，而且最后跑通方案和参数也不具备通用性，可能不同品类新站都需要调整参数等，仅仅作为参考。聚类后补充搜索量、CPC、`allintitle搜索结果` 和黄金得分（KGR，请查看文章结尾处-参考 2 获取详细信息），以及下一步文章生产仅作为补充内容。

为什么要自己做关键词聚类？

需求	WriterZen	本地版本SERP+BGE+图聚类
成本	高（会员+token）	低（接口费用）
参数调整	有限	可调聚类阈值、接口参数等
聚类方法	黑盒	可调整不同聚类方法
工程化	不方便	便于新站工作流/站群流接入

1. 关键词聚类思路整理

结合参考资料 1 和万能的chatgpt，得到如下思路：

基于SERP的聚类
基于语义关键词聚类（NLP 聚类）
混合聚类（图聚类）
大模型聚类（英文：ChatGPT/Gemini；中文：千问/DeepSeek。最好多个模型结果参考着进行聚类）

4种聚类方案差异对比

评估维度 / 指标	大模型聚类	SERP 聚类	NLP聚类	混合聚类
成本（万词）	$25.00 ~ $45.00（调GPT接口计算）	$10.00	$0.00	$1.00 ~ $2.00
时间效率（万词）	约 13.5 min	约 8.3 min	约 4.5 s	约 1.2 min
内存占用	极低	约20MB	约 1.5GB（加载向量模型）	约 2GB
聚类质量（SEO对齐度，人工预估）	70%	80%	55%（语义聚类，无搜索意图）	92%
漏词率	5% ~ 10%（特别是长文本，极易发生幻觉和漏词）	0%	0%	< 1%
增量更新成本	极低	极高（新增词需重跑）	极低（新词计算向量计算即可）	中等（对新簇动态微调）

结论：

关键词个数 500 内，直接使用大模型+人工校对。
关键词个数 500 以上，使用混合聚类。（本文主要以混合聚类为主介绍）

为什么不直接使用 ChatGPT/千问直接聚类？

关键词数量几百而且成本有限的话，也不是不可以。毕竟数量少可人工兜底。如果关键词数量太大时会有如下问题：

–缺乏敏感度。超长长尾词、行业专属词/黑话、新兴词（大模型停留在其训练截止日期，晚于训练日期的新兴产品/工具/品牌）存在错乱问题。
与 google 真实情况不一致。大模型归为相同主题，但google 真实反馈不一致。比如：AI工作流自动化工具 vs 如何自己开发AI工作流。AI工作流自动化工具，前 10 名全是 B2B 商业落地页/软件官网（搜索意图为 Commercial），如何自己开发AI工作流，前 10 名全是 GitHub 、技术博客、教程为主（搜索意图为 Informational），不应该归为一个主题。
幻觉和不稳定性。一定概率存在输入 800 词，吐出 801 词或者模型修改后的长尾关键词。

基于以上考虑如果关键词量级更小，比如 300 内，可以使用大模型+人工来最快捷且成本低。如果关键词量级比较大，如果大几百甚至几万，最好以 SERP为主。

2. 实测样本、工具、接口选择评估

2.1 SERP接口选择

通过对比Tavily、Serper、SerpAPI、serpbase、Exa、spider.cloud、valueserp等接口结果与真实google搜索结果，最终选择Tavily、Serper、serpbase，结合费用成本和并行情况，最终选择如下：

免费：优先使用Tavily（每月 1000）、Serper（每个账号 2500次免费调用）
付费：使用SerpBase（最便宜$0.5 / 1k，量大可达$0.3 / 1k）。Serper差不多$1 / 1k，而且$50起充。Tavily更贵，$8 / 1k。使用ValueSerp，因为其支持查看搜索结果数和related search和related questions（$2.5 / 1k）

2.2 模型选择

因本地mac运行embedding模型，通过比较模型大小、CPU效率（1000字符转换为向量所耗时）、准确度等，最终选择模型如下：

中文
英文

bge-base-zh-v1.5 （优先使用：准确度高，250MB，512维度，速度快）
bge-small-zh-v1.5 （准确度一般，48MB，512维度，速度极快）

bge-small-en-v1.5（优先使用：准确度一般，37MB，512维度，速度极快）
all-MiniLM-L6-v2（准确度一般，91MB，512维度，速度快）

2.3 聚类方法选择

大模型测试：使用chatgpt测试小关键词样本、中关键词样本、真实关键词样本，测试效果并不理想。

NLP 测试：在不知道簇数的情况下聚类，可选择层次聚类、HDBSCAN、图聚类算法。测试NLP下使用层次聚类、HDBSCAN算法聚类，结果未达到预期，跟真实结果不差距较大，还不如直接使用大模型。

聚类方法	优点	缺点
层次聚类	不必指定中心词	阈值换一批词就要重调
HDBSCAN	能识别噪声	参数敏感，结果不稳定
纯 BGE 相似度	本地快、成本低	语义相近不等于同一搜索意图

混合聚类：

ChatGPT 版：SERP * 0.7 + NLP * 0.3，阈值为综合评分 > 0.75 即可聚类

Gemini 版本：SERP URL ≧ 3；SERP URL = 2 && NLP ≧0.55 ; NLP ≧0.85，满足以上条件即可聚类

结论：

跑通流程最终选择了Serper 最为 SERP 接口，bge-base-zh-v1.5 跑中文，bge-small-en-v1.5 跑英文，混合聚类为主。以下表格为补充其他选择准备。

项目	测试设置
关键词测试集	小规模跑通代码流程：6 个关键词（测试集）中规模测试算法实际应用：47 个关键词（测试集）大规模实践应用：800 个关键词（验证集）
主要语言	测试集关键词以中文为主实践以英文为主
SERP 来源	Serper 为主，必要时对比 Serpbase / ValueSERP
模型	中文 bge-base-zh-v1.5，英文 bge-small-en-v1.5
聚类方法	混合聚类为主
验收方式	人工验证（抽查主词、长尾词、页面类型、误合并、漏合并）结合WriterZen 已聚类数据对比（验证集）

3. 关键词聚类实践

3.1 第一版：ChatGPT版的 SERP+NLP+阀值聚类思路失败

结合实际生成和落地，稍微修改了一下方案为Graph Clustering + SERP Similarity，使用图聚类（Union-Find）

参考资料：

参考 1：关键词聚类：出海企业如何在 AI 搜索时代建立主题权威
参考 2：All-in-title and KGR (Keyword Golden Ratio)
参考 3：How Golden Filter was developed (Part 2) – KGR updated

关键词聚类方案：如何用SERP+BGE+图聚类做出跨境网站自动聚类分组效果