重庆和诚筑

什么是关键词,关键词分析

发布时间: 2018-02-01      来源: 重庆和诚筑www.023hcz.com


今天来跟大家说一下关于关键词的提取和作用,今天这个相当于是打通各位对于关键词概念的模糊。

关键词选取

其实seo这一行 就页面创造来说,语言学专业的同僚要有更多的优势,因为在页面布局上,这类朋友,能共轻松区分词语之间的关系,从而轻松搭建分类页面,和聚类页面,因为本身关键词也区分分类和聚类,当然 不是语言学科的各位同僚也不用担心,他们可以通过他们的学术理论得到页面的配值,但是我们也可以通过代码,把关键词的权重值,向量关系,和分类关系,给大家说一下。
 
首先我们都说核心关键词,但是核心关键词是什么呢?
核心关键词理论一,相对理论,你给页面定位的哪个词就是核心关键词,如果你放在首页,那么这个词就是你页面的核心关键词,现在百度除了,清风,飓风,闪电,惊雷,四个算法,无一不再考究我们本身的基础功底,点击不能放肆了,采集不能随意了,标题不能作弊了,关键词堆砌阀值不能过高了等等,这些无一不提醒着你,内容优化的时代来了,
今天跟大家说一下seo的基本功,了解什么是关键词。
专业的seo如何打造聚类页面,算是个高难度的知识点,卢松松的博客上有,但是太难
那普通人员如何打造聚类页面呢?是不是有热点词,搜素量大的词就可以布置到我首页上呢?
首先今天天小哥带你完全剖析一部分关于关键词的知识,让你们在操作以后上,更加的得心应手,我们熟知,人工分拣关键词,很多人都是按照词根词缀来分拣的,首先先批量处理关键词,然后统计各个词的指数啊,搜索量啊,来帮你分拣出来了关键词,那么围绕这些关键词我们挑出了有流量,有转化的关键词,下一步要干嘛呢?
 
答案是理清关键词的上下级关系,构建词法树,达到根深蒂固不动如山的排名,而词法树的构建就是看一个seo人员挖掘和寻找关键词的能力了,首先这个词要有搜索量,要有流量,这些用户因素考虑进去以后,剩下的就是根据  词本身的法则构造聚类和分类页面,
 
本次天小哥再次强调一下什么是分类,什么是聚类,
 
关键词是精简短炼的,如果给关键词加了限定语义的概念,而我们则可以根据关键词的限定概念,来对关键词进行分类,或者根据关键词的特征倾向(对关键词进行聚类),无论是分类和聚类他们本质相同,但切入的方向不同,由于上位词可涵盖下位词,下位词归属于上位词,因此分类是从上往下分,而聚类是由下往上归,所以我们也不难理解关键词为什么是金字塔结构,但是聚类我们应该怎么打造呢,
 
 
好我们接下来认识一下,聚类页面打造的时候有个词向量,
 选择关键词
今天我个大家介绍几种同义词,反义词之外的几种语义聚合关系,并谈谈他们在词语解释中的作用。
 一、上下义关系
上下义关系是词语之间语义上的包含与被包含的关系,凡是一个词语的全部语义(概念意义)包括在另一 个词语的语义之中,这两个词语就构成上下义关系。上下义关系就是逻辑学上的(属种关系),具有属种关系的一 组词就是上下义词,其中表示属概念的词是上义词,表示种概念的词是下义词,
如:“笔-钢笔”、“人-男 人”、“听-偷听”、“销售-批发”、“红-粉红”、“白-雪白”等等。
其中“笔”是“钢笔”的上义词 ,“钢笔”是“笔”的下义词。其余依此类推。
       (属)       (种)
再比如公司注册,注册(属)   公司(种) 流程(给你们思考一下是属还是种)
上下义词都有属种关系,没有属种关系的词不是上下义词,如构成整体与部分关系的词就不是上下义词, 
如“中国-北京”、“衣服-衣襟”、“森林-树”、“船-船队”都不是上下义词。这类词
表示等级关系的词也不 是上下义词,如“博士-硕士”、“处长-科长”、“年-月”都不是上下义词。因为这些词语之间并没有逻 辑上的属种关系。       
上下义词具有包容性,上义词的所指范围包容下义词所指范围,这句话也很重要,如果就比如流程相对于公司注册而言是包容的?还是其它的呢?
可以进入“乙是甲”的格式,但不能反过 来说“甲是乙”。
如可以说“钢笔是笔”,
              (乙)—(甲)
但不能说“笔是钢笔”。
               (甲)—(乙)
从逻辑上讲,如果乙真,则甲必真;
如果 乙假,则甲或真或假。如,“这是钢笔”为真,那么“这是笔”必真;
若“这是钢笔”为假,那么,“这是笔 ”可能是真的,也可能是假的。      
 
上下义词具有相对性,甲词是乙词的上义词,乙词又可能是丙词的上义词。
如“枪”是“武器”的下义词 ,又是“手枪”的上义词。      
 由于上下义词还具有传递性,若甲词是乙词的上义词,乙词是丙词的上义词,那么甲词也是丙词的上义词 。
反之亦然,如“人”是“男人”的上义词,“男人”是“老汉”的上义词,那么“人”也是“老汉”的上义 词。       
由于上下义词具有传递性,(这就是所谓的词向量) 因此上下义词的上下义关系有远有近这就要看关键词的权值来提取了。
具有最邻近的上下义词,就是直接上下 义词,其他上下义词就是间接上下义词,
如“人-男人”就是直接上下义词,
“人-老汉”就是间接上下义词 。       
上下义关系是词语之间的重要语义关系,我们平常解释词语,给概念下定义,常常要利用词语之间的上下 义关系,构成“属加种差定义”。
如“钢笔是笔头用金属制成的笔。”
“石雕是在石头上雕刻形象、花纹的艺 术。
”这种“属加种差定义”是最常见的定义方式。
二、总分关系       
总分关系是词语之间语义上的整体与部分的关系。如果一个词语所指的事物属于另一个词语所指事物的一 个构成部分,这两个词语之间就构成总分关系。具有整体部分关系的一组词是总分词,其中表示整体的词是总 义词,表示部分的词是分义词,
如“中国-上海”、
“大学-某某系”、
“房子-客厅”、
“教学楼-教室”、
“ 身体-头”、
“鞋子-鞋底”、
“四季-春天”、
“森林-树”、
“船队-船”等等。
其中“中国”是“上海 ”的总义词,“上海”是“中国”的分义词。其余依此类推。总分词中分义词所指对象是总义词所指对象的构 成部分,比如中国上海机械厂,我只能说凭感觉判断这是一个典型的分类词,也就是总分词,加了中国和上海来限定语义后,词性变化到了,机械厂,另外一个中国上海消费水平
可以进入“乙是甲的一部分”的格式。如“上海是中国的一部分”。       总分词与上下义词有类似之处,都可进入“甲包括乙”的格式。但上下义词之间是属与种的关系,可以进 入“乙是甲”的格式,总分词之间是整体与部分的关系,不能进入“乙是甲”的格式。如不能说“上海是中国 ”。 
 
比如公司注册,我不能说公司是注册,但是能说注册是公司,也不知道理解的对不对?反正这些关系搞懂了,头也胖三斤了      
 
总分词也具有相对性和传递性。甲词是乙词的总义词,乙词又可能是丙词的总义词,如“头”是“身体” 的分义词,又是“鼻子”的总义词,
那么“身体”也是“鼻子”的总义词,反之亦然。
 
但总分词的相对性与上 下义词有所不同。由于不同的事物可能有相同或相似的构成部分,因此,同一个词(同一种意义)可能是几个 表示不同事物的,比如注册公司,都是注册这个意义,但是表示的只是注册公司这一项事物,没有上下义关系的词的分义词。
如“驾驶室”既是“轮船”的分义词,又是“汽车”的分义 词;
“根”是“树”的分义词,也是“草”的分义词,上下义词一般没有这种性质。       
与上下义词类似,总分词的总分关系也有远有近,也可分直接总分词和间接总分词。
表示最邻近的总分关 系的词是直接总分词,
如“中国-华中”就是直接总分词;表示间接总分关系的词就是间接总分词,
如“中国 -武汉”就是间接总分词。
 
总分关系也是词语之间的一种重要的语义关系,有时解释某些词语概念时,也要利用词语之间的总分关系 。
如“花是种子植物的有性繁殖器官。花由花瓣、花萼、花托、花蕊组成„„”。其中“花”与“花瓣”等是 总分关系。利用总分关系解释词语概念,
可以说明事物的构造,也是一种常用的定义方式,这种定义方式可称 为“构造定义”换句话说,要构造花这个词,要用花瓣,花托,花蕊等相关关键词做结构化信息,然后再对花瓣,花托,花蕊单独做说明,也就是词的分类关系。
 
三、类义关系       
 
类义关系有广义和狭义之分。广义的类义关系是指表示同类事物现象的词语之间的语义关系,包括上下义 关系、总分关系、同义关系、反义关系和狭义类义关系。
如一般所谓类义词典的“类义”,就是指的广义类关 系,狭义类义关系是词语语义上的同属异类关系,即词语所指事物属于同一大类(或整体)而分属不同种类( 或部分),
不包括同义、反义、上下义或总分关系。
这里只谈狭义类义关系。具有狭义类义关系的词就是类义 词,如“苹果、梨、桃子、香蕉„„”、“花瓣、花萼、花托、花蕊”、“蛙泳、仰泳、蝶泳、自由泳”、“ 煮、蒸、炒、炸„„”、“东、南、西、北”、“博士、硕士、学士”、“夏朝、商朝、周朝、秦朝、汉朝„ „”等等。
“苹果”、“梨”等都属于同一个大类“水果”,但分别是属于不同的各类;
“花瓣、花萼”等都 是“花”的组成部分,所以都是类义词。其余依此类推。      
 
类义词与反义词有些瓜葛。如:“东、南、西、北”是一组类义词,
但其中“东-西”、“南-北”又是 反义词。
不妨说,这种反义词是类义词的一种特殊形式。又如有些词语一般看作反义词,
如“中医、西医”、 “父亲、母亲”、“寒假、暑假”等等。
反义词是意义相反或相对的词,问题是什么叫意义相反或相对,没有 明确的标准,有时就不容易判断。
“中医、西医”等语义上是否相反或相对,就可能见仁见智。又如“哥哥、 姐姐、弟弟、妹妹”,一般容易认为“哥哥”的反义词是“弟弟”,“姐姐”的反义词是“妹妹”,
但“哥哥 ”与“姐姐、妹妹”语义上似乎也有相反相对之处,它们是不是反义词呢?可能就有不同看法。为了避免纠缠 ,不如把这些词都看作类义词。      
类义词可以从两个不同的角度分类。根据类义词之间有无顺序关系,
类义词可分为有序类义词和无序类义 词两类。
有序类义词之间有某种大小、先后、高低、方位等顺序关系,
如“大学、中学、小学”、“初一、初 二、初三、初四、初五„„”、“教授、副教授、讲师、助教”、“东、南、西、北”等等。
这些绝对是单独分类说明的词,也就是分权词,表示同一属性,但是不同种类的词,互相之间没有代表性,没有瓜葛性,比如初中毕业,包含初一毕业,初二毕业,初三毕业,三个逻辑,但是初一毕业不能代表整个初中毕业,所以有人问你,初中毕业了没,你通常会说,我初中都没有上完,也就是说,事物本质,初一和整个初中类别区分能力较强,根本不能概括初中,绝对的分类词,我们就说这类词就不能算
无序类义词之间 没有这种顺序关系,如“金、银、铜、铁„„”、“小说、诗歌、散文、戏剧„„”、“田径、体操、游泳„ „”等等。       
根据类义关系的远近,类义词可以分为直接类义词和间接类义词两种。具有共同的直接上位概念的类义词 是直接类义词,如“车、船、飞机”,具有共同的直接上位概念“交通工具”,是直接类义词。
而“汽车、轮 船、飞机”也是类义词,都属“交通工具”,但它们的直接上位概念各不相同,是间接类义词。       
类义关系也是词语之间的一种重要语义关系。我们解释词语概念时,常常也要利用词语之间的类义关系。 如“学位是某些国家根据专业学术水平而授予的称号,如博士、硕士、学士等”。这种定义方式就是“枚举定 义”。
此外,“构造定义”也要利用词语之间的类义关系,如前面所讲的“花”的定义中,“花瓣、花萼”等 也是类义词。
 
 
以上所说的三种语义关系,是词语之间最基本最重要的几种语义关系,整个词汇系统的概念语义网络,主 要是由这三种语义关系构成的。
 
其中上下义关系和总分关系都是词语之间的纵向聚合关系,上义词与下义词, 总义词与分义词分别处于语义网络中的不同层级;也就是f布局  一条竖线分不同层级
 
类义关系则是词语之间的横向聚合关系,直接类义词处于语义网络中的同一层级。网格布局
如“学校”下面可分“大学、中学、小学”等,
“大学”等下面又可分“教师、学生、 教学设施”等,
“教师”下面又可分“教授、副教授、讲师、助教”等。
其中“学校”与“大学”等、“教师 ”与“教授”等都是上下义关系;
“大学”与“教师”等是总分关系;
而“大学”与“中学”等、“教师”与 “学生”等、“教授”与“副教授”等,都是类义关系。
 
 如何选择关键词
看完这些以后各位还觉得seo简单?对于页面布局来说,如果把html板块化拆分后,你能打造出聚类关系? 关键词的特征和分类会辨别了吗?我到现在都还是不会辨别,成个高手好难啊,现在来个大家看看卢松松是怎么打造聚类的
 
以下转马海洋博客,高手是怎么打造聚类页面的
最近,马海祥接手了一个大型的网站,首先要做的就的对这个网站的流量来源进行分析,这其中最繁琐的莫过于对来源关键词的聚类整合了。
所谓关键词聚类就是以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用独创的文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。
实例解析关键词聚类的方法策略-马海祥博客
实例解析关键词聚类的方法策略-马海祥博客
所以,要想做好这类做关键词的聚类,就一定要有一些基础信息,基础数据作为背景。在此,我就借助马海祥博客的平台跟大家实例解析关键词聚类的方法策略:
1、百度商业词聚类模型
现在对于一些医疗SEO来说看行业新闻,大家经常讨论一个话题就是百度医疗行业的收入贡献比是多少?,其实,爆个大料给大家,在2005年甚至2006年之前,百度自己都不掌握这类数据。
当时百度有一个简单的客户分类,是客服提交的,然后我们看了一下消费的行业分布,结果显示超过50%属于其他分类,这个结果基本上就没法看了。
然后我就琢磨,用商业词能不能直接聚类为行业,当时我在产品部门,合作反欺诈点击的工程师是张怀亭,这是个算法高手,他当年的毕业论文就是关联规则和聚类算法,我就去请教他,他说了一堆,我大部分没听懂,但大概要点知道了一些,然后找他要了论文看了看,也没太看明白,凭借自己粗浅的理解我就动手了,然后这个还真做成了。
我的出发点就是假设客户本身具有行业属性(如果这个假设不存在,那就没辙了),我认为每个客户提交的关键词,彼此是有关联的。某两个关键词如果同时被不同的客户提交,其关联性就会随之增加,这个是最基本的一个定义,叫做共同推举数,也是最容易算的一个值。
但是仅仅依赖于共同推举数有一个问题,就是会导致很多词都和热门词关联,这是不合理的,我记得当时好像是某网上书城的推荐购买那一栏,明显都是热门书籍,似乎也是基于共同推举数做的关联。
问题1:A和B有50个共同推举,A和C有30个共同推举,但是B这个词是热门词,共有2000个客户提交;而C是冷门词,只有50个客户提交,请问A和B的关联度高还是A和C的关联度高?
问题2:客户1提交了10000个词(类似阿里真的是这么提交的);客户2提交了20个词,客户1所提交的10000个词的彼此关联度和客户2之间提交的是否一致?
考虑这两个问题,就需要做权值调整了,然后再计算词与词的关联值。那么,权值该怎么定呢?
对于这个权值的设定做了一个程序,实现程序只用了不到一个下午,然后跑一遍程序大约1个小时到2个小时(那时候百度的商业词还没那么多,客户也没现在呢么多,我的程序其实效率不够好)。
然后我做了一个web展示界面,就是任意输入一个词,列出其关联词及关联值,目测坏案例,分析参数的问题,然后修改参数,再跑一遍。跑了n多遍,大约两三天时间,觉得结果差不多了,词与词的关联建立起来了,考虑第二步,聚类。(当时认识了很多奇葩的商业词,大开眼界,对互联网行业认识彻底改观,比如白小姐,黄大仙……,这个领域就不再说了)
马海祥觉得聚类的做法就极为简单了,把每个行业的代表词(与很多词关联的)抽取出来,当作核心词,然后基于词的关联,延展一级关联、二级关联、三级关联,比如A与B关联,B月C关联,C与D关联,计算彼此权值衰减,得出A与D的关联。尽可能把所有词聚合到核心词上,作成行业词表。
最开始核心词我从库里挑与其他词关联度较高的有20多个,然后多级权值衰减也是假设的,然后跑一遍,看两个指标,第一、覆盖率是多少?第二、准确率如何?选取每个行业关联度最低的词(坏案例的密度较高,有些词会同时被两个行业核心词关联,但权值计算会出问题,导致被并入错误的行业)去看,选择没有被关联上的词去看,分析权值的问题,然后修改衰减参数,增加核心词。这个程序我也是写了一个下午,但是调试权值和增加核心词,做了一个礼拜。
然后,百度商业分析部终于可以推出,基于行业的收入报表。我自豪的说一句,百度做收入行业分布,是基于我的关键词分类算法开始的,当然,今天他们鸟枪换炮了,我的算法效率不够(初期还行,到更大的词规模和更多客户就不行了),覆盖率和准确度并不十分完美(坏案例还是一直存在的,不过尽可能控制在消费总额的10%内,对热门词比较准,但对一些长尾控制不住)。不过、我是在产品部门干的这个活,呵呵。
后来,这个模型还用于智能起价,下面马海祥再说一下关于智能起价的一些事。
智能起价其实是百度一个失败的商业尝试,对业务的伤害非常大,但是初期的设计理念并没有大问题,百度当时基于关键词的竞价(当时的竞价模式非常简单,别跟我说现在百度的竞价模式不这样,我明白),对商业价值的挖掘是有缺陷的,比如一些超级热门词,3毛一个点击也是卖不掉的(比如电影,小游戏)。是不是可以便宜点卖呢?对一些非长尾关键词但是价值很高的词(具体可查看马海祥博客的《什么是长尾关键词》相关介绍),因为发现的客户少,所以起价很低,而其商业价值并不弱,比如 “最新SEO技术的报价” 这样的长尾词可能参与竞价的只有一两个客户,但是其商业价值不会低于“SEO技术”这样的高价词。
所以,智能起价真正的目的,是给热门非商业词降价,给冷门长尾商业词提价。
那么我就提出一个观点,关键词的起价应与他关联词的平均点击价格相关。然后他们拿这个模型去跟领导讲,很快就通过了。(牢骚一句,赵某童鞋去讲的,被领导问毛了,就说算法是技术部门的,他也不是很清楚,他去讲的时候明明是我提供的原型! 不过后来技术部门又做了一版,但那是后话了)
智能起价模型失败的原因,有两个原因:
(1)、他们上的时候为了提高对非商业词的覆盖率,硬把关键词包含规则加上去了。导致了一些坏案例。(比如平板,平板电脑,并不是一个行业)。当时效果很不好,领导很不爽,批评我的坏案例太多,列了一堆,我挨个去查,所列的没有一个是我算法算出来的,都是词包含包进去的。其实这个问题还不算严重,词包含固然有坏案例,但是影响面极为有限。
(2)、就是领导太急迫了,这个事情我的建议是,起价权值低一点(通过算法计算每个词关联平均价格,然后关联平均价格*起价参数=该词起价,这是基本公式,起价参数全凭个人判断),看效果慢慢调整,结果领导一上来设的相当高,所以,客户极大不爽,各种擦屁股持续了几个月,百度那个季度实在可怜。
凤巢之后,智能起价终于寿终正寝。凤巢的方案更完美,更综合,这是必须承认的。
2、搜索词/指数词的聚类
当然,除了以上所述的,也可以基于搜索网民
的提交来计算关联度,但是首先,网民的搜索行为,并不如客户提交商业词行为那样具有分类属性。其次,我当时的处理能力也搞不定这样的数据规模的关联计算。
那么基于什么呢?基于关键词+搜索量。

关键词+搜索量

包括汇总和反刷处理,除了一些ip,客户端标记清理外,最重要的还有一个规则,是基于渠道分布和客户端分布规则。
正常的搜索词,来自于不同渠道的比例应该是遵循一个合理分布比例的,所谓渠道包括百度官网,hao123,其他联盟渠道等等,如果严重不遵守这个比例,基本就是刷指数了,但这个规则没有应用到百度指数上,至少当时没应用到,原因似乎是这样的,当时几乎所有榜单上的热门女星,似乎都有经纪公司或粉丝团的刷榜行为。所以当时我手里有百度所有搜索词的搜索数据(清理掉刷指数的数据),而且每日更新。

那么怎么分类呢?如果做全分类,我真做不到,但是热门词是可以做的。这里有一个要点,就是每个热门关键词,都不是孤立存在的。而这些热门词的相关词(基于词包含)里,会携带一些表明其行业属性的词根,然后可以回溯这个热门词的行业属性。
举个例,比如某一个热门游戏,魔兽, 会有大量诸如魔兽攻略,魔兽新服,魔兽道具,魔兽外挂等等相关词。通过这些相关词的词根(可以对词根标记分类属性)回溯原词,以及原词所有相关词的分类。比如电视剧,常见词根有“第**集,最新集”,一个小说,常见词根有“第**章”,“最新章节”等。
当然,还有一个情况,有些词是多含义的,比较典型如苹果(IT产品,电影,水果)。武林外传(电视剧,游戏)等。通过词根的分析,并基于不同词根下的搜索量加权,得到该词的搜索属性,偏向哪个领域,或各个领域的比例,是的,不是很精确,但是还是有一定价值的。
马海祥建议的实现方法就是,针对每个未分类的热门词,去遍历包含他的所有词,然后基于预先定义的分类词根去套,对包含每个分类词根的长尾词根据搜索量加权,汇总得到该热门词的分类属性,以及覆盖包含该热门词的所有长尾词的分类属性(具体可查看马海祥博客的《如何组合和挖掘长尾关键词》相关介绍)。
这个算法思路,不适合对长尾词挖掘(含有行业属性词根的长尾词可以覆盖,但是毕竟覆盖率不够),但是对百度热榜可以有很好的帮助,对热门词的挖掘和自动分类还是有一定把握的,当时不少人抱怨我说百度热榜更新不及时,一些新游戏都很火了也进不了热榜,我就拉着百度热榜的产品经理和技术分享过,还提供过原型代码,然后也没有然后了。
至少当时,我能不断看到网民搜索行为的分类比例(百度长尾词太多,我的模型覆盖搜索量只有50%左右),以及变化趋势,比如眼看着视频类的搜索比例快速增长。


总结:通过关键词聚类分析,可将待选的关键词分成同质的几类小组,在同一组内选择实验单位和非实验单位,这样便保证了这两个单位之间具有了一定的可比性。进而就可提高网站关键词的扩展及分类展示了。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

上一篇:网站建设中移动端代码
下一篇:付费推广的方式有哪些?

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!