2026-05-01
分享到
机器学习10大经典算法综述 机器学习10大经典算法综述 机器学习10大经典算法综述 1、 机器学习中, 决议树是一个展望模型; 他代表的是对象属性与对象值之间的一种映照关 系。树中每个节点表示某个对象, 而每个分叉路径则代表的某个可能的属性值, 而每个叶结 点则对应从根节点到该叶节点所经历的路径所表示的对象的值。 决议树仅有单调输出, 若欲 有复数输出, 能够成立独立的决议树以办理不一样输出。 从数据产生决议树的机器学习技术叫 做决议树学习 , 平常说就是决议树。 决议树学习也是数据发掘中一个一般的方法。 在这里, 每个决议树都表述了一种树型结 构,他由他的分支来对该种类的对象依靠属性进行分类。 每个决议树能够依靠对源数据库的 切割进行数据测试。这个过程能够递归式的对树进行修剪。 当不可以再进行切割或一个独自 的类能够被应用于某一分支时, 递归过程就达成了。 此外, 随机丛林分类器将很多决议树结 合起来以提高分类的正确率。 决议树同时也能够依靠计算条件概率来结构。 决议树假如依靠 数学的计算方法能够获得更为理想的成效。决议树一般都是自上而下的来生成的。 选择切割的方法有好几种, 但是目的都是一致的: 对目标类试试进行最正确的切割。 从根 到叶子节点都有一条路径,这条路径就是一条“规则” 。决议树能够是二叉的,也能够是多 叉的。对每个节点的衡量: 1)经过该节点的记录数 2)假如是叶子节点的线)对叶子节点正确分类的比率。 有些规则的成效能够比其余的一些规则要好。因为 ID3 算法在实质应用中存在一些问 题,于是 Quilan 提出了 C4.5 算法,严格上说只好是 ID3 的一个改良算法。相信大家对 ID3 算法都很 .熟习了,这里就不做介绍。 算法继承了 ID3 算法的长处,并在以下几方面对 ID3 算法进行了改良: 1) 用信息增益率来选择属性,战胜了用信息增益选择属性时倾向选择取值多的属性的 不足; 2) 在树结构过程中进行剪枝; 3) 能够达成对连续属性的失散化办理; 4) 能够对不完好数据进行办理。 算法有以下九游体育官方网站长处: 产生的分类规则易于理解, 正确率较高。 其弊端是: 在结构树的 过程中, 需要对数据集进行多次的次序扫描和排序, 因此致使算法的低效。 其余,只适 合于能够驻留于内存的数据集,当训练集大得没法在内存容纳时程序没法运转。 来自搜寻的其余内容: C4.5 算法是机器学习算法中的一种分类决议树算法 ,其核默算法是 ID3 算法. 分类决议树算法是从大批案例中进行提取分类规则的自上而下的决议树 . 决议树的各部分是 : 根: 学习的案例集 . 枝: 分类的判断条件 . 叶: 分好的各 个类. ID3 算法 1.看法提取算法 CLS 1) 初始化参数 C={E},E包含所有的例子 ,为根 . 2) IF C中的任一元素 e 同属于同一个决议类则创立一个叶子节点 YES停止. ELSE 依启迪式标准 ,选择特色 Fi={V1,V2,V3,...Vn}并创立判断节点区分 C 为互不订交 的 N 个会合 C1,C2,C3.,..,Cn; 3) 对任一个 Ci 递归. 2. ID3 算法 1) 随机选择 C的一个子集 W (窗口). 2) 调用 CLS生成 W 的分类树 DT(重申的启迪式标准在后 ). 3) 次序扫描 C收集 DT 的不测 (即由 DT 没法确立的例子 ). 4) 组合 W 与已发现的不测 ,形成新的 W. 5) 重复 2)到 4),直到无例外为止 . 启迪式标准 : 只跟自己与其子树有关 ,采守信息理论用熵来量度 . 熵是选择事件时选择自由度的量度 ,其计算方法为 P = freq(Cj,S)/S; INFO(S)= - SUM( P*LOG(P) ) ; SUM()函数是求 j 从 1 到 n 和 . Gain(X)=Info(X)-Infox(X); Infox(X)=SUM( (Ti/T)*Info(X); 为保证生成的决议树最小 ,ID3 算法在生成子树时 ,选用使生成的子树的熵 (即 Gain(S))最小的 的特色来生成子树 . § 4.3.3: ID3 算法对数据的要求 1. 所有属性一定为失散量 . 2. 所有的训练例的所有属性一定有一个明确的值 . 3. 相同的要素一定获取相同的结论且训练例一定独一 . §对 ID3 算法的改良 : 1. 熵的改良 ,加上了子树的信息 . Split_Infox(X)= - SUM( (T/Ti ) *LOG(Ti/T) ); Gain ratio(X)= Gain(X)/Split Infox(X); 2. 在输入数据上的改良 . 1) 要素属性的值能够是连续量 ,C4.5 对其排序并分红不一样的会合后依照 ID3 算法看作失散量进 行办理 ,但结论属性的值一定是失散值 . 2) 训练例的要素属性值能够是不确立的 ,以 ? 表示,但结论一定是确立的 3. 对已生成的决议树进行裁剪 ,减小生成树的规模 . 2、The k-means algorithm k-means algorithm 算法是一个聚类算法, 把 n 的对象依据他们的属性分为 k 个切割,k n。 它与办理混淆正态散布的最大希望算法很相像,因为他们都试图找到数据中自然聚类的中 心。它假定对象属性来自于空间向量,并且目标是使各个群组内部的均方偏差总和最小。 假定有 k 个群组 Si, i=1,2,...,k。μi 是群组 Si内所有元素 xj 的重心,或叫中心点。 k 均匀聚类发明于 1956 年, 该算法最常有的形式是采纳被称为劳埃德算法 (Lloyd algorithm) 的迭代式改良探究法。劳埃德算法第一把输入点分红 k 个初始化分组,能够是随 机的或许使用一些启迪式数据。 而后计算每组的中心点, 依据中心点的地点把对象分到离它 近来的中心,从头确立分组。连续重复不停地计算中心并从头分组,直到收敛,即对象不再 改变分组(中心点地点不再改变) 。 劳埃德算法和 k 均匀往常是密切联系的, 但是在实质应用中, 劳埃德算法是解决 k 均匀 问题的启迪式法例, 对于某些开端点和重心的组合, 劳埃德算法可能实质上收敛于错误的结 果。(上边函数中存在的不一样的最优解) 固然存在变异,但是劳埃德算法依旧保持流行,因为它在实质中收敛特别快。实质上, 察看发现迭代次数远远少于点的数目。但是近来, David Arthur 和 Sergei Vassilvitskii 提出存 在特定的点集使得 k 均匀算法花销超多项式时间达到收敛。 近似的 k 均匀算法已经被设计用于原始数据子集的计算。 从算法的表现上来说, 它其实不保证必定获取全局最优解, 最后解的质量很大程度上取决 于初始化的分组。 因为该算法的速度很快, 所以常用的一种方法是多次运转 k 均匀算法, 选 择最优解。 k 均匀算法的一个弊端是,分组的数目 k 是一个输入参数,不适合的 k 可能返回较差的 结果。此外,算法还假定均方偏差是计算群组分别度的最正确参数。 3、SVM 支持向量机, 英文为 Support Vector Machine ,简称 SV机(论文中一般简称 svm)。它是一种 監督式學習的方法,它宽泛的应用于统计分类以及回归剖析中。 支 持向量机 属于一 般化线 性分类 器.他 们也可 以以为 是提克洛 夫规范 化( Tikhonov Regularization)方法的一个特例 .这族分类器的特色是他们能够同时最小化经验偏差与最大化 几何边沿区 .所以支持向量机也被称为最大边沿区分类器。在统计计算中,最大希望( EM) 算法是在概率 (probabilistic )模型中找寻参数最大似然预计的算法, 此中概率模型依靠于无 法观察的隐蔽变量( Latent Variabl)。最大希望常常用在机器学习和计算机视觉的数据集聚 (Data Clustering )领域。 最大希望算法经过两个步骤交替进行计算, 第一步是计算希望 (E), 也就是将隐蔽变量象能够观察到的相同包含在内进而计算最大似然的希望值; 此外一步是最 大化(M),也就是最大化在 E 步上找到的最大似然的希望值进而计算参数的最大似然预计。 M 步上找到的参数而后用于此外一个 E 步计算,这个过程不绝交替进行。 Vapnik 等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最正确准则。 其原 理也从线性可分提及, 而后扩展到线性不行分的状况。 甚至扩展到使用非线性函数中去, 这 种分类器被称为支持向量机 (Support Vector Machine, 简称 SVM)。支持向量机的提出有很深的 理论背景。支持向量机方法是在近来几年来提出的一种新方法。 SVM 的主要思想能够归纳为两点: (1) 它是针对线性可分状况进行剖析,对于线性不 可分的状况, 经过使用非线性映照算法将低维输入空间线性不行分的样本转变为高维特色空 间使其线性可分, 进而使得高维特色空间采纳线性算法对样本的非线性特色进行线性剖析成 为可能; (2) 它鉴于结构风险最小化理论之上在特色空间中建构最优切割超平面,使得学习 器获取全局最优化 ,并且在整个样本空间的希望风险以某个概率知足必定上界。 在学习这类方法时, 第一要弄清楚这类方法考虑问题的特色, 这就要从线性可分的最简 单状况议论起, 在没有弄懂其原理从前, 不要急于学习线性不行分等较复杂的状况, 支持向 量机在设计时, 需要用到条件极值问题的求解, 所以需用拉格朗日乘子理论, 但对多半人来 说,从前学到的或常用的是拘束条件为等式表示的方式, 但在此要用到以不等式作为一定满 足的条件,此时只需认识拉格朗日理论的有关结论就行。 介绍 支持向量机将向量映照到一个更高维的空间里,在这个空间里成立有一个最大间隔超平面。 在分开数据的超平面的两边建有两个相互平行的超平面。 分开超平面使两个平行超平面的距 离最大化。 假定平行超平面间的距离或差距越大, 分类器的总偏差越小。 一个极好的指南是 C.J.C Burges的《模式辨别支持向量机指南》 。van der Walt 和 Barnard 将支持向量机和其余 分类器进行了比较。 动机 有好多个分类器 (超平面)能够把数据分开,但是只有一个能够达到最大切割。我们往常希 望分类的过程是一个机器学习的过程。这些数据点其实不需若是中的点,而能够是随意 (统计 学符号 )中或许 (计算机科学符号 ) 的点。 我们希望能够把这些点经过一个 n-1 维的超平面分 开,往常这个被称为线性分类器。 有好多分类器都切合这个要求, 但是我们还希望找到分类 最正确的平面, 即便得属于两个不一样类的数据点间隔最大的那个面, 该面亦称为最大间隔超平 面。假如我们能够找到这个面,那么这个分类器就称为最大间隔分类器。 问题定义 设样本属于两个类,用该样本训练 svm 获取的最大间隔超平面。在超平面上的样本点也称 为支持向量 .我们考虑以下形式的样本点 此中 ci 为 1 或- 1 --用以表示数据点属于哪个类 . 是一个 p - ( 统计学符号 ), 或 n - ( 计算机科 学符号 ) 维向量,其每个元素都被缩放到 [0,1]或[-1,1]. 缩放的目的是防备方差大的随机变量 主导分类过程 .我们能够把这些数据称为“训练数据” ,希望我们的支持向量机能够经过一个 超平面正确的把他们分开。超平面的数学形式能够写作 依据几何知识, 我们知道向量垂直于分类超平面。 加入位移 b 的目的是增添间隔 .假如没有 b 的话,那超平面将不得不经过原点,限制了这个方法的灵巧性。 因为我们要求最大间隔, 所以我们需要知道支持向量以及 (与最正确超平面) 平行的并且离支 持向量近来的超平面。我们能够看到这些平行超平面能够由方程族: 来表示。 假如这些训练数据是线性可分的, 那就能够找到这样两个超平面, 在它们之间没有任何样本 点并且这两个超平面之间的距离也最大 .经过几何不难获取这两个超平面之间的距离是 2/w ,所以我们需要最小化 w 。同时为了使得样本数据点都在超平面的间隔区之外,我 们需要保证对于所有的 i 知足此中的一个条件 这两个式子能够写作: 原型 此刻找寻最正确超平面这个问题就变为了在 (1)这个拘束条件下最小化 w. 这是一个二次規劃 QP(quadratic programming) 最优化中的问题。 更清楚的,它能够表示以下: 最小化 , 知足 。 1/2 这个因子是为了数学上表达的方便加上的。 对偶型 (Dual Form) 把原型的分类规则写作对偶型, 能够看到分类器实质上是一个对于支持向量 (即那些在间隔区 边沿的训练样本点)的函数。 支持向量机的对偶型以下: 并知足 αi = 0 软间隔 1995 年, Corinna Cortes 与 Vapnik 提出了一种改良的最大间隔区方法, 这类方法能够办理标 记错误的样本。 假如可区分正负例的超平面不存在,则“软界限”将选择一个超平面尽可能 清楚地域分样本, 同时使其与分界最清楚的样本的距离最大化。 这一成就使术语 “支持向量 机”(或“ SVM”)获取推行。这类方法引入了松驰参数 ξi 以衡量对数据 xi 的误分类度。 随后,将目标函数与一个针对非 0ξi 的处罚函数相加,在增大间距和减小错误处罚两大目 标之间进行衡量优化。假如处罚函数是一个线、Apriori 算法 Apriori 算法是一种最有影响的发掘布尔关系规则屡次项集的算法。 其核心是鉴于两阶段频集 思想的递计算法。该关系规则在分类上属于单维、单层、布尔关系规则。在这里,所有支持 度大于最小支持度的项集称为屡次项集,简称频集。 Apriori 演算法所使用的前置统计量包含了: ?最大规则物品数:规则中物品组所包含的最大物品数目 ?最小增援:规则中物品或是物品组必顸切合的最低案例数 ?最小信心水平:计算规则所一定切合的最低信心水平门槛 该算法的基本思想是: 第一找出所有的频集, 这些项集出现的屡次性起码和预约义的最 小支持度相同。而后由频集产生强关系规则,这些规则一定知足最小支持度和最小可信度。 而后使用第 1 步找到的频集产生希望的规则, 产生只包含会合的项的所有规则, 此中每一条 规则的右部只有一项, 这里采纳的是中规则的定义。 一旦这些规则被生成, 那么只有那些大 于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。 可能产生大批的候选集 ,以及可能需要重复扫描数据库,是 Apriori 算法的两大弊端。 5、最大希望 (EM) 算法 在统计计算中,最大希望( EM,Expectation–Maximization )算法是在概率( probabilistic ) 模型中找寻参数最大似然预计的算法,此中概率模型依靠于没法观察的隐蔽变量( Latent Variabl)。最大希望常常用在机器学习和计算机视觉的数据集聚( Data Clustering)领域。最 大希望算法经过两个步骤交替进行计算, 第一步是计算希望 (E),也就是将隐蔽变量象能够 观察到的相同包含在内进而计算最大似然的希望值;此外一步是最大化( M ),也就是最大 化在 E 步上找到的最大似然的希望值进而计算参数的最大似然预计。 M 步上找到的参数然 后用于此外一个 E 步计算,这个过程不绝交替进行。 最大希望过程说明 我们用 表示能够察看到的不完好的变量值, 用 表示没法察看到的变量值, 这样 和 一 起构成了完好的数据。 可能是实质丈量丢掉的数据,也可能是能够简化问题的隐蔽变量, 假如它的值能够知道的话。比如,在混淆模型( Mixture Model )中,假如“产生”样本的 混淆元素成分已知的话最大似然公式将变得更为便利(拜见下边的例子) 。 预计没法观察的数据 让 代表矢量 θ: 定义的参数的所有数据的概率散布(连续状况下)或许概 率集聚函数(失散状况下) ,那么从这个函数就能够获取所有数据的最大似然值,此外,在 给定的察看到的数据条件下未知数据的条件散布能够表示为: 6、PageRank PageRank是 谷歌 算法的重要内容。 2001 年 9 月被授与美国专利,专利人是 谷歌 首创 人之一拉里· 佩奇( Larry Page)。所以, PageRank里的 page 不是指网页,而是指佩奇,即 这个等级方法是以佩奇来命名的。 谷歌 的 PageRank依据网站的外面链接和内部链接的数目和质量俩衡量网站的价值。 PageRank 背后的看法是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就 意味着被其余网站投票越多。 这个就是所谓的 “链接流行度” ——衡量多少人愿意将他们的 网站和你的网站挂钩。 PageRank 这个看法引自学术中一篇论文的被引述的频度——即被别 人引述的次数越多,一般判断这篇论文的威望性就越高。 谷歌 有一套自动化方法来计算这些投票。 谷歌 的 PageRank分值从 0 到 10;PageRank 为 10 表示最正确,但特别少见,近似里氏震级( Richter scale),PageRank级别也不是线性的, 而是依照一种指数刻度。 这是一种奇异的数学术语, 意思是 PageRank4不是比 PageRank3好 一级——而可能会好 6 到 7 倍。所以, 一个 PageRank5的网页和 PageRank8的网页之间的差 距会比你可能以为的要大的多。 PageRank较高的页面的排名常常要比 PageRank较低的页面高,而这致使了人们对链接 的着魔。在整个 SEO 社区,人们忙于抢夺、互换甚至销售链接,它是过去几年来人们关注 的焦点,以致于 谷歌 改正了他的系统,并开始放弃某些种类的链接。比方,被人们宽泛 接受的一条规定,来自缺少内容的“ link farm”(链接工厂)网站的链接将不会供应页面的 PageRank,从 PageRank较高的页面获取链接但是内容不有关(比方说某个流行的漫画书网 站链接到一个叉车规范页面) ,也不会供应页面的 PageRank。谷歌 选择降低了 PageRank 对更新频次,以便不鼓舞人们不停的对其进行监测。 谷歌 PageRank一般一年更新四次, 所以刚上线的新网站不行能获取 PR值。 你的网站 很可能在相当长的时间里面看不到 PR值的变化,特别是一些新的网站。 PR值临时没有,这 不是什么不好的事情,耐心等候就好了。 为您的网站获取外面链接是一件好事,但是忽视其余 SEO 领域的工作而进行迫切的链 接建设就是浪费时间,要时辰保持一个整体思路并记着以下几点: · 谷歌 的排名算法其实不是完好鉴于外面链接的 · 高 PageRank其实不可以保证 谷歌 高排名 · PageRank值更新的比较慢,今日看到的 PageRank值可能是三个月前的值 所以我们不鼓舞故意的去追求 PageRank,因为决定排名的要素能够有上百种。只管如 此,PageRank仍是一个用来认识 谷歌 对您的网站页面怎样议论的相当好的指示,建议网 站设计者要充足认识 PageRank在 谷歌 判断网站质量中的重要作用, 从设计前的考虑到后 期网站更新都要赐予 PageRank足够的剖析, 很好的利用。 我们要将 PageRank看作是一种业 余喜好而不是一种崇奉。 经过对由超出 50,000 万个变量和 20 亿个词汇构成的方程进行计算, PageRank 能够 对网页的重要性做出客观的议论。 PageRank 其实不计算直接链接的数目, 而是将从网页 A 指 向网页 B 的链接解说为由网页 A 对网页 B 所投的一票。这样, PageRank 会依据网页 B 所收到的投票数目来评估该页的重要性。 其余, PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被以为拥有较 高的价值,这样,它所链接的网页就能获取较高的价值。重要网页获取的 PageRank(网页 排名)较高,进而显示在搜寻结果的顶部。 谷歌 技术使用网上反应的综合信息来确立某 个网页的重要性。 搜寻结果没有人工干涉或操控, 这也是为何 谷歌 会成为一个广受用 户信任、不受付费排名影响且公正客观的信息根源。 --------------- 其实简单说就是民主表决。 打个比方, 若是我们要找李开复博士, 有一百个人举手说自 己是李开复。那么谁是真的呢?或许有好几个真的,但即便这样谁又是大家真切想找的 呢?:-) 假如大家都说在 谷歌 公司的那个是真的,那么他就是真的。 在互联网上, 假如一个网页被好多其余网页所链接, 说明它遇到广泛的认可和信任, 那 么它的排名就高。这就是 Page Rank 的核心思想。 自然 谷歌 的 Page Rank 算法实质上 要复杂得多。比方说,对来自不一样网页的链接对待不一样, 自己网页排名高的链接更靠谱,于 是给这些链接予较大的权重。 Page Rank 考虑了这个要素,但是此刻问题又来了,计算搜寻 结果的网页排名过程中需要用到网页自己的排名, 这不行了先有鸡仍是先有蛋的问题了吗? 谷歌 的两个首创人拉里· 佩奇 (Larry Page )和谢尔盖· 布林 (Sergey Brin) 把这个 问题变为了一个二维矩阵相乘的问题, 并且用迭代的方法解决了这个问题。 他们先假定所有 网页的排名是相同的, 并且依据这个初始值, 算出各个网页的第一次迭代排名, 而后再依据 第一次迭代排名算出第二次的排名。 他们两人从理论上证了然不论初始值怎样选用, 这类算 法都保证了网页排名的预计值能收敛到他们的真切值。 值得一提的事, 这类算法是完好没有 任何人工干涉的。 理论问题解决了, 又碰到实质问题。 因为互联网上网页的数目是巨大的, 上边提到的二 维矩阵从理论上讲有网页数目平方之多个元素。 假如我们假定有十亿个网页, 那么这个矩阵 就有一百亿亿个元素。 这样大的矩阵相乘, 计算量是特别大的。 拉里和谢尔盖两人利用稀少 矩阵计算的技巧,大大的简化了计算量, 并实现了这个网页排名算法。 今日 谷歌 的工程 师把这个算法移植到并行的计算机中, 进一步缩短了计算时间, 使网页更新的周期比从前短 了很多。 我来 谷歌 后,拉里 (Larry) 在和我们几个新职工会谈时, 讲起他当年和谢尔盖 (Sergey) 是怎么想到网页排名算法的。他说: 当时我们感觉整个互联网就像一张大的图( Graph), 每个网站就像一个节点, 而每个网页的链接就像一个弧。 我想, 互联网能够用一个图或许矩 阵描绘,我或许能够用这个发现做个博士论文。 他和谢尔盖就这样发了然 Page Rank 的 算法。 网页排名的高妙之处在于它把整个互联网看作了一个整体对待。 它无心识中切合了系统 论的看法。 对比之下, 从前的信息检索大多把每一个网页看作独立的个体对待, 好多人当初 只注意了网页内容和查问语句的有关性,忽视了网页之间的关系。 今日, 谷歌 搜寻引擎比最先复杂、完美了很多。但是网页排名在 谷歌 所有算法 中依旧是至关重要的。在学术界 , 这个算法被公以为是文件检索中最大的贡献之一,并且被 好多大学引入了信息检索课程 (Information Retrieval) 的教程。 怎样提高你网页的 PR 值? 什么是 PR值呢? PR值全称为 PageRank,PR是英文 Pagerank 的缩写形式, Pagerank 取 自 谷歌 的首创人 LarryPage,它是 谷歌 排名运算法例(排名公式)的一部分, Pagerank 是 谷歌 对网页重要性的评估,是 谷歌 用来衡量一个网站的利害的独一标准。 PageRank(网页级别 )是 谷歌 用于评测一个网页 “重要性” 的一种方法。 在揉合了诸如 Title 表记和 Keywords 表记等所有其余要素以后, 谷歌 经过 PageRank来调整结果, 使那些更具 “重要性”的网页在搜寻结果中另网站排名获取提高,进而提高搜寻结果的有关性和质量。 PR值的级别从 1 到 10 级,10 级为满分。 PR值越高说明该网页越受欢迎。 谷歌 把自己的 网站的 PR 值定到 10,这说明 谷歌 这个网站是特别受欢迎的,也能够说这个网站特别重 要。谷歌 大受喜爱的另一个原由就是它的网站索引速度。向 谷歌 提交你的网站直到为 谷歌 收录, 一般只需两个礼拜。 假如你的网站已经为 谷歌 收录,那么往常 谷歌 会每 月一次遍历和更新 (从头索引 )你的网站信息。可是对于那些 PR 值 (Pagerank)较高的网站, 谷歌 索引周期会相应的短一些。一个 PR值为 1 的网站表示这个网站不太拥有流行度,而 PR值为 7 到 10 则表示这个网站特别受欢迎。 PR值最高为 10,一般 PR值达到 4,就算是一 个不错的网站了。那么 PR值都受那些要素影响呢?下边我们一同来看看。 第一:网站外面链接的数目和质量 在计算网站排名时, Pagerank会将网站的外面链接数考虑进去。 其实不可以说一个网站的外 部链接数越多其 PR 值就越高,假如这样的话,一个网站尽可能获取最多的外面链接就 OK 了,有这类想法是错误的。 谷歌 对一个网站上的外面链接数的重视程度其实不意味着你因 此能够不求策略地与任何网站成立连结。这是因为 谷歌 其实不是简单地由计算网站的外面 链接数来决定其等级。 谷歌 的 Pagerank 系统不但考虑一个网站的外面链接质量,也会考 虑其数目。 这个问题看来很有复杂。 第一让我们来解说一下什么是阻尼因数 (damping factor) 。 阻尼要素就是当你投票或链接到此外一个站点时所获取的实质 PR 分值。阻尼因数一般是 。自然比起你网站的实质 PR值,它就显得不足挂齿了。 此刻让我们来看看这个 PR分值的计算公式: PR(A)=(1- d)+d(PR(t1)/C(t1)+...+PR(tn)/C(tn)) 公式解说:此中 PR(A)表示的是从一个外面链接站点 t1 上,依照 Pagerank?系统给你的网站 所增添的 PR分值; PR(t1)表示该外面链接网站自己的 PR分值; C(t1)则表示该外面链接站点 所拥有的外面链接数目。大家要牢记:一个网站的投票权值只有该网站 PR分值的, 那么,能否是说对一个网站而言,它所拥有的较高网站质量和较高 PR分值的外面链接 数目越多就越好呢?错, 因为- 谷歌 的 Pagerank 系统不但考虑一个网站的外面链接质量, 也会考虑其数目 .比方说, 对一个有必定 PR值的网站 X来说, 假如你的网站 Y 是它的独一一 个外面链接,那么 谷歌 就相信网站 X 将你的网站 Y 视做它最好的一个外面链接,进而会 给你的网站 Y 更多的分值。但是,假如网站 X 上已经有 49 个外面链接,那么 谷歌 就相 信网站 X 不过将你的网站视做它第 50 个好的网站。因此你的外面链接站点上的外面链接数 越多,你所能够获取的 PR分值反而会越低,它们呈反比关系。 说它对是因为-一般状况下,一个 PR分值大于等于 6 的外面链接站点,可明显提高你 的 PR分值。但假如这个外面链接站点已经有 100 个其余的外面链接时, 那你能够获取的 PR 分值就几乎为零了。相同,假如一个外面链接站点的 PR 值仅为 2,但你倒是它的独一一个 外面链接,那么你所获取的 PR值要远远大于那个 PR值为 6,外面链接数为 100 的网站。 并且这个 0.85 的权值均匀分派给其链接的每个外面网站。 第二: 谷歌 在你的网站抓取的页面数 谷歌 在你的网站抓取的页面数,数目越多, Pagerank 值越高。但往常 谷歌 其实不会 主动抓取你的网站的所有页面,特别是网址里带有“ ?”的动向链接, 谷歌 不主动,那就 要我们主动了,最笨的方法是把网站所有的页面都提交给 谷歌,但我想没有谁真会这么 做,但页面不多的话能够试一试。更好的方法是制作一个静态 Html 页面,
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
《生动的数据》课件-2025-2026学年沪教版(新教材)小学美术三年级下册.pptx
《校园微电影宣传策划》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
《 春华秋实绘花鸟》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
《把“大自然”穿在身上》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
2025年云南省初中学业水平考试中考(会考)生物试卷(真题+答案).docx
2026年广东省江门市高三语文二模试卷及答案(含作文解析与范文).docx
QSY KLNY 0031-2017 液化天然气气化站运行与维护技术规范(发布).pdf
(高清版)B-T 6739-2022 色漆和清漆 铅笔法测定漆膜硬度.pdf
云南师大附中2026届高三高考适应性月考卷(三)数学试卷(含答案详解).pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者