第156章 步步紧逼的追赶者(下) (第2/4页)
相似度的方法和伊芙·卡莉有些分歧。 但林灰并没有表露出来,学术上的交流很多时候也只是求同存异而已。 伊芙·卡莉还在继续陈述着她的看法: “……我觉得将向量引入到语义文本相似度的衡量确实是一个不错的主意。 不过在介入向量之后,就像打开了潘多拉的魔盒一样。 向量在处理一些语义复杂的文本信息时。 极其容易形成一些高维空间,造成维度爆炸。 出现这种情况后,应用场景经常会变得极其糟糕。 经常出现维度爆炸的问题。 事实上,现在维度爆炸问题已经很制约我们的研究了。 Dear林,不知道您关于这个问题有什么看法呢?” 林灰道:“维度爆炸主要是高维难处理的问题。 既然如此,为什么不考虑将高维进行降维呢?” 林灰的语气是那样的风轻云淡。 彷佛在叙述一件自然而然的事情一般。 降维?将高维的什么进行降维?? 听了翻译同传过来的信息。 伊芙·卡莉有种要吐血的感觉。 她有点想学中文了。 她不知道林灰表达的原意就是将高维转化为低维。 还是说林灰在表述的时候说的是将高维的某物转化的低维但翻译在转达的时候却省略了什么东西。 如果是省略了一些重要的名词那实在是太糟糕了。 到底林灰想表达是将高维数据转化为低维数据? 还是说将高维模型转化为低维模型? 抑或是什么其他含义? 伊芙·卡莉很想询问一下。 不过考虑到林灰先前为了米娜·卡莉做出的贴心之举。 伊芙·卡莉并不好就这种事情让林灰带来的翻译陷入到不安之中。 仔细思索林灰话里的含意。 首先伊芙·卡莉觉得林灰想说的应该不是将高维数据降低成低维数据。 在进行自然语言处理时如果出现了高维数据的话。 在分析高维数据时,确实是可以进行降维的。 也必须要进行降维! 高维数据模型虽然收集到的数据点很多。 但是所收集到的数据通常会散布在一个极其分散广袤的高维空间中。 这种情况下很多统计方法都难以应用到高维数据上。 这也是“维度灾难”存在的原因之一。 遇到这种维度灾难,不降维的话高维数据是很难进行处理的。 (ps:……数学天赋点满的人高维也能硬上) 作为数据去噪简化的一种方法,降维处理对处理大多数现代机器学习数据很有帮助。 通过降低数据的维度,理论上讲可以把这个复杂棘手的问题变得简单轻松。 机器学习领域中所谓的降维就是指采用某种映射方法。 将原高维空间中的数据点映射到低维度的空间中。 这么做是为了除去噪音同时保存所关注信息的低维度数据。 这样对研究人员理解原本的高维数据所隐含的结构和模式很有帮助。 原始的高维度数据通常包含了许多无关或冗余变量的观测值。 降维可以被看作是一种潜在特征提取的方法。 降维这种方法经常用于数据压缩、数据探索以及数据可视化。 话虽如此,但降维并不是像科幻书里描述的那般扔一个二向箔就完事了。 涉及到降维是一件极其麻烦的事情! 在选择降维方法的时候,人们不得不考虑很多因素。 首先要考虑输入数据的性质。 比如说,对于连续数据、分类数据、计数数据、距离数据,它们会需要用到不同的降维方法。 对数据的性质和分辨率的考虑是十分重要的。 如果不考虑输入数据的性质贸然进行降维的话虽然能够使得这些这些高维模型低维化。 极有可能使得原本离散的数据直接“糊”在一起。 这种情况比高维离散还要糟糕。 在应用正式的降维技术之前。 还要对高维数据进行适当的预处理。 毕竟不是所有的数据都是样本数据。 而有的时候进行预处理时。 最佳
请记住本站永久域名
地址1→wodesimi.com
地址2→simishuwu.com
地址3→simishuwu.github.io
邮箱地址→simishuwu.com@gmail.com