第156章 步步紧逼的追赶者(下) (第3/4页)
的预处理方式又是引入降维。1 这就会陷入一个疯狂套娃的循环之中。 总而言之,对高维数据进行降维是一件超级麻烦的事情。 在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。 而不是等出现高维数据之后再进行低维处理。 高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。 很多东西因为麻烦就足以让人说再见了。 繁复的过程意味着容易出错。 而美好的事物所呈现的形式应该是简洁的。 就像欧拉公式一般。 正因为如此,伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。 如果林灰想表达的意思不是对高维数据做手脚。 而是说对传统的向量空间模型做文章? 将高维向量空间模型转化为维度较低的空间向量模型? 这种思路倒是不错。 但这种尝试先前并不是没人做过。 很早之前就有人进行了尝试。 早在上世纪末期就有人提出了潜在语义分析模型。 潜在语义分析模型是基于空间向量模型(VSM)而提出的。 潜在语义分析模型其基本思想是在得到文本的空间向量表示后。 通过奇异值分解,将高维且稀疏的空间向量映射到低维的潜在语义空间当中。 在得到低维的文本向量和单词向量之后。 再用余弦相似度等度量方式来计算文本间的语义相似度。 潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音,从而提高计算准确度。 虽然这种思路不错,但这种方法并没有普适性。 这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。 这种做法使得计算复杂度增高,并且可移植性较差。 在这种方法提出来之后。 并不是没人尝试对这种方法进行过改进。 同样是上世纪末。 有研究人员提出了概率潜在语义分析模型。 这种模型是基于概率,而不是基于奇异值分解。 这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。 而后使用期望最大化算法训练主题,并找到一个概率性的潜在主题模型。 以此用来预测文本空间向量中的观察数据。 在这种概率潜在语义分析模型中,多义词被归入不同的主题下,而同义词被归入同一主题下。 这样可以避免同义词和多义词对文本相似度计算的影响。 然而,概率潜在语义分析模型的参数随着文档数量的增加而线性增长。 很容易出现过拟合和泛化不良。 这种情况很大程度又是因为维度爆炸。 因为过拟合只在高维空间中预测相对少的参数和低维空间中预测多参数这两种情况下发生。 一个为了避免维度爆炸而提出的模型却出现了维度爆炸。 多少有点悲剧。 事实上,并不是只有上述两个模型提出来。 这之后还有很多研究团队都在从模型层面的做了不同程度的尝试。 但这些模型要么是南辕北辙,不利于降维。 要么是在降维的同时又带来了新的问题。 总之,这些模型都有各种行不通的地方。 尽管伊芙·卡莉相信林灰是个天才。 但伊芙·卡莉觉得林灰也很难在前人无数次尝试的情况下找到一种全新的能够规避维度爆炸的低维模型。 伊芙·卡莉考虑了很久也没想通林灰究竟表达的是什么意思。 伊芙·卡莉把她刚才她的思考过程对林灰进行了阐述。 林灰听得很认真。 听完之后,林灰笑道:“你都想到了这么多种高维向低维转化的情形。 而且先前你也提到了机器识别文本时为了要机器识别自然语言往往将自然语言数值化。 而后为了将这些数值进行属性区分进一步进行了向量化。 既然你能明白这些,那你就应该知道涉及到自然语言处理方向的问题之所以很容易出现维度爆炸很大程度是因为原始数据就维度极
请记住本站永久域名
地址1→wodesimi.com
地址2→simishuwu.com
地址3→simishuwu.github.io
邮箱地址→simishuwu.com@gmail.com