第155章 步步紧逼的追赶者(中) (第3/3页)
无意释放的善意之后。 伊芙·卡莉在进行陈述的时候彻底放松了下来。 在向林灰着重介绍了这个时空里人们是如何评估文本相似度的。 伊芙·卡莉注意到林灰听说她的团队先前是利用基于网络知识的方法来评估文本相似度时眉毛蹙了一下。 莫非是林灰并不认同基于网络知识评估文本相似度的方法? 还是说林灰觉得有什么方法比这种方法更好呢? 伊芙·卡莉默默将这件事记在心里。 在伊芙·卡莉陈述完成后。 林灰领略到了她的意思。 不过却并没有正面回答伊芙·卡莉的问题。 而是反问伊芙·卡莉:“关于使用向量介入进行语义文本相似度计算你怎么看?” 虽然这是林灰在这次交流中提出的第一个问题。 但这个问题让伊芙·卡莉多少有点措手不及。 伊芙·卡莉不太清楚林灰为什么提出这个问题。 莫非可以不依靠向量来进行语义文本相似度计算吗? 可这怎么能做到呢? 机器识别文本时为了要机器识别自然语言,往往将自然语言数值化。 而将这些数值进行属性区分则必须进行向量化。 这种方法已经有很长时间历史了,伊芙·卡莉记得在1977年(这个时空)就有研究人员首次提出向量空间模型VSM了。 一经提出这种研究方法就比较受欢迎。 虽然很快这种方法就被发现了有不小的漏洞。 利用VSM方法的话,当文本量很大时,生成的文本向量是非常稀疏的,这就导致了空间和计算资源的浪费; 另外VSM为达到简化模型的效果忽略了词语间的关系,而在很多情况下词语之间是存在联系的,因此简单地认为词语间相互独立是不合理的。 尽管有着明显的漏洞,但在之后近四十年的历史中,人们仍然要引入向量进行语义文本相似度分析。请下载小说app阅读最新内容 以伊芙·卡莉先前的团队,虽然他们在先前用的是基于网络知识计算文本相似度的方法。 但本质上也只是将Wiki百科中的网页内容映射为高维向量, 再通过基于向量空间的方法进行语义文本相似度计算。 可以说依旧没能离开向量空间的壳子。 虽然四十年后,当年遇到的所谓的“空间和计算资源浪费”某种程度上可以通过硬堆计算力可以暴力解决。 但这仅仅是能解决当年遇到的难题而已。 现在文本处理时面对的信息量复杂程度和当年完全不可同日而语。 此时的向量化面对着全新的困难——维度爆炸! 维度灾难(又名维度的诅咒)是一个最早由理查德·贝尔曼在考虑优化问题时首次提出来的术语,用来描述当数学空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。 当在数学空间上额外增加一个维度时,其体积会呈指数级的增长。 这样的难题在低维空间中不会遇到。 比如物理空间很少会遇到这样的问题,毕竟物理上通常只用三维来建模。 说起来很神奇,尽管物理上很难遇到维度爆炸问题。 但在自然语言处理、机器学习方面维度爆炸是常有的事情。 在这一领域随便一点信息量都会轻而易举地突破三维。 其实在很多领域中,如采样、组合数学、机器学习和数据挖掘都有提及到维度爆炸的现象。 这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。 在高维空间中,当所有的数据都变得很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。 事实上伊芙·卡莉她们先前团队所应用的基于网路知识进行文本相似度衡量时。 如果直接对所有网页进行分析,往往会导致知识含量稀疏计算困难。 事实上,这种情况就是因为维度爆炸所导致的。 伊芙·卡莉很清楚现在这种利用向量引入到语义文本相似度的方法会带来维度爆炸。 林灰为什么突然询问她如何看到将向量引入到计算语义文本相似度呢? 莫非林灰真的有什么办法能够妥善处理维度爆炸这一问题吗? 可是在机器学习、自然语言处理方向的维度爆炸并不是那么容易解决的。 还是说林灰打算干脆绕过向量去衡量语义文本相似度吗?猪熊的穿越:2014
请记住本站永久域名
地址1→wodesimi.com
地址2→simishuwu.com
地址3→simishuwu.github.io
邮箱地址→simishuwu.com@gmail.com