第125章 被安排的明明白白 (第5/5页)
较的一种新方法》那项专利。 伊芙在邮件里极力称赞了林灰在southwind(南风APP)中搞定的生成式文本摘要算法。 尽管伊芙·卡莉在话语里满满的全是敬意。 搞算法的人对于强者的尊敬似乎从来都是不掩饰的。 尽管算法在普通人的生活中似乎根本没充当什么角色。 但实际上这类算法是非常重要的。 某种程度上算法甚至可以说是应用的核心价值。 以前世某音海外版TIKT0K的出售为例来说。 寻求收购TikT0kM/國业务的公司考虑了四种选择: 第一种选择是在没有算法的情况下收购TikT0k。 但要求加快出售速度,同时在应用中注入替代方案。 第二种选择是在长达一年的过渡期将算法慢慢过渡给M國。 第三种选择是寻求Z國的批准,将算法出售给选定的M國公司。 第四种选择是新买家向字/节取得使用TikT0k算法的授权。 这四种收购之所以在描述上有区别是因为什么呢? 说到底还是因为算法。 M國在想方设法的获取某音的核心算法。 这些不同的方案之间差价甚至可能达到100亿美元之多。 由此观之,算法在特定的场合是非常有价值的。 林灰先前搞定的生成式文本摘要算法虽然没办法跟某音基于数据分析的个性化信息推送服务技术涉及到的算法相提并论。 但也有其独到的价值。 这玩意在懂行的人眼中则是一座充满着宝藏的宝库。 反正伊芙·卡莉字里行间都是充满着对林灰的赞美。 伊芙·卡莉很好奇林灰是怎么搞定南风APP里面文本摘要技术的。 呃,其实林灰再南风生成式文本摘要处理技术是怎么搞定的很简单。 只需要大概七八步就可以轻松做到南风APP里面的文本摘要处理技术: Ⅰ基于深度学习技术,设计合适的模型架构和训练策略。 Ⅱ设计生成式自动文本摘要模型 Ⅲ借助迁移学习的思想,提出了基于预训练模型的生成式自动文本摘要算法。 Ⅳ通过无监督来完成内容表示以及权重计算 Ⅴ…… …… 步骤说起来简单。每一步来说对于这个时空的人都很难。 有的是思路上比较难想到这个方向。 有的是技术上单纯做不到。 而有的既是思路上想不到,又是技术上做不到。 就很悲催! 比如说步骤Ⅳ里提到的无监督训练。 现在主流研究方向已经淡忘了无监督训练这个方向了。 在涉及到训练的时候更习惯监督训练。m. 而不是很侧重于无监督训练。 无监督训练对于这个时空的人来说似乎是一个很复古的研究方向。 在这个时空人的眼里。 无监督训练会带来训练结果发散的现象他们并不算很容易处理。 步骤Ⅲ提及的预训练模型: 在自然语言处理中引入预训练模型。 按照正常的时间线则是16年左右出现的。 这项技术对于此时的NLP研究者来说是一种全新的概念。 而步骤Ⅰ中的深度学习技术。 时下的人们虽然能想得到应用神经网络学习技术! 但却做不到深度学习,虽然深度学习和神经网路学习意思差不多。 这个时空神经网络的研究并不算特别深入。 14年虽然也有神经网络,但在神经网络学习的研究并没有往后几年那么深入。 虽然从12年开始这个时空的人们就知道神经网路学习时越深神经网络准确率越高。 但是知道也没什么太大的用途。 这个时空的神经网络多数只能深/入大概十层二十层这样。 深/入到就近五十层的时候就极限了。 而后世的神经网络深/入几百层上千次也是常有的事情。 一言以蔽之,这个时空的人们在神经网络学习方面还没办法做到那么深。 而没法做到那么深,在准确度上就要很容易打折扣。 尽管这里面的门路林灰都很清楚。 但时机不成熟的情况下这些东西暂时就不足为外人道了。猪熊的穿越:2014
请记住本站永久域名
地址1→wodesimi.com
地址2→simishuwu.com
地址3→simishuwu.github.io
邮箱地址→simishuwu.com@gmail.com