第242章 大佬竟是我自己 (第1/2页)
如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。 那么在机器学习整体比较滞后的这个时空的2014年。 同样的1000万条双语数据标注需要多少钱呢? 林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。 “两三亿美元”这个数据似乎有点吓人。 但其实也不夸张。 之所以说不夸张有两方面的原因: 一、即便是在前世,数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。 而在此之前,涉及到数据标注从来就跟“便宜”两個字不沾边。 同样拿此前林灰所列出的例子作为援引: 在前世2017年1000万条双语互译标注的成本约为2200万美元; 注意这仅仅是双语互译的标注。 “双语互译”只是某两种语言之间的互译标注。 只是两种语言之间的互译标注就需要两千多万美元? 那涉及到上百种语言的互译需要多少钱呢呢? 简单的排列组合问题: C(100,2)==4950;4950*0.22亿美元==1089亿美元; 不难看出若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。 而这仅仅是理想情况下的估算,如果真要按部就班进行这样的标注实际成本远不止于此。 毕竟很多小语种之间的互译成本显然相比于主流语言之间的互译价格还要更高。 虽然实际操作中不会真的有大怨种按部就班进行上百种语言互译的数据标注。 但这个估算也充分说明了数据标注在相当长的一段时间内都很昂贵。 同样的道理,在现在这个时空数据标注方面的成本也依然是昂贵的。 而且因为这个时空机器学习方面研究进展的滞后,现在涉及到数据标注这方面的成本甚至还要高于前世同一时期的。 二、时代是在飞速发展的,要知道现在随便一个文体店就能很方便买到的科学计算器其实际效率、可靠程度、易用性甚至可以全方位吊打上个世纪五六十年代花费上千万美元搞出来的占地几百甚至是上千平方米的计算机。 这种情况下后世很便宜的计算器拿到几十年前纵然是要价上百万美元同样是有市场的,而且可能还会相当有竞争力。 举这个例子并不是说林灰要再往前几十年去卖计算器。 林灰只是想藉此说明时代的车轮是向前的,科技也是在飞快发展的。 尤其是在中后互联网时代,科技的发展说是日新月异也丝毫不为过。 在这种情况下,往后几年一些不怎么被人过分重视的技术在几年前能够换取大额的财富是很正常的。 更何况还是利用数据标注这个相当长一段历史时期内都只能是土豪公司才玩得转的东西去换取财富? 总之,林灰没觉得“在现在1000万条双语标注数据怎么着也得要个两三亿美元”这个估算的有什么问题。 甚至于,即便是“两三亿美元的价格”,这个价格的估算可能还有点保守。 在人工智能的产业结构中,主体包含有应用层、技术层和基础层。 应用层包含有解决方案和产品服务。 技术层包含有应用技术、算法理论和平台框架。
请记住本站永久域名
地址1→wodesimi.com
地址2→simishuwu.com
地址3→simishuwu.github.io
邮箱地址→simishuwu.com@gmail.com