第258章无心插柳柳成荫

“人景分离项目……”

叶晓奇心说，来了，认真的聆听状，对这个项目非常关心。

“目前遇到了一些问题，主要是由于图片集数据量不够，导致我们的在此基础上建立的特征库，识别准确度非常低下。同时由于美工设计师的不足，在人工剥离人像上也显得资源缺乏。”

“唉……”

叶晓奇心里轻轻的叹了一口气，到此为止，最关心的两个项目，都遇到了各自的困难。一个是自身的不足，自动化基因缺乏。一个是世界性难题，深度学习需要海量的图片，世界各国的数据集都还在建，imageNet的数据集也还很弱小，中生代的勤工俭学数据集计划也才开展没多久。

“所以针对这两个问题，我们基础架构研发部，一方面加大美工的招人力度，另一方面我们开辟了一个新的思路，那就是把包含人像的视频按帧拆分，作为我们的图片素材来源。”

“在此过程中，我们发现，通过对眼睛特征和嘴唇特征的综合表现，可以计算出一个人的情绪；通过眼睛和嘴唇的连续变化，可以得到一个人的情绪变化指数；通过唇形的连续变化，可以大致的知道这个人说什么话……”

正在失望之中的叶晓奇，震惊的问道：“你是说，读唇？”

霍蓓蕾拨了拨发梢，答道：“是这样的，没错，这将是我们后续的参考研发方向。”

“你是说，因为相应的图片集不足，所以你们就把脑筋动在了视频上。然后，就得到了这个东西？”

霍蓓蕾点点头，“没错。”

叶晓奇却感到有些凌乱，科研树发展基本方向不应该是这样的。

图像AI技术大发展是建立在imageNet的深度学习理论的基础之上的，深度学习得到的特征库是一系列相关计算的核心，而深度学习依赖海量的图片。

所以图片不足，你们就特么去拆视频？拆视频就算了，美工不足所以你们直接就把人脸识别那套搬过来了，结果大把的资源撒下去，人景分离还是没整出来，却发现了可以做情绪识别和读唇术？

这下总算知道刚刚香取绫汇报的大笔支出花在哪了……

真真的应了那句话：有心栽花花不开，无心插柳柳成荫

“准确率多少？”

任何图片项目都是有准确率作为标尺的，就以人脸识别来说，准确率低于50%的研究没有任何意义，商用阶段起码要拥有80%以上的准确率才行。

“情绪识别准确率高达64%，主要包括哭、笑、怒、乐、难过、伤心等词缀，目前还在进一步学习，因为分类决策比较少，所以这个学习进展非常快。唇语识别，目前仅限于普通话中文，我们主要是采用央视某套有字幕的节目进行学习的，经测试，对特定的几个主持人的口型识别准备率接近74%，而此类泛用视频的识别率……不足5%……”

74%……不足5%……

情绪识别抛开不提，单说唇语识别。

74%什么概念，就是一句话识别正确的字数到七成，就以“人类是低等植物”这几个字来说，可能意思完全相反，但是对人类来说，猜到它的正确意思一点困难都没有。而实际错误发生的地方都是随机的，也不一定会错的这么离谱，比如“黑灰花卉会挥发”这句话，就如同正常人笔误一样。

叶晓奇不禁为那几个主持人感到默哀，估计他们要是知道他们说的话被天网研究透彻到了这个地步，以后路过中生代都会远远的绕道走。

当然只针对这几个人的研究是没有意义的，所以才有泛用的说法。

泛用识别率不足5%，听起来似乎不那么靠谱。可是事实不是这样的，万事皆有开头，只要研究大方向上没错，后续只是时间的问题。

就以5%来说，基本接近于平行世界2015年底牛津大学提出的研究成果所能达到的目标。随后牛津大学和谷歌合作，在三个月内，也就是16年的三月份迅速把这个识别率学习到了46%。紧跟着不到一年，谷歌就据此发布了唇语识别特征库，面向世界开放，因此项技术收益的项目和企业随之纷纷成立。

当然谷歌的技术仅限于英文，但是原理是一样的，中文读唇术依旧是采用这个原理。

只要研究方向得当，整个过程真的只是时间和算力的问题。

而且46%也绝不是计算机所能达到的极限，通过结合上下文语义分析和语义联结，辅以更大的数据训练，只需要经过两三年的商用落地沉淀，这个准确率就很快可以超越90%。

想想电影里的那些唇语识别桥段吧，这可是超级特工才有的专精技能。而人类经过十几年专业训练的唇语专家，很遗憾，平均识别度仅有不到13%。

计算机以其自身的特点和优势，在效率和成果上，在这方面是足以秒杀人类的。

那么唇语识别能做什么？

能做的事情很多……

特种任务案情分析、监控预警、人质交涉、视频自动字幕……

怀疑某某在春晚上是假唱对吧？声音对不上？没关系，来唇语识别测一测，真唱假唱一测既知。

怀疑某些小鲜肉在电视里只是装作念台词对吧？来咱唇语识别测一测，口型起码要对上。

进一步想像下，有了读唇术，在结合语音识别技术呢？两者相加可以使计算机对人类的语言理解准确到令人发指的程度，这就为和语音智能企业的进一步深入合作提供了可能性，而不是现在的单纯技术买入。

对于某些残障人士呢？试想下，没有人愿意生下来就耳不能闻、口不能述，还不得不去学习一些复杂的手语来和人交流，而这种交流对于普通人来说可能难以理解。但是读唇术可以改变这一些，通过对口型的学习，再通过读唇术翻译，就能正常的与其他人交流！

不能为人类服务的机器人研究，对人类来说，是没有意义的，如果真的出现了这样的研究：请拍死他！

同样，不能为人类服务的AI技术，亦是没有价值的。

读唇术有没有价值？

必须有。

高度成熟的AI技术，是诞生高度发达的机器人的先决条件。

AI技术的发展，绝对不止是像物流机器人一样，代替人类的某些工种，去跟人类抢饭吃。它可以使人类的生活变得更安逸和“懒惰”，比如扫地机器人。它也可以代替人类的某些高危工种，执行一些人类难以执行的任务，充当某些领域的敢死队和马前卒。

这方面最典型的例子就是“好奇者号”，虽然好奇者号在后世看来可能比较落伍，但是其“大脑”一定是拥有了初步的自我判断能力的，否则也无法在长达20多分钟的电波延迟中，脱离人类指挥生存。

假如有一天，人类要进军外太空，人类怎么去指挥机器人？人机协同才是最聪明的方式，机器人的重要性是无可取代的，那么使用传统按键操控方式吗？

笨重的防护服可能不允许人类这么做。势必有着其他指挥方式，例如手势、声音等，读唇术就为人机协同作业提供了额外的可能性。

太空中如此，深海中呢？

高空作业？嘈杂环境作业？

读唇术，及其所属的图像识别，其未来发展前景，是无限……是真正的星辰大海……

错误提醒更新提醒推荐本书

第258章 无心插柳柳成荫

第258章无心插柳柳成荫