深度学习(Deep Learning)

如何评价 Google 最新的模型 MnasNet?

打开arxiv瞅一眼,Google又放出大招,比MobileNetV2精度和实时性更高的模型,先标记一下,周末认真写一下笔记。 MnasNet: Pl…
关注者
830
被浏览
75,812

6 个回答

这个工作确实不错,大体思路大家都有,但这个工作做得确实巧妙,同时也隐隐地各种炫富。(泪两行


一个比 MobileNetV2 精度和实时性更高的模型,只是其中一个最基本最直接的结果,当然也是一个必然的结果。自动优化,排列组合搜索出来的,必然优于现存的手工模型,这个“更优”的结果反而是 trivial。在实验验证中,搜索到的模型即使在图像缩放等条件下,也还能持续表现出对于 MobileNetV2 的优势,这个就不是该工作本身能确保的结果,略有惊喜。


主要结构,如下图所示,用一个强化学习来搜索一个深度卷积神经网络,但主要优化目标有两个,识别准确率和 CPU 运算延迟。


其中,模型的训练只在 ImageNet 上“简单”跑 5 个 epochs。然后转换为 TFLite,再在 Pixel 1 上用单 CPU 核测试“延迟”。所以搜索的 8k 个模型(炫富),大多数也还是没在 ImageNet 上完整训练过(地主家也没有余粮啊)。只有最好的 <15 个模型,进行了完整的 ImageNet 或 COCO 的训练。


论文里几次提到,超参没怎么仔细搜索,成功全靠结构设计和搜索算法。而且可以根据应用和平台随时搜索到更适合应用的模型。论文里举的例子,是面向视频应用,可以搜索延迟 <25ms 的模型,实际结果是延迟 23ms 的模型。

搜索得到的基线结果 MnasNet 中的五种层的结构,有两种分别与 MobileNet V1 和 V2 中的层相同,证明了人工设计得确实优秀,强化学习搜索也还是收敛到类似结构。同时说明自动搜索也可以搜索到人工设计的最优结果。但其实,话说回来,搜索结构的设计( S^{B*N} ),本身应该也还是参考 MobileNetV1 和 V2 的结构了。


整体读下来,感觉思路很顺畅,没有意外,但为了完成这个工作调动的资源真的很让人眼馋。感觉现有结果也只是个初步结果。这篇论文读起来感觉像是说,看,这么做肯定没问题,更多更好的成果就在前面了,赶紧再给投点资源吧。(笑

编辑于 2018-08-16 07:25

mnasnet思想其实蛮朴素的,把计算耗时和准确率一起放到reward里面取了一个trade-off,不过效果确实是好.其实google精心设计的这个网络搜索空间仍然是非常大的,搜索过程也是比较发散的,许多不同结构的网络可以取得非常接近的accuracy,但是这些网络由于其cell结构中并行的分支数量以及operation类型的不同,其计算时间很可能相差好几倍.这时候需要从中挑选一个耗时最短的网络结构,于是就有了mnasnet这篇文章的工作.

发布于 2018-08-02 11:43

Google 团队提出的 MnasNet,使用强化学习的思路,提出一种资源约束的终端 CNN 模型的自动神经结构搜索方法。

发布于 2018-08-20 12:26

要是说没借鉴点 shufflenet v2 我是不信的

大家都同样从实机速度指标出发说明这个方向没错,坑被大户填了我们喝喝汤看看 paper也蛮好。

编辑于 2018-08-07 10:40

理论上的fops和实际上硬件能用的还是有很大差距的,目前可能还没有shufflenetv2好用。

发布于 2018-09-19 05:21

这个想法我也有过,也用flops实验过。只能说理论不创新,实验牛逼

发布于 2018-08-07 10:26
( 为什么?)