更高隐藏层的融合,提供更多的训练信号:个人阅读理解给出的解读是高层的空间表征更贴近任务本身,因此融合带来的增益更大 。这也是我之前对为啥文本任务在Encoder之后融合效果效果有时比在输入层融合还要好的强行解释 。。。。
至于Manifold mixup为何比mixup更好,作者做了更多的数学证明,不过 。。。这个大家感兴趣去看下就知道这里为何省略一万字了~以及之后出现的Flow Mixup也挑战过Manifold会导致样本分布飘逸以及训练不稳定的问题,不过我并没有在NLP上尝试过manifold的方案 , 以后要是用了再来comment ~
【小样本利器4. 正则化+数据增强 Mixup Family代码实现】
推荐阅读
-
-
2019年10月8日寒露可以提车吗,2019寒露冷空气南下吗?
-
-
2022年重阳节主题活动 2022关于重阳节的主题活动策划5篇
-
-
-
1-30全集 大男当婚分集剧情介绍 大男当婚分集剧情介绍
-
-
-
-
兑下兑上 周易管理学:易经64卦 ??第五十八卦 兑 兑为泽
-
-
-
华为nova8pro有红外功能吗_华为nova8pro有没有红外功能
-
-
2023方城县第一高级中学录取分数线是多少分 2023方城县第一高级中学录取分数线
-
-
-
-