2.1.5中EncoderLayer里涉及到add&norm的操作,貌似都是先对原始输入做norm,然后将norm后的数据输入MHA/FFN,然后再和原始输入相加,这不是pre-norm的操作吗?按理说原生的Transformer不都是post-norm嘛~