Sang, H., and G. Hai. “A Framework: Region-Frame-Attention-Compact Bilinear Pooling Layer Based S2VT For Video Description”. European Journal of Applied Sciences, vol. 7, no. 4, Sept. 2019, pp. 17-30, doi:10.14738/aivp.74.6717.