对于视频字幕,我们需要将视频帧输入到递归神经网络。如果我们有视频,提取帧的标准是什么,例如帧采样率和图像分辨率要求。
我还想知道,当我们做视频字幕时,我们是先提取视频的所有帧作为输入,还是在处理它们的同时提取帧。
发布于 2017-02-16 20:09:24
从你的问题中并不完全清楚,所以可能值得一提的是,字幕和字幕通常存储在独立于视频本身的文件中-即它们不会直接添加到视频流中。同样值得注意的是,大多数视频容器(例如MP4文件)将有单独的视频和音频轨道。
根据您要添加的字幕的类型,方法可能会有所不同-例如,如果字幕是简单的描述性注释,则它们通常是手动添加的,以便在视频中编辑者选择的任何位置显示。
如果字幕要提供语音的文字记录,那么它们显然必须与音频和视频流对齐,并且通常将从音频流生成并使用其时间戳。
在不同的区域和不同的部署中,字幕有多种不同的标准,但最常见的是:
一般来说,无论格式是什么,都会有一种机制来将字幕(如果需要)与视频的任何帧相关联-即,允许播放器将特定视频帧与特定字幕链接的时间码。
https://stackoverflow.com/questions/42265039
复制相似问题