您的位置首页百科知识

视频图像文本提取

视频图像文本提取

如果是实际地做出来,有两个关键问题: 判断帧内有无字幕,文字内容提取。第一个问题中,如果你指的仅仅是"字幕",那么很好做的: 只要根据字幕可能出现的区域,通常应该是图像下方,若干行的领域,设定为ROI;如果是泛指可能出现文字的任何区域,那问题复杂度会相当高,需要根据视频内容中的文字和背景来具体分析,而且文字大小和方向也可能随机...相当滴复杂,看起来不应该是需要你做的东西;第二个问空乱桐题,假设就是字幕,而且ROI也设定好了,那么只要对这部分图像内容进行文字提取即可,用简单的图像处理手段比如阀值,滤波等将文字和斗坦背景分离开就行,然后“用软件提取文本”---你指的是第三方软件吗陪裤?如果是这样倒也简单;自己写的话最好找个现成的识别库或者工具箱什么的,这样速度快效果也好。至于你说的“采用神经网络的方法来确定文本像素点”,为什么得用神经网络?这玩意不好使的,因为假设你帧率为30fps,那么如果是实时处理,每帧的检出时间应当小于33ms,如果搞慢腾腾的神经网络进来,不是自找麻烦么?如果不实时,那针对长时间视频怎么办?难道你每帧都要存下来再慢慢check么?但是根据你的描述,神经网络貌似还是必须用上的重点... 所以我的判断你的任务可能是想整篇论文出来,而不在乎实际中的运行效果;如果是这样,希望你解释的再清楚一点,这样好给你建议。