CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起,旨在通过搭建产学合作平台,连接产业实践问题与学术科研问题,支持海内外优秀青年学者开展与产业结合的前沿科研工作。
2018年CCF-腾讯犀牛鸟基金共涵盖机器学习、计算机视觉及模式识别、语音技术、自然语言处理、大数据技术、区块链等6个重点技术领域,涉及31项研究命题。
未来,我们将分三期对研究命题进行详细介绍,欢迎青年学者关注了解,希望大家可以从中找到适合自己的申报命题。
一、机器学习
1.1 面向图数据的深度卷积网络研究
深度神经网络在基于网格数据(如图片、语音以及文本等)的表示与识别上取得了令人瞩目的进展。然而,实际的机器学习任务往往需要处理一类重要的非网格数据——图,例如社交网络、学术引用网络、三维点云、分子模型等。针对图数据的卷积网络需要解决以下难点:1、图节点无位置和方向属性;2、不能明显获得节点的局部感受;3、对大图切割成小图是NP-Hard,难以实现mini-batch训练。
建议研究方向:
1) 利用卷积网络实现图节点的高效分类。
2) 研究图上的快速池化操作,实现子图分类。
3) 构建基于图数据的深度学习的分布式算法,实现超大规模深度图学习。
1.2 强化学习在物理世界中的核心算法和应用研究
近年来,强化学习已经在虚拟世界游戏、模拟等领域(Alpha Go,CMU Poker, OpenAI DOTA2)取得突破性进展,但是在现实物理世界中鲜有应用。如何打通虚拟世界和现实物理世界的桥梁,将在虚拟模拟器里训练得到的模型有效部署到现实世界中,或直接在现实世界中进行高效强化学习训练,并将相应核心算法落地到普通用户的生活场景中,是一项有挑战性的重要课题,其成果将有助于通用人工智能在现实世界中的落地。
建议研究方向:
1) 搭建基于物理世界的高仿真模拟器。
2) 深度迁移学习(transfer learning)和不同数据自适应研究(domain adaption)。
3) 智能体的自监督学习(self-supervised learning)或元学习(Meta Learning)。
1.3 基于FPGA的深度学习编译器
随着深度学习框架和硬件平台数量不断增加,我们需要优秀的工具链来将高级神经网络描述从深度学习框架前端向下编译为多硬件后端的低级机器指令代码,用于满足FPGA加速硬件发挥极致性能及加快开发效率的需求。
建议研究方向:
1) 提供从现有的前端框架(Tensorflow、caffe等)到FPGA基础算子指令集的端到端编译。
2) 高效完备的深度学习instruction set设计。
3) 通过自动转换计算图来优化深度学习的计算效率。
4) 最小化内存访问,优化数据布局,融合计算模式。
1.4 量子机器学习
在解决某些大规模机器学习任务上,量子算法展现出了指数级的运算优势。了解在什么样的任务和条件下量子计算机有优势,优势有多大,是量子计算最重要的研究领域之一。腾讯有丰富的机器学习业务场景和海量数据支持,为量子机器学习提供了广阔的问题平台。其成果将有助于发现和研判量子计算机在互联网科技中可以起到的作用。
建议研究方向:
1) 设计大规模矩阵运算中的高效量子算法。
2) 探索高维数据的量子表示。
3) 研究经典机器学习对量子实验设计的帮助。
二、计算机视觉及模式识别技术专题
2.1 机器视觉研究
计算机视觉技术现阶段可以被应用于不同的应用领域,将计算机视觉与机器人相结合,进而产生机器视觉的研究。首先如何提升机器人采集图像/视频信号的质量。提高图像/视频的成像质量,对图像进行编辑,变换,和生成,一方面达到更好的分享目的,另一方面更有利于后续的图像/视频的理解与分析。对机器人采集的视频进行理解分析,对视频进行打标签操作,可以完成后续的分类/推荐等工作。
对视频运动信息proposal,localization等操作可以进一步分析理解视频内容。视频的描述生成或者密集描述生成,可以将无结构化的视频进一步表示成结构化的文本信息,从而更好地理解视频的语义信息。基于视频的语义信息,可以进一步定义机器人的操作,和机器人与现实世界的交互等。
建议研究方向:
1) 监督/无监督图像/视频质量增强/生成。
2) 无监督/监督视频表示学习。
3) 无监督/弱监督视频定位/proposal/语义grounding。
4) 视频描述生成;视频密集描述生成。
5) 视频推荐。
6) 机器人学习抓取(Learning to grasp)。
7) 机器人学习导航(Learning to navigation)。
2.2 基于深度学习的图片和视频分析与理解
对于图片和视频的内容理解,是计算机视觉研究领域的核心问题,也是机器学习研究中的最大应用场景。通过对图片和视频的内容理解,将很大程度上提升图片和视频分类、搜索、推荐等应用场景中的用户体验。
本课题主要关注对图片与视频中的场景、物体和行为进行识别的研究。我们希望通过深度学习的方法对图片和视频中的内容进行理解,包括对通用及特定物体的识别,背景场景的识别,以及用户在视频中的行为识别。
建议研究方向:
1) 研究如何通过深度学习的方法提升多标签图片/视频分类的水平与效率。
2) 研究基于深度学习的物体识别技术。
2.3 人工智能在医疗影像中的应用
人工智能与医学的跨界融合将给未来医疗领域带来颠覆性的巨大变化。本课题将基于海量医学影像数据及标定,研究开发基于深度学习的疾病(包括癌症,心脑血管疾病,和脑神经疾病)早筛算法,包括病灶定位、分割,良恶性分类等。
建议研究方向:
1) 对于肝癌的早期筛查算法研究。
2) 对于乳腺癌的早期筛查算法研究。
2.4 金融领域的Instance re-identification技术研究
reID是跨多个摄像头对实例进行匹配以实现实例跟踪的技术。由于不同摄像头中尺度、光照、角度、姿态等的不同,给这一技术带来很大的挑战。
reID技术可以广泛应用于保险科技(例如农险中通过智慧养殖技术降低理赔率,或者利用图像跟踪减少理赔欺诈等)、智能支付场景(跟踪用户、车辆等以实现消费后的自动扣款)等领域。
建议研究方向:
1)研究如何搭建摄像头网络对多个目标进行跟踪。
2)研究如何在跟踪的基础上,准确地进行识别任务并保持一致性。
3)研究大范围摄像头中如何实时进行多目标跟踪。
4)研究如何在复杂场景下(遮挡、细粒度、光线变化等)保证高准确率和高性能。
2.5 面向复杂社交图片信息安全场景的多语种文字关键信息检测
随着社交信息传播的流行,检测社交图片中的文字信息,挖掘有效内容逐渐成为一项重要的研究工作。目前的深度学习可以解决一些问题,但是面对某些复杂情况,社交场景图片的信息检索依然面临很多技术问题,例如检测时间慢,检测精度不高等。
建议研究方向:
1) 社交场景图片的混合角度与排版的文字检测。
2) 社交场景图片的文字检测与识别联合模型研究。
3) 社交图片中的关键词检测。
2.6 线稿图着色研究
在游戏开发过程中,美术人员需要制作大量的角色和场景图片。其中2D美术资源制作过程分为线稿、着色两个阶段,而对大量线稿进行着色耗时较长,且着色内容具有较大的重复性。
如果通过机器学习的方法,根据所需的多个参数如美术风格、色彩要求、质感等,实现美术线稿全自动着色,对提高效率,加速游戏美术资源制作将会有很大帮助。
建议研究方向:
1) 依据特定美术风格、色彩、质感等参数,对线稿进行准确且快速的着色。
2) 如何根据少量的已着色线稿图样本(几百或上千量级),实现本课题的目标。
返回目录
2.7 基于深度学习的人脸与OCR研究
在智能安防、智慧零售等新兴领域的推动下,人脸与OCR技术面向的场景越来越多样化,同时精度要求也越来越高。传统的方法一般仅适用于受限的应用场景,在更为复杂和需求量更大的应用场景中,需要结合大数据和深度学习技术进一步提升人脸与OCR技术的性能。
建议研究方向:
1) 基于循环神经网络的汉字字符串识别。
2) 困难场景中(如:背景干扰,区域定位不准确,文本行倾斜,文本排列扭曲等)英文字符串的识别。
3) 3D人脸研究。
4) 跨年龄人脸识别(面向寻找走失儿童等应用场景展开研究)。
5) 活体检测(面向新零售、人证比对等场景展开研究)。
6) 视频人脸跟踪与识别(面向安防监控等应用场景展开研究)。
7) 低功耗场景下的人脸与OCR研究(面向移动设备、监控硬件等低功耗计算资源展开研究)。
2.8 视频多模态数据处理
近年发展出一些面向视频内容的识别技术,比如人脸识别、质量评估、字幕提取、语音识别、内容分类等,但还是要整合成接近到内容理解的程度,才能产生更大的作用,这些零散的技术无法满足现时的实际需求。
多模态数据是指对于一个待描述事物,通过不同的方法或角度收集到的数据。我们把收集这些数据的每一个方法或视角称之为一个模态(Modality)。在多模态数据中,每个模态均为其余的模态提供了一定的信息,即模态之间存在着一定的关联性。近些年,由于深度学习的发展,多模态机器学习进一步成为人工智能的研究热点。
建议研究方向:
利用多模态的数据(例如视频,音频,文本等信息),对图像和视频进行数据的分析和提取,包括(但不局限):图像描述,视频描述,人物情感/动作分析,图片/视频检索等方向。
2.9 精彩内容自动剪辑
通过机器学习的方法,自动分析给定的视频内容,剪辑出视频中的精彩片段。本课题旨在找到一种通用的视频精彩内容自动剪辑方法,能适应多种视频类型,并能快速添加对新视频类型的支持。
建议研究方向:
1)找出适合精彩内容自动剪辑的分类方法。
2)针对具体分类的精彩内容提取,例如游戏类视频。