0
上海交通大学计算机系马利庄教授团队在关联视觉表达与理解方面取得重大进展
<p>2022年7月至今,上海交通大学数字媒体与计算机视觉实验室(DMCV)在马利庄教授领衔下,在关联视觉表达与理解方面取得重大进展。团队成果获顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 发表/录用。团队学术思想结合计算机图形和数字图像处理技术,以计算机视觉技术为桥梁,形成三个领域的交叉研究闭环;面向人物-行为-场景的一体化视觉表达与理解重大科学问题展开研究,研发针对人物的姿态估计与跟踪技术,提出针对行为理解的人类知识引擎框架,构建针对场景理解的端到端视频目标检测及域适应框架,建立人物语义空间、行为语义空间与场景语义空间的映射关系和联合表征,在人物-行为-场景的一体化关联视觉表达与理解方面取得重大进展。</p><p>马利庄教授团队主要研究方向包括数字媒体、计算机视觉、机器智能及虚拟现实等。团队由马利庄教授领导,成员包括卢策吾教授、盛斌教授、易冉助理教授、李永露助理教授、陈玉珑博士后、院旺博士后等。</p><p>IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)是IEEE计算机协会旗下的重要学术期刊之一,在2023年的影响因子是23.6。涵盖了模式识别、计算机视觉、机器学习、数据挖掘等方向,是该领域研究人员交流最为活跃的论坛之一。</p><p>团队近一年来在TPAMI发表了10篇论文,简介如下:</p><p>1. 标题:TransVOD: End-to-End Video Object Detection with Spatial-Temporal Transformers</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 45, Issue: 6, 01 June 2023)</p><p>作者:周千寓,李祥泰,何路,杨一博,程光亮,童云海,马利庄,陶大程</p><p>摘要:现有的最先进的图像目标检测器,例如DETR和Deformable DETR等,无法直接处理视频数据中视频帧变化和外观恶化问题,例如运动模糊、局部遮挡、相机重定位、稀少姿态等问题, 因此如何利用最先进的Transformer目标检测器有效建模时序信息,从图像域扩展到视频域是一个十分重要的问题;此外,绝大多数现有的视频目标检测器都基于两阶段的检测器,无法实现端到端的训练,且依赖于许多手工设计的特征提取和时序建模网络,例如光流网络、存储机制、相关性网络等。同时,几乎所有的视频目标检测器都依赖于复杂的后处理方式以取得先进性能。上述这些复杂的设计限制了这个领域的发展。因此,本文提出了TransVOD,这是第一个端到端训练且简单有效的视频目标检测系统,也是第一个基于视觉Transformer的视频目标检测方法;本文同时把视频目标检测任务重新定义为sequence-to-sequence任务,提出了基于时空Transformers的端到端视频目标检测系列方案。所提方法在不同backbone下都大幅度领先最先进方法,并且在超大规模视频数据集ImageNet VID上成为第一个达到90%mAP的方法。同时在单个V100 GPU设备上,所提的方法TransVOD Lite在ImageNet VID成为第一个达到约30FPS的实时视频目标检测性能的方法,实现了速度和精度的最佳平衡。</p><p>论文链接:https://arxiv.org/pdf/2201.05047.pdf</p><p class="ql-align-center"><img class='lazy' "600""640" "198" src="//p2.itc.cn/images01/20230922/9c6c0fc096ea40e8a424cb73cbf628f6.jpeg"></p><p>2. 标题:Self-Adversarial Disentangling for Specific Domain Adaptation</p><p>作者:周千寓,古祁琦,庞江淼,鲁学权,马利庄</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 45, Issue: 7, 01 July 2023)</p><p>摘要:源域和目标域之间的域偏移通常跨域了不同的维度,例如雨、雪、雾、视场角等。在现实应用中,有许多实际场景要求模型可以迁移到特定的域维度,例如从晴天图像到雾天图像。举个例子,在上述场景中目标域中总是存在不同程度的雾厚度,导致极端场景的能见度较低,清晰场景的能见度较高。然而,现有的域适应方法没用考虑任何特定域维度上的显示先验知识,缺乏明确的目标维度进行优化。此外,同一维度上不同程度的域变量差异导致了目标域的域内偏移, 使得目标域上的迁移效果不尽人意。因此,本文研究了一种称为特定域适应(SDA)的实用设置,该设置在特定需求的维度上对齐源域和目标域。这个特定维度可以是任何维度,同时本文通过引入该维度的显示先验知识学习到更加细粒度的域变量无关特征,提出了基于自对抗解耦学习(SAD)的特定维度域适应框架,可作为即插即用的方法嵌入到现有的域适应框架中,在目标检测和语义分割任务上实现一致的性能提升,并且不会在推理时间上引入任何额外的成本。</p><p>论文链接:https://arxiv.org/pdf/2108.03553.pdf</p><p class="ql-align-center"><img class='lazy' "600""640" "296" src="//p4.itc.cn/images01/20230922/d85461ab3ef448f09c7183b24cfed87a.jpeg"></p><p>3. 标题:HAKE: A Knowledge Engine Foundation for Human Activity Understanding</p><p>作者:李永露,刘欣鹏,吴小茜,李一卓,邱祚雨,徐良,许越,方浩树,卢策吾</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 45, Issue: 7, 01 July 2023)</p><p>人类行为理解是人工智能领域的一个重要问题,具有智慧医疗和行为分析等多种应用。尽管深度学习取得了一些进展,但行为理解仍然非常具有挑战性。类似物体识别的解决方案通常尝试将像素直接映射为语义输出,但行为模式与物体模式有很大不同,从而阻碍了这一范式在行为理解领域的有效性。在这项工作中,我们提出了一种新颖的范式,分两个阶段重新定义行为理解任务:首先将像素映射到由行为原语构造的中间空间,然后使用可解释的逻辑规则对检测到的原语进行编程以推断语义。为了提供具有丰富表征性的原语空间,我们构建了一个知识库,其中包括 26+ M个原语标签和来自人类先验或自动发现的逻辑规则。我们的框架—人类行为知识引擎(HAKE)在多个具有挑战性的基准上表现出卓越的泛化能力和性能。代码和数据可在http://hake-mvig.cn/获取。</p><p>论文链接:https://arxiv.org/abs/2202.06851</p><p class="ql-align-center"><img class='lazy' "600""640" "211" src="//p8.itc.cn/images01/20230922/8c4ef7d9d45c452aa587a293ca18df23.jpeg"></p><p>4. 标题:Mirror Detection with the Visual Chirality Cue</p><p>作者:谭鑫,林嘉应,许可,陈攀,马利庄,刘永雄</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 45, Issue: 3, 01 March 2023)</p><p>摘要:镜面检测是具有挑战性的,因为镜面的视觉外观会随着周围环境的变化而变化。由于现有的镜像检测方法主要是假设镜像区域与非镜像区域的存在上下文对比度和关系相似性,如果违背这些假设,可能无法识别出镜像区域。受最近一项应用CNN来帮助区分图像是否翻转的研究的启发,本文重新思考这个图像级的视觉手性(Visual Chirality)属性,并将其重新定义为一个可学习的像 素级线索,用于镜像检测。具体来说,本文首先提出了一种新的翻转-卷积-翻转(Flipping-Convolution-Flipping, FCF)变换,将视觉手性建模为可学习的交换残差。 然后,本文提出了一种新的视觉手性嵌入(Visual Chirality Embedding, VCE)模 块,利用多尺度特征映射中的交换残差,将视觉手性嵌入到本文的镜像检测模型 中。此外,本文还提出了视觉手性引导边缘检测(Chirality-guided Edge Detection, CED )模块,将视觉手性特征与上下文特征相结合,以细化检测结果。大量实验表明,该方法在三个基准数据集上的性能优于目前最先进的方法。</p><p>论文链接:https://ieeexplore.ieee.org/abstract/document/9793716</p><p class="ql-align-center"><img class='lazy' "600""640" "209" src="//p6.itc.cn/images01/20230922/78f46e5c425b43d1ad4732cf9641034a.jpeg"></p><p>5. 标题:Quality Metric Guided Portrait Line Drawing Generation from Unpaired Training Data</p><p>作者:易冉,刘永进,来煜坤,Paul L. Rosin</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 45, Issue: 1, 01 January 2023)</p><p>摘要:肖像线条画是一种高度抽象、具有表现力的艺术形式,将人物肖像中的丰富信息进行高度压缩,仅用稀疏的图形元素(如线条)表示。精致的肖像线条画需要艺术家精心绘制,十分耗费时间。一些现有方法使用成对训练数据生成肖像画,但是收集数据的过程是昂贵且耗时的。论文提出一种基于非成对数据的从人脸照片生成肖像线条画的方法,该方法可以(1)使用单个网络生成多种风格的高质量肖像线条画,以及(2)生成训练数据中未出现的“新风格”肖像画。</p><p>论文提出一种从人类感知数据中学习肖像线条画质量指标(quality metric)的方法。首先使用现有方法生成许多肖像线条画,并与艺术家的画作混合,获得不同质量的肖像线条画样本。通过用户实验收集人类对这些肖像线条画的偏好,由此计算得到每个肖像线条画的质量分数(quality score)。然后用这些数据训练一个回归网络M,其输入为一幅肖像线条画,输出为该肖像线条画的质量分数。该回归网络从人类评估数据中学习,因此其预测的分数可以帮助引导肖像画生成器生成更高质量的结果。</p><p>论文提出非对称循环映射结构和截断损失,以解决非成对训练场景下已有方法常出现的信息隐藏和重要特征缺失问题;并提出基于上述质量度量模型M的质量损失(quality loss),以引导生成网络生成质量更好的肖像画;通过在生成器部分引入风格特征及风格分类鉴别器,进一步使得单个模型能实现多种风格的肖像线条画的生成。</p><p>论文对生成模型进行了特征图可视化,并将其与人脸语义图进行比较,以进一步分析生成网络。实验结果验证了生成器在生成过程中学习了人脸的语义信息。大量实验表明,论文所提出的模型优于目前最先进的方法:论文所提出方法生成了比现有方法更高质量的结果,既保留了人脸结构,又具有良好的图像和线条质量。</p><p>论文链接:https://arxiv.org/pdf/2202.03678</p><p class="ql-align-center"><img class='lazy' "600""640" "383" src="//p0.itc.cn/images01/20230922/96f0806b52ad4357909e133243803f7e.jpeg"></p><p>6. 标题:Learning Single/Multi-Attribute of Object with Symmetry and Group</p><p>作者:李永露,许越,徐昕宇,毛潇涵,卢策吾</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 44, Issue: 12, 01 December 2022)</p><p>属性和物体可以组成不同的组合,为了对这些概念的组合性质进行建模,将它们作为变换来学习是一个很好的选择,例如属性-物体的耦合和解耦。然而,复杂的变换需要满足特定的原则来保证合理性。此文中,我们首先提出了一个之前被忽视的属性-物体变换原则:对称性。例如,将“剥皮的苹果”与属性“剥皮”耦合应仍然生成“剥皮的苹果”,而将“剥皮的”与“苹果”解耦仍应输出“苹果”。结合对称性,我们提出了一种受群论启发的变换框架,即SymNet。 它由两个模块组成:耦合网络和解耦网络。我们采用深度神经网络来实现SymNet,并以群公理和对称性为目标函数,以端到端范式对其进行训练。然后,我们提出了一种基于相对移动距离(RMD)的方法,利用属性变化而不是属性模式本身来对属性进行分类。除了单个属性和物体的组合之外,我们的RMD还适用于多个属性和物体的复杂组合学习任务。 SymNet可用于属性学习、组合零样本学习,并在四个广泛使用的基准测试中取得了优秀的性能。 代码位于https://github.com/DirtyHarryLYL/SymNet。</p><p>论文链接:https://arxiv.org/abs/2110.04603</p><p class="ql-align-center"><img class='lazy' "600""640" "331" src="//p9.itc.cn/images01/20230922/9632f23d406048b2bfd707fefda17296.jpeg"></p><p class="ql-align-center"><img class='lazy' "600""636" "556" src="//p1.itc.cn/images01/20230922/baf0f36196e541ff9f661ee4fb2ee46b.jpeg"></p><p>7. 标题:Transferable Interactiveness Knowledge for Human-Object Interaction Detection</p><p>作者:李永露,刘欣鹏,吴小茜,黄悉偈,徐良,卢策吾</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 44, Issue: 7, 01 July 2022)</p><p>人与物体交互(HOI)检测是了解人类如何与物体交互的一个重要问题。在本文中,我们探索了指示人与物体是否相互作用的交互性知识。我们发现交互性知识可以通过多个 HOI 数据集学习,并弥合不同 HOI 类别间的差异。我们的核心思想是利用交互网络从多个 HOI 数据集中学习可泛化的交互性知识,并在HOI 分类之前执行非交互抑制(NIS)。由于交互性的泛化能力,交互性网络是一个可迁移的知识学习器,可以与任何 HOI 检测模型配合以达到理想的结果。此外,我们还利用了人体实例和身体部位特征来学习分层的交互性,即实例级和身体部位级交互性。最后,我们提出了一致性任务来指导学习过程并提取更深层次的交互式视觉线索。我们在 HICO-DET、V-COCO 和新构建的 PaStaNet-HOI 数据集上广泛评估了所提出的方法。凭借学习到的交互性知识,我们的方法优于最先进的 HOI 检测方法,表现了其有效性和灵活性。代码可在https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network 获取。</p><p>论文链接:https://arxiv.org/abs/2101.10292</p><p class="ql-align-center"><img class='lazy' "600""640" "314" src="//p3.itc.cn/images01/20230922/c40ce460607c4488898b32d1c64c8865.jpeg"></p><p>8. 标题:PRIN/SPRIN: On Extracting Point-wise Rotation Invariant Features</p><p>作者:尤洋,楼雨京,时若曦,刘琦,戴宇榮,马利庄,王伟明,卢策吾</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 44, Issue: 12, 01 December 2022)</p><p>在实际应用中,没有先验姿态的点云分析非常具有挑战性,因为物体点云的朝向通常是未知的。在本文中,我们提出了一种全新的点云学习框架PRIN,即Point-wise Rotation Invariant Network,专注于点云分析中的旋转不变特征提取。我们通过密度感知自适应采样构建球形信号来处理球形空间中的扭曲点分布。提出了球形体素卷积和点重采样来提取每个点的旋转不变特征。此外,我们将PRIN扩展为稀疏版本,称为SPRIN,它直接在稀疏点云上运行。PRIN和SPRIN都可以应用于从对象分类、零件分割到3D特征匹配和标签对齐等任务。结果表明,在具有随机旋转点云的数据集上,SPRIN表现出比没有任何数据增强的最先进方法更好的性能。我们还为我们的方法实现的逐点旋转不变性提供了全面的理论证明和分析。</p><p>论文链接:https://arxiv.org/abs/2102.12093</p><p class="ql-align-center"><img class='lazy' "600""640" "348" src="//p8.itc.cn/images01/20230922/7869d4cabd564ec6b6edc34ea1df328a.jpeg"></p><p>9. 标题:Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge Engine</p><p>作者:尤洋,李成坤,楼雨京,承洲俊,李良伟,马利庄,王伟明,卢策吾</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 44, Issue: 9, 01 September 2022)</p><p>像素级2D对象语义理解是计算机视觉中的一个重要主题,可以帮助机器深入理解我们日常生活中的物体。然而,之前的大多数方法直接训练2D图像中的对应关系,这是端到端的,但会丢失3D空间中的大量信息。在本文中,我们提出了一种在3D域中预测图像对应语义,然后将其投影回2D图像以实现像素级理解的新方法。为了获得当前图像数据集中缺少的可靠3D语义标签,我们构建了一个名为KeypointNet的大规模关键点知识引擎,其中包含来自16个物体类别的103,450个关键点和8,234个3D模型。我们的方法利用3D视觉的优势,可以明确地推理对象的自遮挡和可见性。我们表明,我们的方法在标准语义基准上给出了比较甚至更好的结果。</p><p>论文链接:https://arxiv.org/abs/2111.10817</p><p class="ql-align-center"><img class='lazy' "600""640" "300" src="//p1.itc.cn/images01/20230922/21edc56587a5457aabe91869b26ec0fa.jpeg"></p><p>10. 标题:Alphapose: Whole-body regional multi-person pose estimation and tracking in real-time</p><p>作者:方浩树,李杰锋,唐宏阳,徐超,朱皓怡,修宇亮,李永露,卢策吾</p><p>发表载体:IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 45, Issue: 6, 01 June 2023)</p><p>准确的全身多人姿态估计和跟踪是计算机视觉中一个重要且具有挑战性的主题。为了捕捉人类的微小动作以进行复杂的行为分析,包括面部、身体、手和脚在内的全身姿态估计比传统的单一身体姿态估计至关重要。在本文中,我们提出了AlphaPose,这是一个可以在实时运行时进行准确的全身姿态估计和联合跟踪的系统。 为此,我们提出了几种新技术:用于快速精细定位的对称积分关键点回归(SIKR)、用于消除冗余人体检测的参数化姿态非极大值抑制(P-NMS)以及用于联合姿态估计和追踪的姿态感知实例特征。在训练过程中,我们采用部分引导方案生成器(PGPG)和多域知识蒸馏来进一步提高准确性。我们的方法能够准确定位全身关键点,并在给定不准确的边界框和冗余检测的情况下同时跟踪人。我们在 COCO-wholebody、COCO、PoseTrack和我们提出的Halpe-FullBody姿态估计数据集上展示了比当前最先进的方法在速度和准确性方面的显着改进。我们的模型、源代码和数据集已在 https://github.com/MVIG-SJTU/AlphaPose上公开发布。</p><p>论文链接:https://arxiv.org/pdf/2211.03375</p><p class="ql-align-center"><img class='lazy' "600""640" "258" src="//p9.itc.cn/images01/20230922/ed112d25cebf4f54ac42c631293aceb6.jpeg"></p><p>声明: 本文资料和图片来自于政府/园区管委会官网、官方公众号、材料相关媒体及其他公开资料,如信息有误或有遗漏,欢迎联系我们修改;我们尊重知识产权,因整理资料所需,本文中引用部分公开第三方的数据、图片等内容,其所属的知识产权归属原作者,且凡引用的内容均在文中标注了原文出处、原作者。若版权所有者认为本文涉嫌侵权或其他问题,请联系我方及时处理;我们力求数据严谨准确,但因受时间及人力限制,文中内容难免有所纰漏。如有重大失误失实,敬请读者不吝赐教批评指正。</p>
计算机学域
24
2024-03-06
ResearchDetail.aspx?id=PwETt9tsuNiynlkDZ7yxWw_0_0
上海交大金石和Nana Liu教授关于偏微分方程量子计算的工作受邀月度演讲
ResearchDetail.aspx?id=alouwlAaCLcRi9F28Bsn3Q_0_0
许廷发教授科研团队在人工智能图像识别领域取得新进展