暂无搜索历史
近一年以来,AI 视频生成技术发展迅猛。自 2024 年初 Sora 问世后,大家惊喜地发现:原来 AI 可以生成如此逼真的视频,一时间各大高校实验室、互联网巨...
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
1.MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Res...
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 本文章仅用于学术分享,如有侵权请联系删除
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Prefe...
1.MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasonin...
1.Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangl...
1.Automated Generation of Challenging Multiple-Choice Questions for Vision Langu...
1.VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
作者:Ferran Alet, Clement Gehring, Tomás Lozano-Pérez, Kenji Kawaguchi, Joshua B. ...
作者:Shaoteng Liu, Tianyu Wang, Jui-Hsien Wang, Qing Liu, Zhifei Zhang, Joon-Young...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址