InternLM MultiModal SIG #591
Nobody-ML
started this conversation in
MultiModal
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
目的:探索、学习多模态大模型架构和下游任务,并产出多个最佳实践和典型案例
时间周期:2024年3月——6月
人类通过视觉、听觉、触觉、语言等多维感知来理解、感受世界,现今人工智能的发展正向着多维感知的方向不断发展,Large Language Model 的出现让通用强人工智能成为了可能,但是 Large Language Model 仅有文本模态,不足以满足人们意图需求,为此需要在 LLM 的基础上增加视觉编码器和连接视觉与语言模型的 Layer,构建出能遵循多模式视觉和语言指令的多模态模型,这样才能更好地完成现实任务,实现多模态交互。
兴趣小组主线任务:
1、学习多模态大模型的架构,了解其工作原理;
2、构建多模态大模型相关项目;
3、多模态大模型 Arxiv 论文产出。
组员福利:
良好的学习氛围
优秀组员证书
上海人工智能实验室内推机会
免费且充足的算力支持
上海人工智能实验室研究员亲自指导
InternLM 社区已有多模态工作:
InternLM-XComposer:https://github.com/InternLM/InternLM-XComposer
InternVL:https://github.com/OpenGVLab/InternVL
小伙伴如果有相关的项目欢迎参与贡献~
想参与的同学欢迎联系浦语小助手(微信搜索 InternLM),或者联系兴趣小组组长Nobody(微信搜索:LTY1755309985)
飞书共享文件夹:https://aicarrier.feishu.cn/wiki/ZKDpw5mkfitfqHkt9kRcVnTwnMh
Beta Was this translation helpful? Give feedback.
All reactions