内容持续更新中
文章介绍了字节跳动推出的 BuboGPT 模型,该模型支持文本、图像、音频三种模态的多模态联合理解,并首次引入视觉定位技术,能够精确定位图像中的对象。研究人员通过采用多模态指令调整的训练方案,使得 B…