微软正研发 DeepSpeed-VisualChat 框架，优化大模型多模态表现

据品玩 9 月 26 日报道，HuggingFace 页面显示，微软 DeepSpeed 近日公布了一款名为 DeepSpeed-VisualChat 的框架，旨在通过整合多模式功能来优化大语言模型的能力。

据论文显示，DeepSpeed-VisualChat 的重点是提高大语言模型处理交错输入方面的熟练程度。为此，该框架引入了创新的多模式因果注意机制，在现有数据集上利用数据混合技术来确保无缝多轮、多图像对话中的交互。与现有框架相比，DeepSpeed-VisualChat 显示出高达 70B 参数语言模型大小的卓越可扩展性。