🆕最新资讯🆕
CLIP是一种预训练模型,用于连接文本和图像。它通过对大量的图像文本对进行训练,实现了对图像和文本特征的编码。在下游任务中,可以利用CLIP进行零样本分类。该模型的架构包括图像编码器和文本编码器,训练阶段通过最大化图像和文本特征的内积来学习它们的匹配关系。在测试阶段,可以使用文本prompt进行预测,并将预测的embedding与类别的embedding进行相似度匹配,实现分类任务。CLIP具有广泛的应用前景,可以用于图像分类、图像检索等任务。
来源:https://juejin.cn/ai
原文链接:https://aixinjiyuan.com/798.html,转载请注明出处~~~
评论0