CLIP：连接文本与图像的预训练模型

2023-11-03 AI最新资讯 169 0

🆕最新资讯🆕
CLIP是一种预训练模型，用于连接文本和图像。它通过对大量的图像文本对进行训练，实现了对图像和文本特征的编码。在下游任务中，可以利用CLIP进行零样本分类。该模型的架构包括图像编码器和文本编码器，训练阶段通过最大化图像和文本特征的内积来学习它们的匹配关系。在测试阶段，可以使用文本prompt进行预测，并将预测的embedding与类别的embedding进行相似度匹配，实现分类任务。CLIP具有广泛的应用前景，可以用于图像分类、图像检索等任务。
来源：https://juejin.cn/ai

原文链接：https://aixinjiyuan.com/798.html，转载请注明出处~~~

AI新资讯