标志英语怎么说?_英语禁止标志图片短语

如何看待EMNLP 2022的审稿结果？　　upd：中了主会，还个愿　　—— 　　带师弟投了一篇4 3.5 3.5 3.5。。虽然分数还行但这审稿质量多少有点拉胯啊，碰到一个问题宝宝什么都看不懂还提了十几个问题。。anyway还是希望师弟的第一篇paper能中个主会　　更新：最后中了主会，2.5的哥们加到了3，感谢。　　看了一下题下统计emnlp似乎现在中稿线得均分3.5+，基本不允许有borderline或以下的分数，感觉有点畸形啊。这样真的有点看运气，即使好文章碰到比较mean的就没了。　　自己投了一篇 4 4 3 2.5 怎么说呢，这个审稿质量已经和ijcai aaai差不多了，我觉得我审的已经算一般了（因为分到的本身也没啥意思），还是写了很多不足和优点以及好几条改进意见，一看自己收到的都三两句没啥营养，全篇“我认为”“我觉得原理不清楚（好长一段没看懂也不愿意看）” “这个大模型的性质测出来的没有理论证明”（哥你看一下这个会的名字？）个个一句话评论也不给细节。。。anyway，emnlp也不能期望太多，我早上听到后面工位的小哥得了个1分我觉得我分数还行。　　2022.10.7 更新，中了一篇主会，感谢涛哥吴学长带飞！这篇主要是做了一个结构化知识作为基础的任务的统一建模与分析，提供了一些比较有趣的视角，做了非常多的分析在里面，codebase大家也都觉得蛮好用，欢迎大家来玩！结构化知识的统一建模和多任务学习　　另一篇和华盛顿大学合作的工作中了findings，感谢雨石学长和佳轩学长，再次感谢涛哥！这篇文章将DST预测问题形式化为SQL预测问题，将超大型语言模型高效地用到了对话建模中，几乎不需要标注就达到了最先进结果。欢迎！https://arxiv.org/abs/2203.08568 　　以后的工作就在香港大学继续开始了，继续加油，最好的工作永远在下一篇～　　分数还不错，占坑，中了来答　　分享一个 data point 吧，投的 Efficient Track，paper 是一个无标签多 teacher knowledge integration 的方法。去年 11 月投的 ARR，4/3.5/3.5/3，meta 4 ，当时觉得还挺 positive 的，直接 commit 到了 NAACL，录了 Findings。感觉有点难受，遂撤稿。根据 meta 的意见，加实验 address 了一个 concern 之后再次 commit EMNLP，还是 Findings。因为是 SAC 直接给 decision ，邮件里也没有任何 feedback，不想再折腾就认命咯， lol。　　也是第一次投 ARR ，整体感觉是 ARR 审稿质量其实还可以，但是（1）混合投稿的时候和 softconf 一起比较的机制不是很清楚（例如，会议和 ARR 评分的细则不对齐，甚至 ARR 不同月份的也有点区别）（2）SAC 的 decision 是怎么做的不清楚，群里看到不少高分 ARR 被拒稿，被拒的不明不白的。个人看法，以后应该还是会优先 softconf 了。　　EMNLP2022一共接收了我的三篇文章（两篇主会一篇findings），分别是　　[1] MedCLIP: Contrastive Learning from Unpaired Medical Images and Texts 　　[2] PromptEHR: Conditional Electronic Healthcare Records Generation with Prompt Learning 　　[3] Trial2Vec: Zero-Shot Clinical Trial Document Similarity Search using Self-Supervision 　　今天介绍的是 [1] 这篇工作。做的内容是最近大火的图像文本联合预训练（Vision-Language pretraining）在医疗领域的应用。这篇文章的亮点主要是探索了如何处理False Negative样本对预训练的影响探索了怎么样在样本有限的情况下，最大化的扩充正负样本对来提高多模态预训练的data efficiency 　　那么接下来就是正文啦。　　前情提要　　CLIP[1]（Contrastive Language-Image Pre-training）即图文对比预训练，是这推动这两年多模态领域大火的奠基之作。相信大家都已经比较熟悉了。

CLIP的示意图，来自原论文　　在4亿个网络图片和对应的标题的加持下，CLIP使用简单的InfoNCE loss大力出奇迹，在多个图像识别任务上的零样本预测能力吊打了很多的监督学习模型。这个特性再次强化了我们对于深度学习more data, more intelligence的印象。紧接着，就出现了非常多在CLIP预训练模型的基础上整一些花活的文章，比如在视频文本上预训练，在音频文本上预训练，等等。　　CLIP在医疗数据　　医疗相关也有可用的图像和文本的配对数据集。最知名的应该是一些列胸片和临床报告的配对数据，比如CheXpert, MIMIC-CXR等。早在CLIP之前，ConVIRT[2]就已经展示了InfoNCE式对比学习在医疗图文数据上的能力。但是不幸的是，由于数据不够大，表现不够excited，这篇文章没有搞出一个大新闻，最终才在今年的MLHC会议上发表。当时还让作为作者之一的Christopher Manning大佬发推吐槽了一番。

Manning关于ConVIRT的推特　　简单来说，ConVIRT的思路和CLIP是一致的。在我们有胸片和对应的临床报告文本时，我们可以把每张胸片和对应的报告中的句子作为正样本对，而跟其他的报告中的句子作为负样本对。这样就可以在一个图片编码器（ResNet）和文本编码器（BERT）的加持下，愉快地做对比学习了。那么和CLIP不同的是，ConVIRT并没有考虑零样本预测的情况，而只是利用预训练的图片编码器加上一个全连接层做分类器，然后还是加标签数据做微调那一套。　　在ConVIRT之后，Stanford又出了一篇GLoRIA[3]，在之前工作的基础上加了很多注意力（attention）机制。即考虑了图像编码器中间层里的特征图和文本中每个词之前的attention，得到一个经过加权的局部特征（local representation）。相对应的就是原本的图像和文本特征，在文中叫做全局特征（global representation）。也是在这篇文章中，第一次实现了医疗图片在图文预训练之后的基于prompt的零样本预测。　　为什么我们需要MedCLIP 　　写到这里，终于该轮到我们的工作MedCLIP出场了。MedCLIP要解决的问题，我想可以用一张图说明。

MedCLIP要解决的问题：（1）如何解决只能利用配对图文训练的限制；（2）如何解决由于只使用配对图文作为正样本带来的假阴性样本问题。　　首先，跟CLIP相比，医疗领域的图像文本配对总量要小的多。CLIP可以在4亿数据上充分训练，但是，X-ray和配对的报告的公开数据集最大的也只有数十万这个级别，分别是CheXpert（20万）和MIMIC-CXR（37万）。这就严重限制了模型的能力。同时，我们其实还有大量的纯医疗图像或者纯文本数据。由于使用CLIP的对比学习方法，模型只能利用天生配对的图片+报告来训练。这就导致了医疗图文训练的天生在数据量方面的跛腿，从而很难达到CLIP那样的高度。　　另外，由于假定只有配对的图片和文本是正样本，其它的都被当作负样本，很多的潜在正样本都被当作了负样本，即False Negatives。同CLIP使用的日常图文不同，X-rays之间的差别其实很小。在没有经过专业训练的普通人眼里几乎分辨不出来任何差别。并且，很多报告可能都描述了类似的症状和病情，但都被一律当作了负样本处理。这就导致了模型在训练过程中感觉到了疑惑：图片1和文本B明明匹配，却要求把它们的特征分开。这大大影响了学习到的表征的质量。　　MedCLIP怎么做　　针对上面的这两个问题，我们希望能够解耦（decouple）图片和文本的配对关系，转而用一个人工构建的弱标签系统作为匹配图片和文本的工具。见下图。

MedCLIP的基本架构、　　咱们这里主要最左边这一块。对于每条文本，我们都可以抽取它之中存在的一些关键实体，作为这条文本的弱标签。对于图片，我们有它们的标签，因为它们可能来源于已经标注好的纯图像数据集，或者有对应的报告，那么就用报告的标签作为它的标签。　　在获得这两个标签后，对比学习的目标就不再是一个对角的identity矩阵，而是两个标签向量的内积，作为图片和文本之间的一个相似度。　　实验结果　　实验比较多，这里只放一个我认为最重要的。见下图。　　

MedCLIP方法展现了惊人的数据效率（data efficiency）：利用1/10的数据就可以达到之前sota方法的表现。　　可以看到，相比GLoRIA[4]，我们的方法在只用20K数据的时候就已经达到了更强的零样本预测能力。随着样本量的增大，MedCLIP的表现也在逐渐scale。可以期待如果更多的数据可用，它的表现还可以更好。值得注意的是，在我们的实验里，CheXpert+MIMIC-CXR作为预训练数据集。但是，因为MedCLIP的特性，我们还可以考虑加入更多的图片数据进来。　　总结　　这篇文章的方法和思想非常简单，就是一个利用外部知识来构建文本和图像的弱标签，从而能够解耦图片和文本对，做到指数级扩大可用的正负样本。同时，利用弱标签，我们能够甄别出很多的False Negative样本，从而提高模型的表征学习能力。　　后续的工作可以考虑如何进一步提高弱标签的质量，以及在有噪弱标签的情况下进一步提高预训练的鲁棒性。或者，在模型架构主要是图片编码器一侧提升设计，让模型更多的抓住医疗图片的重要区域，从而提升表征的判别能力。

标志英语怎么说?_英语禁止标志图片短语

相关推荐