AutoSAM告知你怎樣在醫(yī)療行業(yè)更快更好開發(fā)大模型
形成預(yù)訓(xùn)練Transformer(Generative Pre-trained Transformer,GPT)系列模型的順利標(biāo)明,假設(shè)在大范圍信息上進(jìn)行訓(xùn)練,大型話語模型在零樣件和非可視域中的少許快照任務(wù)上的功能與最新技術(shù)相當(dāng)。
受GPT的啟迪,Segment Anything(SAM)為圖片分割任務(wù)引入了1個“根基模型”。他們采集了1100萬張圖片,并設(shè)計(jì)了1個半智能信息引擎,平均每張圖片形成約100個Mask,進(jìn)而總共形成10億個Mask。接著,SAM在該SAM-1B信息集上應(yīng)用Vision Transformer(ViT)Backbone訓(xùn)練1個大型可prompt模型。在23多個信息集上應(yīng)用各類零樣件任務(wù)進(jìn)行評價后,SAM顯現(xiàn)出對大多數(shù)自然圖片的推廣前景。
但是,隨著SAM在醫(yī)學(xué)圖片行業(yè)引發(fā)人們的存眷,可以觀測到SAM在零樣件設(shè)置下不可較好地推廣到醫(yī)學(xué)圖片。將用自然圖片訓(xùn)練的模型轉(zhuǎn)換為醫(yī)學(xué)圖片的挑釁可歸因于2個首要原因:
外表上的較大差別:自然圖片和醫(yī)學(xué)圖片在色彩、亮度和對照度方面體現(xiàn)出明顯差別。因?yàn)樗鶓?yīng)用的成像形式,比如CT掃描、MRI或超聲波,醫(yī)學(xué)圖片往往擁有不同的特點(diǎn);
目的物體的模糊邊緣:醫(yī)學(xué)圖片時常顯現(xiàn)不同組織和器官之間的模糊邊緣。受過訓(xùn)練的醫(yī)學(xué)顧問對解剖構(gòu)造有必須的了解,而且可能辨認(rèn)出針對僅依據(jù)自然圖片訓(xùn)練的模型來說能夠不顯著的細(xì)微邊緣。
參考到采集與SAM-1B大小相當(dāng)?shù)尼t(yī)學(xué)分割信息集的艱難,開拓預(yù)訓(xùn)練的SAM中能否有可用來醫(yī)學(xué)圖片分割的常識是至關(guān)主要的。
另外,基于prompt的分割能夠不太合適真正世界的運(yùn)用情景,原因如下:
為多類供應(yīng)prompt很耗時。針對大多數(shù)公共醫(yī)學(xué)圖片分割的挑釁,它總是須要同時分割多個類型。為每個類型輸入確切的prompt能夠會變得麻煩,特別是當(dāng)器官和組織很小而且相互相鄰時;
分割功能在較大程度上取決于prompt品質(zhì)。制造準(zhǔn)確的prompt須要特定行業(yè)的顧問常識,而這并不應(yīng)用于一切狀況。
參考到這類限定,本文提出了一類在醫(yī)學(xué)圖片信息集上微調(diào)SAM的直接方式,即解凍SAM編碼器的權(quán)重,并在其上增加預(yù)判Head進(jìn)行訓(xùn)練。解凍權(quán)重的原因是SAM是1個大模型,而且大多數(shù)權(quán)重由編碼器奉獻(xiàn)。依據(jù)試驗(yàn)結(jié)果,因?yàn)橛布枰?,對編碼器妥協(xié)碼器進(jìn)行微調(diào)不單對一切開發(fā)職員來說不太容易,況且還會造成較差的分割功能。
另一方面,為了提升SAM在臨床運(yùn)用中的可行性,作家將SAM中的Mask解碼器更換為不須要prompt進(jìn)行訓(xùn)練和推斷的預(yù)判Head。本文評價了三類不同型號的預(yù)判Head,含蓋視覺Transformer(ViT)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和線性層。ViT預(yù)判Head采取SAM Mask解碼器,命名為AutoSAM,由輕量級交叉注重力模塊和轉(zhuǎn)置卷積層構(gòu)成。作家移除prompt標(biāo)志并復(fù)制圖片嵌入以及其余輔助嵌入,以便解碼器可以同時為不同的類形成多個Mask。
為了展現(xiàn)作家方式的標(biāo)志效益,作家在Few-Shot Head學(xué)習(xí)環(huán)境中進(jìn)行了試驗(yàn),此中僅應(yīng)用1或5次標(biāo)志的MRI掃描來微調(diào)模型。在公開可用的醫(yī)學(xué)圖片分割信息集上獲取的結(jié)果凸顯標(biāo)明,與零樣件及時驅(qū)動SAM相比,定制預(yù)訓(xùn)練SAM獲得了明顯改善。
另外,作家的方式在較大程度上優(yōu)于從Head開始的訓(xùn)練和最超前的自督促學(xué)習(xí)方式,注重SAM在醫(yī)學(xué)行業(yè)的運(yùn)用后勁。二、有關(guān)工作2.1 大話語模型
在大型話語模型(LLM)顯現(xiàn)以后,許多工作努力于在LLM中引入圖片來完結(jié)多模態(tài)任務(wù)。比如,CLIP和ALIGN借用對照學(xué)習(xí)在嵌入空間中對齊網(wǎng)絡(luò)圖片及其標(biāo)題。他們發(fā)掘這個簡潔的預(yù)訓(xùn)練任務(wù)可以較好地推廣到其余零樣件下游任務(wù),如視頻中的目的分類和動作辨認(rèn)。
另外,DALL-E通過1個用來形成零樣件文本到圖片的尺度自回歸變換實(shí)現(xiàn)了較好的泛化。但是,這類大范圍的視覺模型未能解決全面的一切計(jì)算機(jī)視覺任務(wù),如圖片分割。針對大型圖片分割模型來說,獲得標(biāo)簽Mask的難度是主要。
SAM(Segment Anything)是第1個開發(fā)可prompt的分割模型并自行在全面的信息集上對其進(jìn)行預(yù)訓(xùn)練的工作。給定恰當(dāng)?shù)膒rompt,SAM可能在沒有特定任務(wù)訓(xùn)練的狀況下為目的形成能夠的Mask。另一方面,DINOv2依據(jù)信息和模型大小對ViT模型的預(yù)訓(xùn)練進(jìn)行縮放,以形成通用的視覺特點(diǎn),借用這類特點(diǎn)可以更容易地微調(diào)下游任務(wù)。2.2 為醫(yī)學(xué)圖片定制大模型
這一系列工作首要集中在對于特定分割信息集微調(diào)SAM,由于SAM在醫(yī)學(xué)圖片上體現(xiàn)出明顯的功能退步。MedSAM通過30多個醫(yī)學(xué)圖片信息集上的標(biāo)簽Mask形成的prompt,對SAM解碼器進(jìn)行了微調(diào),結(jié)果標(biāo)明,與應(yīng)用prompt形成的零樣件預(yù)判相比,功能獲得了改善。張凱東等人將基于低秩的微調(diào)方略運(yùn)用于SAN編碼器,并將其與SAM解碼器一塊訓(xùn)練,以定制SAM以施行腹部分割任務(wù)。吳俊德等人解凍SAM模型的權(quán)重,并在SAM中增加可訓(xùn)練的自順應(yīng)模塊,以減低從頭訓(xùn)練的本錢。三、本文方式3.1 背景
首先,作家將扼要簡介SAM模型作為背景常識。SAM中有3個首要組件,
圖片編碼器
prompt編碼器
Mask解碼器
圖片編碼用具有與視覺Transformer(ViT)相近的架構(gòu),并在其自己采集的SAM-1B信息集上應(yīng)用MAE[10]進(jìn)行預(yù)訓(xùn)練。它們供應(yīng)了三類不同比率的圖片編碼器ViT-H、ViT-l和ViT-V的權(quán)重,作為實(shí)時功能和確切性之間衡量的選項(xiàng)。圖片編碼器獲得所有大小的輸入圖片,并將其整形為1024×1024。接著將圖片轉(zhuǎn)換為擁有patch大小16×16和嵌入大小256的次序patch嵌入。經(jīng)過幾個擁有窗口注重和殘差傳遞的Transformer塊以后,圖片編碼器的流出擁有(64×64,256)的維度。
prompt編碼器同時支持稠密prompt(點(diǎn)、框、文本)和密集prompt(Mask)。稠密prompt被投影到prompt Token 中并和圖片嵌入連通,而密集prompt則應(yīng)用卷積嵌入并和圖片植入逐元素求和。
Mask解碼器首先在流出 Token 、prompt Token 和圖片嵌入上運(yùn)用雙向注重力模塊。接著通過2個轉(zhuǎn)置卷積層對圖片嵌入進(jìn)行上采樣,并對放大后的圖片嵌入與流出 Token 之間的逐點(diǎn)乘積進(jìn)行預(yù)判。3.2 Prediction Head
為了以有效的方法使SAM順應(yīng)特定的醫(yī)學(xué)圖片信息集,作家在SAM編碼器中保留權(quán)重,并附帶1個額外的特定任務(wù)預(yù)判Head進(jìn)行微調(diào)。另外,作家將預(yù)判Head設(shè)計(jì)為不可prompt的,而且唯獨(dú)的輸入是來自SAM編碼器的圖片嵌入。作家討論了3種最常見的系統(tǒng)構(gòu)造型號,ViT、CNN和線性層。3.2.1 Vision Transformer
作家注重到SAM中的起始Mask解碼用具有ViT Backbone,因而作家可以對其進(jìn)行輕微竄改,以便預(yù)判Head不單不可prompt,況且可能借用SAM Mask解碼器中的權(quán)重。
如圖2所示,針對SAM解碼器,除了prompt Token 和圖片嵌入之外,還有可訓(xùn)練的流出 Token ,含蓋用來形成Mask的Mask Token 和用來預(yù)判Mask置信度的IoU Token 。
另外,Mask Token 含蓋前景Mask Token 和背景Mask Token 。流出 Token 與prompt Token 連通,作家將其命名為輔助嵌入。在雙向注重力模塊中,每一層都進(jìn)行自注重力和交叉注重力。對于交叉注重力,它含蓋從 Token 到圖片嵌入,以及從圖片嵌入到 Token (作為密鑰和值)。接著,通過2個轉(zhuǎn)置的conv層對圖片嵌入進(jìn)行放大,并選取前景Mask Token 與放大的嵌入進(jìn)行逐點(diǎn)乘積以獲取Mask。
相比之下,AutoSAM刪除輔助嵌入中的prompt標(biāo)志,使其不再是可prompt的模型。另一類竄改是通過類的數(shù)目復(fù)制輔助嵌入和圖片嵌入,以形成多個類的Mask。每對的計(jì)算可以并行進(jìn)行,因而與形成額外Mask有關(guān)的開支是可以忽視的。為1個推斷形成多個Mask的代替方式是簡潔地在流出 Token 中增加更多前景Mask Token 。但是,作家選取第一類方略是由于,直觀地說,一組輔助嵌入表示SAM中要分割的1個目的。AutoSAM獨(dú)立地為每個類啟動形成Mask。3.2.2 Convolutional Neural Network
這類型號的預(yù)判Head是不少盛行的醫(yī)學(xué)圖片分割模型中解碼器的表示,如UNet、UNet++、TransUNet和Swin-UNetr。作家首先將嵌入的圖片Reshape為大小為(256,64,64)的特點(diǎn)圖。依據(jù)UNet中的構(gòu)造,CNN Head部有k個階段(k>=2),每個階段由Stride為1的conv層和Stride為2的轉(zhuǎn)置conv層構(gòu)成。
在試驗(yàn)部分嘗試了不同的k值,當(dāng)k>2時,在k?2階段,轉(zhuǎn)置的conv層被更換為conv層,促使流出特點(diǎn)圖總是放大4x。最終,運(yùn)用kernel-size為1的逐點(diǎn)conv層來形成每個類的預(yù)判Mask。3.2.3 Linear Layer
簡潔的分類Head總是用來評價在預(yù)訓(xùn)練任務(wù)中學(xué)習(xí)的特點(diǎn)表示的泛化。在這項(xiàng)工作中,作家還運(yùn)用線性Head來測驗(yàn)?zāi)芊翊嬖赟AM編碼器提煉的頂級語義數(shù)據(jù)。與CNN相近,作家將嵌入的圖片從頭映照為2D特點(diǎn)圖,接著直接布置2個轉(zhuǎn)置conv層。接著,作家應(yīng)用2個kernel-size為1的conv層來替代MLP來獲取每個像素的分類。四、 試驗(yàn)4.1 Dataset
ACDC(智能心臟診療挑釁)信息集是MICCAI 2017挑釁的一部分,該挑釁含蓋100名患者的心臟構(gòu)造的MRI掃描,每個患者有2個3Dvolumes。該信息集還供應(yīng)了左心室、右心室和心肌的顧問分割Mask。
作家依據(jù)患者將MRI掃描隨機(jī)劃為三部分,訓(xùn)練集、驗(yàn)證集和測驗(yàn)集,比率為70:15:15。針對預(yù)處置,作家對每個volumes進(jìn)行歸一化,以便volumes中的一切像素全是零均值和單位方差。接著,作家將像素值轉(zhuǎn)換為RGB格式,并將volumes內(nèi)的每個切片存儲為PNG文件,由于SAM是在RGB圖片上訓(xùn)練的,作家的目的是維持輸入格式的一致性。在此此前,雖然MRI掃描是以3Dvolumes進(jìn)行的,但分割是在2D圖片上進(jìn)行的。
作家計(jì)算測驗(yàn)集中每個volumes的Dice分?jǐn)?shù)和平均對稱外表距離(ASSD),接著從頭形成分割并反復(fù)試驗(yàn)。報(bào)表了4次的平均得分和規(guī)范差。4.2 訓(xùn)練細(xì)節(jié)訓(xùn)練的施行基于深度學(xué)習(xí)包PyTorch。應(yīng)用的GPU設(shè)施是NVIDIA特斯拉V100,內(nèi)存為16GB,比A100更容易訪問。相比之下,SAM將訓(xùn)練散布在256個A100 GPU中。在訓(xùn)練流程中,作家對輸入圖片隨機(jī)運(yùn)用信息加強(qiáng),含蓋高斯噪聲、亮度竄改、彈性扭曲和轉(zhuǎn)動。訓(xùn)練損失是交叉熵?fù)p失和Dice Loss的組合。用來刷新的優(yōu)化器算法基于Adam。學(xué)習(xí)率設(shè)置為0.0005,此中
。針對一切3個預(yù)判Head,單個GPU的最大batch-size為4。默認(rèn)的訓(xùn)練Epoch是120,由于作家觀測到在該Epoch數(shù)目以后驗(yàn)證集上的損失收斂。4.3 Baselines
為了驗(yàn)證作家提出的方式的有效性,作家在相近的設(shè)置下對許多基線方式進(jìn)行了試驗(yàn)作為較為。第一類是從Head開始訓(xùn)練UNet,這是獲取特定信息集的智能分割模型的最常見方式。其次,作家還嘗試了一類自督促學(xué)習(xí)方式SimCLR,該方式被全面用來醫(yī)學(xué)圖片行業(yè)的標(biāo)簽高效分割。
該SimCLR基線含蓋2個階段,預(yù)訓(xùn)練和微調(diào)。
在訓(xùn)練階段,作家應(yīng)用訓(xùn)練集中的一切信息,而不應(yīng)用所有標(biāo)志數(shù)據(jù)。作家從輸入圖片中獲取2個隨機(jī)視圖,并應(yīng)用UNet編碼器將它們投影到特點(diǎn)空間中。接著運(yùn)用對照損失來最大化2個視圖的嵌入之間的一致性。
在微調(diào)流程中,UNet的編碼器用預(yù)先訓(xùn)練的權(quán)重進(jìn)行初始化,而且模型中的一切參數(shù)都在標(biāo)志信息上進(jìn)行訓(xùn)練。最終,作家在沒有所有微調(diào)的狀況下嘗試起始SAM,以解決將SAM自定論到特定信息集的必須性。對于prompt,作家應(yīng)用box-style的prompt,而且box坐標(biāo)是基于GT Mask計(jì)算的。4.4 試驗(yàn)結(jié)果4.4.1 Label-efficient Adaptation
當(dāng)在新的信息集上微調(diào)模型時,為了減低標(biāo)志本錢,期望微調(diào)僅在有限的標(biāo)志圖片的狀況下實(shí)現(xiàn)有期望的結(jié)果。因而,在表1中,作家只供應(yīng)了1或5個標(biāo)志的volumes來評價作家方式的信息效益。下列是從表1中得出的首要觀測結(jié)果。
1.首先,針對這兩類設(shè)置,AutoSAM和CNN Head顯現(xiàn)出與一切其余方式相比最佳的分割精度。特別是當(dāng)只應(yīng)用1個標(biāo)志時,AutoSAM的平均 Dice 分?jǐn)?shù)為39.32,幾乎是UNet和SimCLR的兩倍。這供應(yīng)了令人信服的證據(jù),證實(shí)在SAM編碼器中學(xué)習(xí)到的特點(diǎn)充足通用,可以轉(zhuǎn)化到醫(yī)學(xué)圖片中。
就統(tǒng)計(jì)明顯性而言,很難說AutoSAM或CNN能否擁有更高的 Dice 分?jǐn)?shù),為甚麼這也象征著SAM的強(qiáng)大威力首要是由圖片編碼器而不是Mask解碼器提煉的代表性特點(diǎn)的結(jié)果。另外,作家觀測到AutoSAM與CNN Head部相比擁有更低的ASSD。這類差別能夠歸因于SAM解碼器的訓(xùn)練,該解碼器旨在形成集中在prompt位子附近的目的的Mask。相比之下,CNN Head部沒有從SAM解碼器加載數(shù)據(jù),造成ASSD值更高。
2.其次,與AutoSAM和CNN編碼器相比,縱然僅用1個volumes訓(xùn)練,SAM也體現(xiàn)出更差的分割功能,這有力地支持了微調(diào)SAM是解決其在醫(yī)學(xué)圖片信息集上功能下落的有效方式。但是,也注重到,SAM的ASSD比其余方式低得多。這一觀測結(jié)果有助于SAM受益于嵌入框prompt中的局部數(shù)據(jù)。該定位數(shù)據(jù)迫使預(yù)判Mask位于框領(lǐng)域周邊。另一方面,SAM的LV Dice 分?jǐn)?shù)終究為0。依據(jù)圖4,作家可以發(fā)掘Myo是1個由其余2個類包圍的細(xì)圓,邊緣也很模糊。因?yàn)镸yo的框靠近RB的框,因而Myo實(shí)際上被誤認(rèn)定是RV的一部分,因而一切LV領(lǐng)域都被預(yù)判為Myo。
3.如表1所示,線性預(yù)判Head擁有比其余2個預(yù)判Head差得多的功能。特別是,當(dāng)標(biāo)志信息的數(shù)目從1個加大到5個時,線性Head不可獲取較大的分割精度提升。作家認(rèn)定,這一結(jié)果是因?yàn)闃O輕的架構(gòu)。當(dāng)SAM編碼器形成的視覺特點(diǎn)不擁有充足的醫(yī)學(xué)圖片語義數(shù)據(jù)時,這類簡潔的預(yù)判Head會造成模型本領(lǐng)較弱,并能夠顯現(xiàn)不夠。4.4.2 Ablation Study
作家進(jìn)行的第一項(xiàng)融化研發(fā)是對于CNN預(yù)判Head中的深度數(shù)目怎樣影響微調(diào)結(jié)果。在表2中, Dice 隨著深度的加大而加大,直到 Depth=4為止。如上所述,線性預(yù)判Head能夠會顯現(xiàn)裝配不夠的問題。當(dāng)Depth< 4時,更大的預(yù)判Head會帶來更好的模型本領(lǐng)。但是,當(dāng)Depth > 4時,從加大預(yù)判Head中的參數(shù)所獲取的益處開始減小。在這一點(diǎn)上,圖片嵌入或預(yù)判Head架構(gòu)的品質(zhì)變成決議功能的更主要的原因。
作家還評價了AutoSAM和Encoder+CNN在SAM供應(yīng)的不同編碼器尺寸(即ViT-b、ViT-l和ViT-h)下的功能。
表3顯現(xiàn),往往較大的模型大小會在下游任務(wù)上形成更好的微調(diào)結(jié)果,但AutoSAM對編碼器架構(gòu)的敏感性不如Encoder+CNN。當(dāng)應(yīng)用ViT-h Backbone時,CNNHead部的 Dice 得分顯著高過AutoSAM,雖然它仍舊有更高的ASSD。表3也可以作為對于效益和功能之間切換的考慮,由于與ViT-b相比,ViT-h造成更長的微調(diào)時間和更高的推斷延緩。
最終,作家在圖5中繪制了應(yīng)用更多標(biāo)志信息進(jìn)行微調(diào)的結(jié)果。作家發(fā)掘,當(dāng)標(biāo)志的卷數(shù)小過10時,AutoSAM僅比UNet(沒有額外數(shù)據(jù))和SimCLR(在同一信息集上預(yù)訓(xùn)練的常識)擁有優(yōu)勢。這是由于SAM是在大范圍圖片信息集上預(yù)訓(xùn)練的,而且圖片編碼器可能提煉語義數(shù)據(jù),這有利于下游的分割任務(wù)。
但是,因?yàn)镾AM從未接觸過醫(yī)學(xué)圖片,因而這類語義數(shù)據(jù)能夠是有成見的,而且特定于自然圖片。仿佛有了充足的標(biāo)志信息,從自然圖片中獲取的常識在將預(yù)判Head專門用來醫(yī)學(xué)圖片行業(yè)時會形成負(fù)面影響。因而,為了為一切圖片模態(tài)創(chuàng)建1個真實(shí)的“根基模型”,將來須要1個大范圍的醫(yī)學(xué)圖片信息集來預(yù)訓(xùn)練SAM。五、總結(jié)
雖然SAM在自然圖片中獲得了順利,但怎樣有效地將SAM順應(yīng)散布外的醫(yī)學(xué)圖片信息集仍舊是1個懸而未決的問題。與現(xiàn)有工作不同,本文為解決這一問題供應(yīng)了1個新的視角,即解凍SAM圖片編碼器中的權(quán)重,并增加1個輕量級的任務(wù)專屬預(yù)判Head。
為了促成全面的運(yùn)用,作家將SAM竄改為不可prompt的,并可能形成多類Mask。作家開拓了三類型號的預(yù)判Head,ViT(稱為AutoSAM)、CNN和線性層,此中AutoSAM和CNN Head在Few-Shot Head學(xué)習(xí)設(shè)置中顯現(xiàn)出有期望的結(jié)果。僅用1個標(biāo)志進(jìn)行微調(diào)比框prompt的SAM擁有更好的功能,這一事實(shí)證實(shí)了為新信息集定制SAM的必須性。因?yàn)闃?biāo)志的數(shù)目有限,作家的方式優(yōu)于從Head開始訓(xùn)練和自督促學(xué)習(xí)基線??紤]