為進一步提升公交乘務(wù)管理員綜合…
Meta發(fā)布史上首個圖像分割基礎(chǔ)模型
4月6日,Meta推出了一款Segment Anything Model (SAM)。據(jù)介紹,該模型能夠根據(jù)文本指令等方式實現(xiàn)圖像分割,而且萬物皆可識別和“一鍵摳圖”。SAM是第一個致力于圖像分割的基礎(chǔ)模型。據(jù)Meta介紹,SAM已經(jīng)學(xué)會了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成掩碼,甚至包括在訓(xùn)練過程中沒有遇到過的物體和圖像類型。SAM足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像領(lǐng)域上即開即用,無需額外的訓(xùn)練。
在此之前,分割作為計算機視覺的核心任務(wù),已經(jīng)得到廣泛應(yīng)用。但是,為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型通常需要技術(shù)專家進行高度專業(yè)化的工作,此外,該項任務(wù)還需要大量的領(lǐng)域標(biāo)注數(shù)據(jù),種種因素限制了圖像分割的進一步發(fā)展。
以前,解決分割問題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對象,但需要一個人通過迭代細(xì)化掩碼來指導(dǎo)該方法。第二種,自動分割,允許分割提前定義的特定對象類別(例如,貓或椅子),但需要大量的手動注釋對象來訓(xùn)練(例如,數(shù)千甚至數(shù)萬個分割貓的例子)。這兩種方法都沒有提供通用的、全自動的分割方法。
SAM是這兩類方法的結(jié)合。它是一個單一的模型,可以輕松地執(zhí)行交互式分割和自動分割。該模型的可提示界面允許以靈活的方式使用它,只需為模型設(shè)計正確的提示(點擊、框、文本等),就可以完成范圍廣泛的分割任務(wù)。
此外,SAM在包含超過10億個掩碼(作為該項目的一部分收集)的多樣化、高質(zhì)量數(shù)據(jù)集上進行訓(xùn)練,這使其能夠泛化到新類型的對象和圖像,超出其在訓(xùn)練期間觀察到的內(nèi)容。這種概括能力意味著,從業(yè)者將不再需要收集他們自己的細(xì)分?jǐn)?shù)據(jù)并為他們的場景微調(diào)模型。
總而言之,這些功能使SAM能夠泛化到新任務(wù)和新領(lǐng)域。這種靈活性在圖像分割領(lǐng)域尚屬首創(chuàng)。最強大的是,Meta實現(xiàn)了一個完全不同的CV范式,你可以在一個統(tǒng)一框架prompt encoder內(nèi),指定一個點、一個邊界框、一句話,直接一鍵分割出物體。