Florence-2 是微軟 Azure AI 團隊推出的多功能視覺模型,能執行圖像描述、目標檢測、視覺定位和圖像分割等多種計算機視覺任務。Florence-2 基于 Transformer 架構,用序列到序列學習方法,編碼器將圖像轉換為序列表示,解碼器再將表示轉換為文本輸出。Florence-2 訓練使用包含1.26億張圖像和54億個標注的超大數據集 FLD-5B,結合自動化圖像標注技術和模型迭代,確保數據的高質量和多樣性。
Florence-2的主要功能圖像描述:生成圖像的詳細描述,類似于圖像字幕。目標檢測:識別圖像中的特定對象,確定目標的位置。視覺定位:在圖像中定位與文本提示相關的對象或區域。圖像分割:將圖像分割成不同的區域,用于識別和分離圖像中的特定對象。Florence-2的技術原理統一表示:Florence-2 設計為統一的模型,處理多種視覺任務,基于統一的框架整合不同類型的視覺和語言信息。序列到序列學習(Seq2Seq):模型用序列到序列的學習方法,由編碼器和解碼器組成。編碼器負責將輸入圖像轉換為序列表示,解碼器將表示轉換為輸出文本。Transformer架構:基于Transformer的架構,用自注意力機制處理視覺和語言數據,實現多模態信息的融合。圖像編碼器:用DaViT作為圖像編碼器,捕捉圖像特征將其轉換為視覺token嵌入。多模態編碼器-解碼器:基于標準的Transformer架構,用自注意力機制實現圖像和文本信息的融合,理解和生成與視覺內容相關的文本。位置編碼:提供區域級別的空間信息,對于目標檢測和分割等任務至關重要,讓模型識別圖像中的具體區域。Florence-2的項目地址項目官網:florence-2.comGitHub倉庫:https://github.com/retkowsky/florence-2HuggingFace模型庫:https://huggingface.co/microsoft/Florence-2-largearXiv技術論文:https://arxiv.org/pdf/2311.06242Florence-2的應用場景圖像和視頻分析:在安全監控領域,Florence-2 識別和跟蹤視頻中的特定對象,進行異常行為檢測。內容審核:自動檢測和過濾不適當的內容,如暴力、色情或其他違反平臺政策的圖像和視頻。輔助駕駛和自動駕駛:在自動駕駛系統中,幫助識別道路標志、行人、車輛和其他障礙物,提高行車安全。醫療影像分析:輔助醫生識別醫學圖像中的異常,如腫瘤、病變等,提高診斷的準確性和效率。零售和庫存管理:在零售環境中,用于貨架分析,自動監測庫存水平和產品擺放。 
