• 自動駕駛開源(自動駕駛開源平臺)

    自動駕駛 569
    本篇文章給大家談談自動駕駛開源,以及自動駕駛開源平臺對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、RTI加入百度阿波羅自動駕駛生態系統

    本篇文章給大家談談自動駕駛開源,以及自動駕駛開源平臺對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。

    本文目錄一覽:

    RTI加入百度阿波羅自動駕駛生態系統

    RTI公司(Real-Time Innovations) 近日宣布加入百度阿波羅自動駕駛合作伙伴生態系統。將與原始設備制造商、一級供應商、開發者平臺和創新企業組成精英團隊,共同努力加速阿波羅無人駕駛操作平臺及自動駕駛技術的開發和應用。

    百度從2013年開始研發自動駕駛技術,其阿波羅計劃已經成為全球規模最大的開源自動駕駛平臺。阿波羅擁有強大的全球生態系統,包括全球各地近200家合作伙伴,已經獲得了1598項專利,并完成了超過600萬公里的道路測試。2020年3月,全球性研究機構NR將阿波羅列為自動駕駛領域的全球四大領導者之一。

    RTI公司作為世界領先的工業物聯網(IIoT)互連解決方案提供商,為提高自動駕駛技術的穩健性和穩定性(Robustness and Stability)提供了關鍵的解決方案。此次RTI公司加入阿波羅自動駕駛合作伙伴的生態系統之中,將在技術上創造新的突破。RTI 所提供的Connext Drive是一個基于開放式數據分發服務(DDS)標準的軟件框架,可實現獨特的通信可靠性,這也是自動駕駛 汽車 成功開發和運行所必須的一個關鍵因素。借助Connext Drive,制造商可以在瞬息萬變的市場需求做出更加迅速地的反應并保持創新。通過使用以數據為中心的軟件框架來支持他們現在和未來的需求, 汽車 制造商可以從應用系統中獲得更多的價值。Connext Drive建立在經過驗證的RTI技術基礎上,該技術已經在全球超過250個自動駕駛 汽車 項目以及超過1500個其他要求苛刻的實時智能分布式系統中得到應用。

    在此次的合作之中,RTI Connext Drive軟件將被集成于阿波羅計算單元(ACU)之中,為阿波羅的泊車服務(AVP)提供支持。阿波羅AVP是專為私家車行業以及共享 汽車 公司設計的解決方案,能使車輛實現遠程取車、遠程自動泊車、自動探測停車位以及低速巡航等功能。同時,AVP也極大地改善了司機的停車體驗。如今,越來越多的 汽車 原始設備制造商(OEM)要求 汽車 具備AVP這項新功能。百度AVP解決方案由傳感、感知、規劃以及控制等軟件組成。

    含1000個場景 Waymo開源自動駕駛數據集

    據外媒報道,Waymo近日宣布開放部分自動駕駛相關數據的開源Waymo Open Dataset。開源數據集包含1000條自動駕駛路徑,每條路徑包含20秒的不間斷視頻,相當于20萬幀高分辨率圖像。這些數據樣本可以幫助自動駕駛研究人員建立跟蹤和預測駕駛行為的模型。

    開放數據集是德國鳳凰城和美國舊金山的Waymo自動駕駛汽車收集的數據,包括白天、夜晚、雨天和黃昏等各種天氣環境。據悉,Waymo的自動駕駛汽車配備了5個特別設計的激光雷達和5個攝像頭。數據集還包括標記的激光雷達圖像,如車輛、行人、騎自行車者和交通標志,總共有1200萬個3D標簽和120萬個2D標簽。

    根據Way首席科學家Dragomir Anguelov的說法,這是迄今為止最大的自動駕駛多模式傳感器數據集?!斑@些數據有助于研究人員在2D和3D感知、場景理解、行為預測等方面取得進展。我希望研究團隊能夠利用我們的數據來提高自動駕駛汽車的性能,并促進在其他相關領域的應用,例如計算機視覺和機器人技術?!?/p>

    今年7月,Waymo宣布將開放自動駕駛數據集。據說整個Waymo Open Dataset程序包含約3000個駕駛場景和16.7小時的視頻數據。該視頻總共有60萬幀,大約有2500萬個3D注釋和2200萬個2D注釋。這次發布的1000個場景數據只是開源數據集的第一部分,以后Waymo還會發布更多。

    除了Waymo,包括Aptiv、優步、Lyft和General Cru is e在內的公司也相繼開放了自動駕駛數據。雖然,在自動駕駛行業,數據就像是企業的生命線,但開放也將是一種趨勢。雖然壟斷可以最大限度地發揮其優勢,但也阻礙了技術進步。畢竟,自動駕駛不是任何一家企業能夠單獨實現的。開放共享可以刺激行業發展,推動自動駕駛 商 業化,讓所有參與者受益。 @2019

    曝光|按下自動駕駛“快進鍵”?華為申請“AUTOWARE”商標

    有網友大膽猜測,該商標可能會像特斯拉的“FSD”一樣成為華為自動駕駛系統的新名稱。

    據了解,“ Autoware ”為全球第一款用于自動駕駛技術的“多合一”開源軟件, 起源于日本名古屋大學,目前已是全球著名的自動駕駛開源平臺之一。過去,華為自動駕駛首席架構師蘇箐曾表示,與Autoware基金會的合作使得華為能夠與社區合作,開發自動駕駛 汽車 軟件,加速行業發展,進而使用戶受益。

    除此之外,華為還申請注冊了名為“MOBILE DATA CENTER”的商標,也就是移動數據中心,而自動駕駛技術涉及場景、道路、線路、路況、速度、安全、屬性等多個維度,大量的數據處理,需要強大的車載計算平臺。

    目前,華為正加大力度向智能 汽車 領域發展,公司此前已公布多個關于智能 汽車 及自動駕駛的相關專利,包括“車輛無線充電”、“自動泊車交互方法”、“隔空手勢”、“后視鏡自適應調節”等。

    在華為的 汽車 版圖中,自動駕駛全棧解決方案是其現階段的目標。華為多次對外強調不造車,而是走“平臺+生態”的道路,與合作伙伴聯合定義硬件接口和軟件接口,一起幫助車企造“好車”。

    值得一提的是,前不久,華為鴻蒙座艙終于正式對外解禁,懂車帝搶先在極狐阿爾法S HI版上體驗到了鴻蒙OS座艙內測版本。

    要知道,在車機、芯片、MCU、雷達、三電系統等新能源 汽車 核心領域,國內技術占比很低,特別是射頻芯片雷達領域,幾乎是國外壟斷的局面。華為明白,在國家十四五規劃中,核心是“提高自主可控的供應能力”。自主可控這條“大腿”,恐怕要比新能源這條“腿”粗得多。

    只需要十分之一數據,就能通關四大視覺任務,居然還開源了

    Github鏈接:

    家人們,你們有沒有這種苦惱?

    搬一次家就換一次家具,那些又貴又重的家具既不好搬運,又不好全部帶走。

    下一次又重新購置一遍家具,浪費錢不說,關鍵是來來回回都做一樣的事情!家具還沒用過幾次,利用率不高呀!

    這種搬家的苦惱,就好比AI領域,做幾個任務就需要開發幾個高度定制的模型,不僅所需的數據采集量非常大,每次還都得從頭標注。既提不起數據的學習效率,又耗費巨大的數據獲取成本。

    光是AI前端研究就耗費如此巨大的精力,更別提應用場景中數以萬計的長尾任務。

    那怎么辦?

    做一款通用的深度學習模型,才是關鍵。

    1 通用,才是技術根本

    目前,通用語言模型(GLM)已經取得了令人矚目的進展,比如BERT、T5和GPT-3,它們在應對廣泛的語言下游任務時已經游刃有余。

    相形之下,通用視覺模型(GVM)的研究遲遲未交出一份令人滿意的答卷。

    以往的大多數 GVM 研究主要利用一種監督信號來源,如 ViT-G/14 采用有標簽監督,SEER 采用樣本的不同增強之間的對比學習,CLIP采用圖片文本對進行監督。如果是在單個監督信號下進行的預訓練,這幾種范式確實能夠生成在固定場景下表現良好的模型。但如果用在場景多元、任務多樣的下游場景,這些模型就難以勝任了。

    比如現在最火的自動駕駛, 汽車 處于移動狀態,既要看到路況,又要看到紅綠燈,還要注意行人,甚至在智能座艙興起后,還要和語言技術、LBS場景服務協同,這么多的感知數據與協同任務,這么多隨機的新任務,無論在體量還是維度方面,都對視覺模型的要求極大提高。

    這時,打造一款通用視覺模型,降低研發門檻,尤其是學術界的時間成本、資金成本,才能暢享下游的極致場景體驗。

    去年11月,上海人工智能實驗室聯合商湯 科技 、香港中文大學、上海交通大學發布通用視覺技術體系“書生”(INTERN),一套持續學習框架,用于系統化解決當下人工智能視覺領域中存在的任務通用、場景泛化和數據效率等一系列瓶頸問題。

    前不久,上海人工智能實驗室聯合商湯 科技 發布通用視覺開源平臺OpenGVLab,面向學術界和產業界開放其超高效預訓練模型、超大規模公開數據集,以及業內首個針對通用視覺模型的評測基準。

    這些開源技術,究竟有何魔力?

    2 大力出奇跡,打造通用視覺模型

    “書生” (INTERN),就是練就通用視覺能力的底層技術。

    從技術實現上講,“書生”技術體系由由七大模塊組成,包括三個基礎設施模塊和四個訓練階段構成。

    書生(INTERN)結構圖

    首先,通用視覺數據系統。

    這是一個超大規模的精標數據集,擁有100億個樣本和各種監督信號,并依照四大視覺任務分別設置了四個數據子集:多模態數據GV-D- 10B分類標注的GV-Dc-36M、檢測標注的GV-Dd-3M、分割標注的GV-Ds-143K。

    另外,這一數據集還包含11.9萬的標簽系統,不僅涵蓋了自然界的眾多領域和目前計算機視覺研究中的幾乎所有標簽,還擴充了大量細粒度標簽,涵蓋各類圖像中的屬性、狀態等。

    而這,就是書生“大力出奇跡”的一大注腳。

    其次,通用視覺模型結構。

    它是由一個具有CNN和Transformer的統一搜索空間構建而成。

    為何要建立這樣的混合結構?要知道,多年來,卷積神經網絡(CNN)一直主導著視覺表征學習,并在圖像分類、目標檢測和語義分割等下游任務中表現出穩定的可遷移性。但最近幾年,Vision Transformer (ViT)僅使用普通的Transformer結構就能作為圖像編碼模型在ImageNet-1k上取得媲美 CNN 的性能,在大規模數據集上 ViT 更是展示出比 CNN 更大的潛力。

    盡管ViT在性能上有優點,但純Transformer網絡相比卷積神經網絡缺乏某些歸納偏置(inductive biases),因此需要更多的數據和計算資源。此外,自注意的計算成本相對于輸入的數量是平方的,限制了對高輸入分辨率的應用。因此,將CNN和Transformer和MLP結合起來,平衡效率和有效性兩個方面,才是模型通用的關鍵。

    這種兼具更好的泛化能力和更高的模型容量的模型結構名為MetaNet。在MetaNet網絡結構族里面進行網絡結構搜索,從而得到最優的一個模型訓練結構。

    統一搜索的MetaNet架構:Conv和Trans分別表示卷積和Transformer。C和S為每一階輸出通道數和步幅。

    具體來看,MetaNet不僅基于強化學習 的PPO算法提出了統一搜索架構,并且,為了避免傳統的下采樣模塊會成為模型性能的瓶頸,“書生“結合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用來代替原本的下采樣模塊。

    因此,在淺層,模型依然使用卷積來提取特征,但在深層,模型卻能將Transformer模塊和LG-DSM結合使用,以便于更好地提取全局信息。

    同時,書生還基于最大的MetaNet-B15蒸餾出了多達13種不同的模型結構,共24種不同的模型權重,現已全部開源。

    這些模型結構基本涵蓋了現有市面上大部分的主流backbone,不僅能夠很輕易地遷移到所需要的算法框架作為新網絡預訓練的初始化,而且只需要更短的訓練時間就可以達到比原來更好的訓練效果。

    MetaNet 模型與其他模型結構比較,結果如下:

    基于卷積、Transformer和兩者混合的結構,分別用C,T和H表示,可以看出,在圖像分類性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不僅有更高的精度,還有更低的FLOPS和參數量。

    除了分類任務,把MetaNet做為檢測和分割的backbone,在COCO數據集上使用Mask R-CNN結構訓練,結果發現:在模型參數量更小的前提下,MN-B4比Swin-T精度高出2到4個點。另外還在ADE20K數據集上進行了語義分割任務,MN-B4的mIoU指標比Swin-T高出5個點之多。

    上述兩個實驗結果表明,MetaNet系列模型結構,在模型精度與計算量之間,都達到了新的SOTA!

    最后,通用視覺評測基準。

    視覺評測基準GV-B ,就像是一個「擂臺」。

    如下表所示,測評基準收集了 26 個下游任務數據集,囊括了 4 種視覺任務類型:分類,檢測,分割和深度估計。

    在設置上,該基準引入了百分比樣本(percentage-shot),只需要選取整個數據集的一部分,例如 10%、20% ,對比縮小下游任務的訓練數據量后的模型性能。

    與傳統的少樣本設置相比,這種百分比樣本設置可以很好地保留原始數據集的長尾分布等屬性,并減輕對樣本選擇的敏感性。因為有一些數據集樣本類別分布不平衡,比如下表中的VOC07+12,百分比數據的劃分方式卻會繼承這種分布情況。

    右側三列avg,min和max,分別表示在10%的數據中,不同類別樣本數量的平均值,最小值和最大值。

    結合上述數據集和任務類型,論文選取了一些具有代表性的模型來做評測對比。為了比較公平性,該對比使用了這些模型的官方預訓練權重。這些模型包括:

    有了超大精標數據集、模型結構,以及評測基準后,已經是萬事俱備,只欠訓練。

    書生作為中國古代讀書人的經典形象,代表著一個通過不斷學習、不斷成長進而擁有各方面才能的人格化角色:從基礎的知識技能學習開始,到對多種專業知識觸類旁通,進而成長為擁有通用知識的通才。借此意象,“書生”(INTERN)系統可通過持續學習,舉一反三,逐步實現通用視覺領域的融會貫通,最終實現靈活高效的模型部署。

    下面就來看看,這套系統是如何通過訓練,一步步從生手變成專家再到多面手,最終在各種任務中大顯身手。

    第一階段,訓練的是基礎能力,被稱為“基礎模型”(Amateur)。

    然而CLIP需要400M的圖像-文本對進行前訓練,囿于極大的數據量,CLIP很難進一步發展。但“書生”提出了一種新的訓練范式,DeCLIP(Data efficient CLIP ),能夠同時使用來自圖像-文本、圖像-圖像和文本-文本對的監督信號進行模型預訓練,從而更有效地實現通用性。

    此外,為了充分利用大規模多模態數據獲取基礎模型的優勢,這一階段提出了Upstream-Amateur (Up-A)視覺語言預訓練框架,同時挖掘模態內和跨模態知識。

    這一訓練框架分為兩個預訓練階段:Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

    其中,Up-A-G(左)使用群體監督功能,從更豐富的監督中學習。Up-A-L(右)采用局部自我監督學習方法,對訓練好的視覺-語言模型進行調整,從而提高自身在密集預測CV任務中的表現。

    Upstream-Amateur的框架

    得益于這些內在的監督,DeCLIP-ResNet50可以在ImageNet上實現60.4%的zero-shot 精度第一。這比CLIP-ResNet50高出0.8%,數據使用量少了81%。當遷移到下游任務時,DeCLIP-ResNet50在11個視覺數據集中有8個優于CLIP。

    更關鍵的是,訓練完成的Upstream-Amateur為后續的訓練階段提供了一個很高的起點。

    第二階段,訓練的是專業能力,被稱為“專家模型”(Expert)。

    Up-A階段得到的基礎模型,在一般的視覺識別問題上顯示出優異的性能。但要完全掌握檢測、分割等更具體的任務,還需要在每個任務中進行更專業的預訓練,這就促成了第二個階段的到來,專家模型。

    對于每個專家,“書生”采用了一種簡單的多頭設計,每個頭是一個特定數據集的子網絡,從一個公共的、共享的“主干”分支出來。比如Up-E (C)、Up-E (D)和Up-E (S),分別用于圖像分類、對象檢測和語義分割。

    第三階段,訓練的是組合能力,被稱為“通才模型”(Generalist)。

    上述的多任務是指不同數據集(如ImageNet和CIFAR)的一個視覺問題(如分類),或一個數據集的多個視覺問題(如分類和檢測)。但關鍵是,如何將專家整合到一個統一的模型中,獲得一個更加通用的視覺模型。因此,在預訓練“專家”階段之后,又將“通才”作為第三個預訓練階段,以進一步統一特征表示。

    “書生”提出了一個新的范式,名為“混合參數共享”,從而開發一個名為“多面手”的通才模型。

    具體來說,由于專家捕獲的知識是相互關聯的,當專家的特征融合為一個共享的表示形式時,再利用基于軟共享的跨任務知識轉移和基于硬共享的通用表示學習的方法,在不引入任務沖突的情況下在專家之間傳遞信息(特征轉移),從而進一步提高了多任務訓練的模型(專家)性能,即“通才”能力。

    在結構上,通才模型是所有專家的一個相互關聯的版本,因此可以把每個“專家主干”稱為“通才分支”。此外,我們還可以根據訓練相應專家的任務將通才中的每個分支分為圖像、補丁和像素。但無論是軟共享還是硬共享,都意味著從專家模型到通才模型的一次躍升。

    在經歷了前三個訓練階段模塊后,終于來到最后的任務遷移階段 (Adaptation)。

    這個階段屬于技術鏈條的下游,用來解決各式各樣不同類型的任務,而這也是最考驗“書生”舉一反三能力的時刻。它需要在這個階段把之前學到的通用知識,融會貫通地應用到不同特定任務中。

    在此之前,很多遷移學習方法確實取得了很多進步,但問題是,這些方法既沒有利用上游預訓練中的隱含信息,也沒有考慮到下游數據在少鏡頭場景中的不足。

    因此,“書生”提出了一種Multi-stage Fine-tuning (MF)方法,緩解在數據較少的情況下傳輸的困難,再通過將上游數據編碼成生成模型,即VQ-GAN,可以將預訓練的模型轉移到多個任務和領域,而無需每次都使用上游數據,而這也使得“書生”更具通用性和可擴展性。

    多級微調(MF)概述:VQ-GAN模型首先在第一階段使用上游數據進行訓練,然后在第二階段由它重構下游數據。在此之后,第三階段只對新增任務的特定參數進行重新表示的圖像訓練,第四階段則通過下游數據對整個模型進行微調。

    至此,一個具有持續學習能力的通用視覺模型終于出世。

    而具體有哪些提升,不如看一下更直觀的實驗數據對比!

    3 一網打盡視覺領域四大任務

    視覺領域,任務繁多,主流任務包含分類、目標檢測、語義分割、深度估計四大類型。

    在這四大任務中,最強大的視覺模型還是去年OpenAI發布的CLIP模型。但相比較而言,“書生”則在準確率和數據使用效率上都有所提升。

    1、精度表現

    通過對“書生”訓練出的模型在GV-B上的評測對比,發現經過多階段預訓練的MetaNet精度表現優異。

    在ImageNet等26個最具代表性的下游場景中, “書生”在分類、目標檢測、語義分割及深度估計等四大任務上,平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。

    書生(INTERN)與CLIP-R50x16在不同樣本量上的性能對比,正確率展示

    2、數據使用效率

    “書生”在數據效率方面的提升尤為矚目:只需要1/10的下游數據,就能超過CLIP基于完整下游數據訓練的準確度。

    以CLIP-R50x16和Up-G MN-B15在GV-B的評測對比為例,分別在分類、目標檢測、語義分割、深度估計四大類型的26個下游任務數據集上進行了評測,僅使用了10%數據進行訓練的Up-G MN-B15模型,在絕大部分數據集上都能比使用了全部訓練數據的CLIP-R50有更好的精度表現。這表明,經過多階段預訓練的MetaNet具有極強的泛化能力,能夠在僅有少量的訓練樣本情況下,達到SOTA的精度表現。

    在下游視覺場景中,小樣本訓練帶來的是極高的訓練速度,以及極低的訓練成本。

    例如在花卉種類識別任務上,“書生“只需要每一類型的花卉提供兩個訓練樣本,就能實現99.7%的準確率。

    這個花卉數據集由102種英國常見的花組成,每個類別有40至258張圖片。其中包含有很大的比例、姿勢和光線變化。

    102個類別的花卉數據集:

    4 通用視覺平臺,已正式開源

    如此強大的通用視覺訓練模型已經正式開源!

    更關鍵的是,連同上述講到的標簽數據集、網絡結構以及評測基準,均在OpenGVLab被統一打包開源。

    其中的網絡結構除了MetaNet,還包含大家普遍使用的ResNet, MobileNet, ViT, EfficientNet等,以滿足不同場景的應用,賦能計算機視覺。

    然而,「書生」的布局不止于此。

    OpenGVLab將與上海人工智能實驗室此前發布的OpenMMLab、OpenDILab一道,共同構筑開源體系OpenXLab,持續推進通用人工智能的技術突破和生態構建。

    一位已經使用過此次開源平臺的自動駕駛算法研究員表示:“書生系列模型充分覆蓋了從移動可部署的小模型,到超大規模自研結構,為行業帶來了希望,尤其是它的收斂速度,大幅節省了訓練開銷,是技術落地的一大助推器?!?

    不僅是自動駕駛領域,智慧城市、智慧醫療、智慧交通,以及千千萬萬其他的智能化領域,都將獲得通用視覺模型帶來的技術紅利。

    一位騰訊研究員大贊OpenGVLab:“能把這么大的工作開源出來真的是業界良心。簡單用了一下,確實比CLIP要更fine-grained(細粒度更高)?!?

    而來自學界的師生也對此感慨有加:“OpenGVLab集成了大量各種量級的state-of-the-art(先進)模型,使用起來更得心應手,省去了對不同codebase、不同模型繁瑣調研的煩惱?!?

    換句話說,當那些代碼和公式脫去了枯燥乏味的外衣,人們才發現了真正的創造力。而這,也是技術創新與平臺開源的魅力所在。

    往近了說,用這款通用視覺模型打比賽,怕不是獎金多到飛起!在技術生產力的道路上,又誕生了一個致富小妙招!

    目前,“書生”技術報告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平臺發布。

    論文地址:arxiv.org/abs/2111.08687

    自動駕駛開源的介紹就聊到這里吧,感謝你花時間閱讀本站內容,更多關于自動駕駛開源平臺、自動駕駛開源的信息別忘了在本站進行查找喔。

    掃碼二維碼