無人商店技術供應商AiFi與Amazon Go同樣主打拿了就走的無人商店AI技術。從2016年成立以來,全球已有25家商店部署AiFi的技術,不乏來自法國、英國、加拿大、波蘭等國的著名零售商,比如家樂福。

圖片來源: 

圖/臺灣AI年會

Amazon Go在2018年正式營運後,用AI技術創造了新型態的無人商店,吸引了許多零售科技業者競相投入無人商店技術的開發行列,連臺灣都有業者投入,不過,要真正做到如同Amazon Go那樣大坪數、多種商品都能拿了就走的無人商店模式仍然非常困難,因為不只是AI技術難題,還有一個更大的挑戰必須克服才行。在今年台灣人工智慧年會上,一家同樣建立整套無人商店技術的新創AiFi共同創辦人鄭影,接露了他們如何打造出足以挑戰Amazon Go模式背後的關鍵。

全球已有25家商店部署AiFi的技術,不乏來自法國、英國、加拿大、波蘭等國的著名零售商,比如家樂福。AiFi的無人商店技術也可以大規模複製,預計一年內拓展到全球350家,甚至會落地亞洲。

鄭影透露,打造出無人商店的一大痛點,是資料多樣性不足的問題,得靠合成的影像資料(Synthetic Data),模擬出超商各種場景的影像來訓練AI系統,才能讓AI更精準的追蹤顧客軌跡、行為與拿取的商品品項。

無人商店AI系統訓練的一大關鍵:合成影像資料

AiFi不是第一家靠合成影像來訓練AI的無人商店業者,Amazon Go早在兩年前就曾揭露,核心技術Just Walk Out就是靠影像模擬器生成多元的購物場景與顧客消費情境,來擴大訓練資料量。

無人商店AI識別技術,一直以來都是電腦視覺領域的一大難題。這項技術有多難?協助開發Amazon Go核心技術Just Walk Out的前南加州電腦視覺教授Gerard Medioni曾揭露,無人商店系統包含了6個關鍵問題,分別是感測器融合(Sensor Fusion)、攝影機位置校正、人像偵測、物件辨識、姿勢辨識與行為分析(Activity Analysis),整合這6大技術,才能單靠電腦視覺,來識別每一個人在商店中的軌跡、行為與拿取商品,最終達成「拿了就走」的購物體驗。

鄭影進一步指出,無人商店的電腦視覺難題可分為三類。第一,是大規模場景下的顧客追蹤問題,比如在500平方公尺的超市中,同時追蹤500個人的購物旅程。第二,是顧客行為識別問題,包括顧客在哪裡、做了那些動作、何時與貨架接觸、拿了一項商品還是放回一項商品,尤其在真實情境下,不同顧客可能同時伸手拿取同一樣商品、交叉拿取商品,都會增加影像識別的複雜性。

第三,則是大量商品辨識問題,比如在一家50平方公尺的店面中,可能擺放了1,500種商品,又或是一家1,500平方公尺的商店中,可能涵蓋了3萬種不同品項的商品,AI系統必須能同時識別數千種商品品項,才能正確計算顧客的消費金額,「商品數量越多,AI辨識的難度就越大。」鄭影說。

「這三個難題都有一個痛點,數據從何而來?」鄭影指出,AI領域常聽到形容訓練資料的一句話:「垃圾進、垃圾出。(Garbage in, garbage out.)」顯示訓練資料之於AI的重要性。無人商店AI系統的開發挑戰,在於訓練資料難以涵蓋到各種商店場景、不同形式的貨架以及各種商品品項的資料,就連同一家店內,都可能因光照條件不同而產生多種影像資料。同時,影像的標註太耗時耗力,一家店內可能同時有上百位顧客、上萬種商品,要全數標註完成是一大挑戰。「如何實現數據的多樣性和完整性,成為非常大的難題。」

為此,AiFi與Amazon不約而同的都採用影像合成技術,生成大量訓練資料,再用來訓練AI系統。鄭影表示,這類作法的著名案例,就是Tesla與Waymo,透過模擬各種天氣下的路況,來訓練自駕車的能力。實際應用在無人商店的AI訓練中,AiFi打造了一個AI模擬循環作法(AI Simulation Loop),先模擬生成訓練數據,確保AI大腦擁有足夠的數據來進行訓練,下一步,將訓練完成的模型用於現實場景測試,再將實測結果回饋到模擬系統當中,針對辨識較差的場景生成更多影像資料,反覆優化AI模型。

如何靠模擬合成資料優化AI訓練流程?

鄭影以實際影片展示,這套影像模擬系統,已經能夠數位化一家200平方公尺的商店,模擬各種商店背景、貨架、商品擺放方式,也能模擬各個攝影機看到的視野,來優化攝影機的擺放位置與角度。在模擬顧客時,則可以控制人的密度、人數、消費行為,就連數位化的商品,都能模擬在不同光照之下,商品在攝影機畫面中的呈現。

鄭影也舉出兩個例子,來說明如何靠影像模擬生成,來優化AI訓練流程。其一,是在密集性的商品識別情境下,一張影像可能就包含了上百種陳列商品,若要以人工標註每張影像,假設以一張影像15分鐘來計,每人每天工作8小時,也只能標註32張訓練資料;不過,若採用合成資料的方式,在同樣的時間內,電腦可以生成500~1,000倍的訓練資料量,而且影像生成時,就已經預標註了每一種商品,能夠省去大量人工標註時間,還能根據商店實際要擺放的商品來生成影像,再進行模型訓練。

透過模擬影像的作法,也能細緻的模擬每一種商品在貨架上的排列方式,比如是整齊的陳列在貨架中、還是稀疏的擺放;若是稀疏的擺放,還需要考量到每個商品的朝向可能參差不齊,帶來更多商品陳列的可能性。「當每張圖擁有100種不同商品的時候,商品朝向的組合會呈指數型成長,」鄭影指出,用模擬影像的方式,可以列舉商品不同的擺放與朝向,生成足量的訓練資料。

模擬稀疏的擺放方式,各種商品擁有不同朝向。

模擬商品整齊的排列方式。

另一個例子,是在追蹤顧客動向時,隨著店內人數增加、場地更大,裝設的攝影機數量更多,若要同時追蹤每個顧客的行為,所需的運算時間也會成指數呈長,「許多零售場景下,會希望顧客追蹤即時且準確,這就加大AI識別的難度。」

鄭影指出,為了在一家700平方公尺的店內,即時追蹤100個人同時間的購物行為,「我們需要把產品解決方案,做得比高階技術(state of art)快一千倍,這時,模擬數據扮演非常重要的角色。」AiFi要透過合成大量數據,將模型訓練得更快、更小、更精準。但她並未解釋如何透過更完整的合成資料,來加快AI運算速度。

透過這套資料模擬系統,AiFi也能控制店內的人數、密度,並列舉每個人的服飾、動作、帽子、髮型、膚色,讓演算法更健全(Robust)。以此來訓練AI之後,AiFi也實際進行100位顧客在店內購物的壓力測試,在高密度的人群追蹤中,除了可以識別每個人的行動軌跡,也能標註出每個人的骨關節,包括手腕、手軸、肩膀等位置,來瞭解每位顧客的行為。

模擬商店內人群密度、人數,以及每個人的服飾、動作、帽子、髮型、膚色等。

靠AI標註出每個人的骨關節,包括手腕、手軸、肩膀等位置,來判斷每位顧客的行為。

無人商店AI技術可驅動更多智慧零售應用

「這套無人商店AI技術,驅動了更多智能零售場景的應用。」鄭影解釋,這套技術除了可以實現「拿了就走」的購物體驗,另一項特點,是在即時統計貨架上每種商品的剩餘數量後,能自動通知員工應補貨的商品品項與數量,並透過更精準的進貨,來解決商品庫存過多造成的損失問題。將顧客於實體店面的購物旅程數位化後,也能進行後續的智慧零售運用,比如依據顧客行為優化商品擺放位置,或進行個人化商品推薦。


熱門新聞

Advertisement