除了秒天秒地的配置,小米10背後的自研AI技術更值得關注

2月14日

2月13日,預熱許久的小米10終於正式登場。由於肺炎疫情,這場發布會採用了純線上直播的模式,但這絲毫不影響它極高的關注度。作為國內首款驍龍865旗艦,小米10實現了自我突破,帶來了不少驚喜。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片1

除了驍龍865處理器、LPDDR5內存等亮眼的參數信息外,小米自研AI技術展現出的成果同樣值得關注,它們已經滲透到小米產品上的各個角落,對相機、系統、語音等多個方面的使用體驗都產生了深遠的影響。

小米AI語音,變得更強了!

1、小米語音AI技術在快速普及

2017年7月的一場小米發布會上,小米AI音箱正式發布,小米開啟了自研語音AI技術在市場上的試水。

短短兩年多的時間,小米自研的語音AI技術已經滲透到各個類型的小米產品中,除了智能音箱 ,小米手機、小米電視、小愛老師等小米產品都配備了“小愛同學”。集成了小米語音智能助理的設備,通過語音這種新交互方式讓產品使用起來更加便利。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片2

語音交互解放了用戶的雙手,降低了學習成本、提升了用戶體驗,而且增強了產品的競爭力。

2、小米10上的智能助理,更有看點

目前來說, 智能手機上的語音助手發出的語音都是人工合成的,基本不會提供個性化的服務,實際使用起來難免感覺機械和不自然,和真人發出的聲音差距還是比較大的。

而小米10上的一大驚喜就是配備了個性化語音合成服務。它採用了小米最新的自研AI技術,用戶只需要在安靜環境下錄製少量的聲音樣本並上傳, 服務器進行識別、訓練並建模後,就能獲得定制化的AI語音助手了。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片3

別人手機的語音助理髮出的語音千篇一律,而小米手機上的小愛同學卻能做到千人千音,感覺就像手機裡有一個真人助理一樣。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片4

3、AI語音技術上,小米展現了哪些功力?

市面上主流語音合成技術有很多不足,具體表現為發出的語音過於機械,像機器人說話一樣,還有就是在中英文混合語音中,雙語切換的停頓節奏、過度感覺也不自然等。

小米的個性化語音合成服務,則瞄準了這些問題進行改進。具體來說,它的實現過程可以分為這麼幾步。

首先,用戶要在安靜的環境下錄製目標聲音;

然後,系統會對採集到的聲音信息進行降噪、檢錯等處理;

接著,處理完的目標聲音會被提取特徵;

最後,小米雲端服務器將收集到的信息進行在線模型訓練、部署,生成語音合成引擎。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片5

這個技術過程看起來比較清晰,但存在很多難點。例如,它對目標聲音的數據質量要求比較高,在線訓練模型費時費力以及小數據量能否訓練出滿意的效果。

不過,小米已經比較完美地解決了這些問題,模型訓練耗時大大縮短,用戶完成整個過程只要20-30分鐘,此外,它的合成效果穩定,甚至沒有英文語料的情況下,也能合成簡單的英文語音。

AI加持,小米10把相機玩出了新花樣

相機方面的提升是小米10系列最重要的賣點之一,1億像素、四顆後置鏡頭等都吸引了無數人的關注。除了硬件上瘋狂堆料外,小米10的相機也展現出了軟件算法上的功力。

1、小米10換天更強了

小米CC9的“一鍵換天”功能得到了很多用戶的歡迎,照片拍好後,只需要在編輯選項中輕輕一點,就能把照片中的天空換成自己想要的效果,例如晴天、夕陽、暮光等。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片6

這次小米10換天功能在之前的基礎上,新增了雨天和雪天,更為強大。從小米的演示對比來看,它在和各類第三方APP PK中大獲全勝,換天效果非常自然,基本能達到以假亂真的程度。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片7

小米10換天功能背後,是小米在視覺成像技術上的持續投入。 MIUI 10推出時,就帶來了AI自拍虛化的功能,單攝相機也能有人像虛化效果,就是通過出色的算法實現的。

小米把之前自拍虛化的算法經驗和技術運用在了換天功能上,標註了數万張實際拍攝的天空圖片進行訓練,並且優化天空分割模型,最終達到了現在的驚人效果。不得不說,實際採集樣張,用AI技術來訓練模型,相當費時費力,需要長期投入大量的成本。

當然,這種算法對成像的幫助,也不是一般軟件優化所能比的。其實,憑藉著出色的成像效果秒天秒地的谷歌Pixel系列,在相機算法上,也是通過實際樣張採集訓練AI模型的思路。這方面,小米和谷歌想到了一起去。

2、拍vlog也能一鍵搞定

短視頻的蓬勃發展讓vlog流行起來,但一般人想要剪出很酷很精緻的vlog並不容易。首先,視頻後期比圖片要復雜,而且vlog製作還涉及音樂、字幕、特效等。

而小米已經敏銳地意識到用戶的需求,投入了多個團隊來幫助大家搞定入門vlog。簡單來說,它優化了這麼幾個方面。

首先,自動運鏡功能讓用戶不動手機也能有出色的效果,不需要學習滑軌、手搖等很專業的技能。不過具體實現過程中,技術難度不小。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片8

自動運鏡時,視頻每一幀的角度要精準匹配,還要對4K分辨率的數據做實時的縮放、轉場等計算,對算法的精度有很高的要求和考驗。小米AI實驗室通過算法優化和調校,把CPU、GPU、解碼器等多個計算單元結合,“榨乾”了手機的計算性能。


除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片9

另外,語音轉字幕這個功能也值得點贊。給視頻手動加字幕非常麻煩,有了語音AI技術後,小米手機就能把錄製視頻裡的語音自動轉為文本字幕,幫vlog製作者省了很多事情。

3、文檔掃描這件“小事”,小米10做到了極致

小米10相機上另外一個極具亮點的功能是“小米拍文檔”,它解決了手機文檔掃描過程中的諸多痛點:邊框識別不准、細節丟失、顯示不清晰、變形、陰影等。

小米拍文檔給人印像比較深刻的是AI技術對文檔掃描這個功能的巨大幫助,比如說它的裁剪校正能力很強,即使拍攝文檔的背景非常雜亂無章,也能精準的定位到文檔邊界,並準確地裁切和矯正文檔區域,將有乾擾的多餘元素去除。

此外,很多時候,拍攝文檔的環境光學不理想,成像區域一部分很暗、一部分很亮,非常影響最終的掃描效果。小米拍文檔通過針對性的陰影消除技術來解決問題,讓文檔掃描的成功率大大提升。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片10

技術創新鑄就了小米拍文檔的出色體驗,通過神經網絡區分圖像中光照和陰影部分,利用邊緣算法幫助用戶對文檔進行精確定位,並實際採集多樣化的文檔使用場景進行訓練優化。

值得一提的是,小米拍文檔完全由小米AI實驗室武漢視覺團隊獨立負責完成,疫情當前,他們的工作和貢獻值得點贊。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片11

小米自研AI技術,值得更進一步的期待

這次的小米10發布會,讓我們看到了很多小米過去容易被忽視的地方,自研AI技術就是其中一個重要的部分。

首先,小米10為代表的產品展現出了小米在自研AI技術上的強勁實力。不管是個性化語音合成服務、一鍵換天、vlog自動字幕等AI助力的具體功能,還是通過採集真實數據訓練模型的AI研發思路,都讓我們看到了小米在自研AI技術上的用心。

其次,研究AI技術的廠商很多,但像小米這樣精準瞄準用戶體驗的,不太多見。前面我們提到的掃描文檔、製作vlog等功能,第三方應用其實都能實現,手機廠商一般不會在這些細節上下太多的功夫。

除了秒天秒地的配置,小米10背後的自研AI技術更值得關注圖片12

但這些看起來不起眼的細節,都和用戶需求息息相關。小米把自研AI技術的成果都投入到這些領域,讓自家用戶能最直接地享受到AI技術發展的紅利。小米AI技術更加註重和用戶體驗相關的場景落地,每個技術創新都能找准用戶的實際需求、提升用戶體驗。當然,這種注重用戶體驗的基因,從MIUI誕生開始就一直存在,現在刻入到了小米的AI技術研發中。

此外,小米涉足的領域遠不隻手機, 家電 、 智能家居 、PC等等行業,都能看到小米活躍的身影。而小米的自研AI技術,也不局限於給手機功能添磚加瓦。未來,我們有望看到小米自研AI技術未來在影像、語音、5G、IoT等多個領域的爆發成果,這非常值得期待。

本文提及的商品如下:


發表第一條評論

發布
沒有更多評論