伊人国产在线视频,亚洲欧美日本国产一区二区三区,日韩乱视频,精品成人一区二区,a在线亚洲男人的天堂试看,国产成人精品系列在线观看,免费精品精品国产欧美在线

人工智能與可視計(jì)算的過去、現(xiàn)在與未來

2016.12.28 07:55 人工智能概念股

aiaiai

一位資深學(xué)者、70后,講述了從研究數(shù)學(xué)、數(shù)據(jù)、大數(shù)據(jù)、大計(jì)算,到制作機(jī)器人的親身經(jīng)歷。這里沒有某個(gè)技術(shù)的細(xì)節(jié),卻有整個(gè)科技發(fā)展的脈絡(luò),技術(shù)研究的思路,產(chǎn)品設(shè)計(jì)的方向。

本文根據(jù)浙江大學(xué)CAD&CG國家重點(diǎn)實(shí)驗(yàn)室副教授、Rokid科學(xué)家顧問張宏鑫在鈦坦白的分享整理。

張教授是浙江大學(xué)理學(xué)博士、香港科技大學(xué)計(jì)算機(jī)系博士后。曾先后在微軟亞洲研究院、德國亞琛工大等做訪問合作研究。近年來已完成論文30余篇,其中多篇論文被SCI/EI/ISTP收錄,并獲得了較高的文獻(xiàn)引用率。在浙江大學(xué) CAD&CG國家重點(diǎn)實(shí)驗(yàn)室,系統(tǒng)并深入地研究了數(shù)字幾何處理、計(jì)算機(jī)圖形硬件加速、三維重建、可視化和計(jì)算機(jī)視覺的理論,將離散微分方程、卷積理論成功應(yīng)用于快捷三維造型。與阿里云合作研發(fā)了渲染云系統(tǒng),并參與了Rokid家庭陪伴機(jī)器人的研發(fā)。

以下是張宏鑫教授的分享:

大家好,我是浙江大學(xué)CAD&CG國家重點(diǎn)實(shí)驗(yàn)室的張宏鑫,也是Rokid機(jī)器人研發(fā)團(tuán)隊(duì)科學(xué)家顧問,感謝各位聽眾,也感謝鈦媒體給了我這么一個(gè)機(jī)會,和眾多人工智能行業(yè)的大佬們一起來做這個(gè)分享。

我雖然做機(jī)器學(xué)習(xí)相關(guān)的應(yīng)用研究已經(jīng)十多年了,但還算不上一個(gè)真正的搞機(jī)器學(xué)習(xí)或者人工智能的專家,勉強(qiáng)可以算是一個(gè)資深的玩家,因?yàn)槲易约旱难芯颗d趣其實(shí)主要在圖形學(xué)和計(jì)算機(jī)視覺交叉的領(lǐng)域,后來慢慢擴(kuò)展到對數(shù)據(jù)的可視化分析。借此機(jī)會,我想通過我個(gè)人的一些經(jīng)歷,反映我們這一代人的想法,進(jìn)而講一些我對人工智能的粗淺認(rèn)識,供大家研討。

緣起

我們這代人屬于70后,我記得我最小時(shí)候最喜歡看的一個(gè)動畫片是《鐵臂阿童木》,最早看的科幻電影應(yīng)該是《星球大戰(zhàn)》三部曲,當(dāng)時(shí)對電影里面的R2D2等等機(jī)器人特別特別的著迷,這些片子使得我們這代人對智慧機(jī)器人有了最早的直觀認(rèn)識。但是說實(shí)話,最早并不知道什么叫“人工智能”,只是單純的覺得這是科學(xué),這些可愛的機(jī)器人總有一天會出現(xiàn)在我們的生活當(dāng)中,會成為我們?nèi)祟惖暮门笥选?/p>

機(jī)緣巧合,直到兩年前的一天,我的好朋友——Rokid公司的創(chuàng)始人Misa找到我,說“我們做機(jī)器人吧”,我沒有任何猶豫脫口說“好吧,我們一起干!”于是,和Rokid的團(tuán)隊(duì)一起開始了這個(gè)有趣的探索之旅。在這個(gè)探索的過程當(dāng)中,發(fā)現(xiàn)有很多的研究問題大有可為,所以現(xiàn)在也算是樂在其中。

種子

回想起來,從小學(xué)到中學(xué)隨著年齡的增長,我非常喜歡看幾本雜志分別是《科學(xué)畫報(bào)》、《飛碟探索》還有《奧秘》,也很喜歡背后的物理跟數(shù)學(xué)。然后再大一點(diǎn)的話,喜歡看《無線電》。但是后來發(fā)現(xiàn),《無線電》里面很多簡單的小制作還可以,但是復(fù)雜的制作的話需要很多儀器,對于一個(gè)初中生、高中生來說是買不起的。所以覺得不如退一步,因?yàn)閿?shù)學(xué)自己還不錯(cuò)吧,就以數(shù)學(xué)為基本工具來探索這個(gè)世界。后來也比較幸運(yùn),考上了浙江大學(xué),就讀數(shù)學(xué)系,算是了卻了自己的心愿。也就是在大學(xué)里,有一次很偶然的機(jī)會認(rèn)識了Misa同學(xué),因?yàn)樗臀乙粯雍芟矚g彈吉他,沒想到兩個(gè)人因?yàn)閺椉谝黄?,斷斷續(xù)續(xù)合作了很多年。

在大學(xué)三年級的時(shí)候,大概是1996年前后,有一個(gè)很有趣的事情。當(dāng)時(shí)的數(shù)學(xué)系主任是陳叔平教授,他有一次找我們一幫學(xué)生來聊天,問我們對什么東西感興趣。輪到我講的時(shí)候,腦子里就突然冒出了三個(gè)字——機(jī)器人。然后我就對陳老師說,我很想做機(jī)器人。陳老師當(dāng)時(shí)愣了好一會兒,微笑著鼓勵我說,“以后要多學(xué)習(xí)專業(yè)知識,和自動化還有計(jì)算機(jī)的老師多合作”,也許就是因?yàn)閹熼L的這種鼓勵,后來促使我花了很多時(shí)間去學(xué)計(jì)算機(jī)的技術(shù),并輔修了偏工程的電氣專業(yè)。

所以說在大學(xué)期間的這些經(jīng)歷,在我們70后這一代人的身上埋下了現(xiàn)在做這些智能設(shè)備、智能技術(shù)的種子,才有了今天Rokid的產(chǎn)品。也正是因此,我們愿意跳出自己的小圈子,把電子器件、計(jì)算機(jī)技術(shù),以及很多數(shù)學(xué)的算法邏輯等等元素組合在一起。說實(shí)話,是因?yàn)橄矚g彈吉他,喜歡音樂,當(dāng)年我們這幫人才能夠聚攏來,去探索這個(gè)有點(diǎn)離經(jīng)叛道,但有些跨界的美物。

也正是因此,我覺得人工智能,不能簡單理解為是一組算法所形成的自動化邏輯,它是軟硬件技術(shù)的結(jié)合體,只有實(shí)物化才是王道。

小數(shù)據(jù)時(shí)代

后來很幸運(yùn),順利保送浙大碩士以及直接轉(zhuǎn)為博士,師從數(shù)學(xué)系的王國瑾教授。他當(dāng)時(shí)給我的論文題目是《復(fù)雜形體建模與繪制的離散方法研究》。在這個(gè)課題當(dāng)中,其實(shí)我們研究的是一種樣條理論,試圖通過一種過程式的細(xì)分曲面方法來表達(dá)三維場景。所以在當(dāng)時(shí),我廣泛的探索了各種各樣的三維模型如何去進(jìn)行表達(dá),怎么樣去進(jìn)行有效繪制之類的問題。

在博士期間,大概2001年左右,我去微軟實(shí)習(xí)了一段時(shí)間。加入了微軟沈向陽博士領(lǐng)導(dǎo)的視覺組,在他那邊做實(shí)習(xí)生。當(dāng)時(shí)到這個(gè)組,給了我一個(gè)專門的問題,希望我做重光照(relighting)技術(shù)方面的研究。什么是重光照?具體而言,就是研究從一張圖片或者多張圖片中,首先是恢復(fù)三維場景,然后再根據(jù)這個(gè)三維場景的信息進(jìn)一步猜測計(jì)算物體的材質(zhì)屬性(補(bǔ):最后是對三維場景重新打光)。當(dāng)時(shí)來說,這是一個(gè)很難的問題,而且需要用到很多的計(jì)算機(jī)視覺技術(shù),包括圖像分割、立體視覺還有很多數(shù)據(jù)統(tǒng)計(jì)的方法。這些方法都是可以看作是人工智能的一種形態(tài),也是機(jī)器學(xué)習(xí)里面的一些典型方法。當(dāng)時(shí)在微軟,有非常好的氛圍。我記得當(dāng)時(shí)有很多很厲害的人,現(xiàn)在都已經(jīng)成為了研究員、教授,比如說孫劍、劉策等等,大家在一起廣泛討論了很多機(jī)器學(xué)習(xí)的方法。

我在微軟的工作屬于“可視計(jì)算”領(lǐng)域。可視計(jì)算這個(gè)方向?qū)嶋H上是計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺的交叉領(lǐng)域,這兩個(gè)方向其實(shí)可以說是天生的一對。計(jì)算機(jī)圖形學(xué),是一種正向從三維的場景或者數(shù)據(jù)去生成二維圖像的一個(gè)過程;而計(jì)算機(jī)視覺恰恰是反過來的,是從二維的圖像反向去猜測或者是預(yù)測三維的結(jié)果,特別是基于圖像的重建那塊的內(nèi)容,可以說圖形學(xué)跟計(jì)算機(jī)視覺是不可分家。所以,在學(xué)術(shù)界把這兩者加在一起叫“可視計(jì)算”。

微軟期間我印象最深刻的是,從那個(gè)時(shí)候開始接觸所謂的小樣本學(xué)習(xí)方法。因?yàn)楫?dāng)時(shí)我們有一個(gè)討論班,例如孫劍、王天樹、劉策,還有別的一些朋友,包括朱頌春老師,大家在一起討論各種各樣的視覺方法。期間,我們重點(diǎn)研讀了,SVM發(fā)明人Vapnik博士所寫的一本很有名的書叫《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》。在這本書里面他廣泛研討了SVM方法的理論。全文的宗旨是希望通過比較小的樣本,就能夠?qū)W習(xí)獲得一個(gè)很好的統(tǒng)計(jì)模型,這個(gè)模型是通過數(shù)據(jù)進(jìn)行計(jì)算來獲得的。在當(dāng)時(shí)的這樣一種氛圍底下,其實(shí)大家都在探索各種各樣的機(jī)器學(xué)習(xí)的方法,除了SVM方法以外,還有比較重要的是一些降維的技術(shù)。

博士畢業(yè)后,我在香港科大做了一年的博士后,當(dāng)時(shí)在那邊合作的老師是戴秋蘭教授,跟她一起做的是基于草圖的人機(jī)交互。香港科大在當(dāng)時(shí)如日中天,集合了一大幫來自于五湖四海的科研人員,有的在那邊做博士后的,也有在那邊當(dāng)教員的。這期間我很榮幸結(jié)識了張志華老師,大家親切的把他稱為“老張”,他現(xiàn)在在上交大和北大任教。老張既是我的老師,也是我的朋友,我們經(jīng)常飯后一起在香港科大的海邊散步。散步的時(shí)候,他就跟我講好多統(tǒng)計(jì)的方法。為此,我們后續(xù)合作做了一些數(shù)據(jù)降維的工作。最終,其中一個(gè)算法被用于圖形學(xué)中的模型分解跟紋理映射。在當(dāng)時(shí)大家都特別推崇小樣本的統(tǒng)計(jì)方法,用了很多統(tǒng)計(jì)學(xué)里面的理論和計(jì)算技巧。但是當(dāng)時(shí)大家都比較鄙視神經(jīng)網(wǎng)絡(luò)方法,這是挺特有意思的一個(gè)過程。

大概在2005年到2006年左右的時(shí)候,我有幸訪問了德國亞琛工大,在那邊訪問的教授是Leif Kobelt。他當(dāng)時(shí)主要做很多關(guān)于三維網(wǎng)格處理的研究,其課題組的很多技術(shù)其實(shí)最后都輸出給寶馬汽車,因而有很多的橫向課題。在訪問Kobelt教授期間,我主要致力于將機(jī)器學(xué)習(xí)技術(shù)進(jìn)一步引入到圖形學(xué)當(dāng)中,用于三維模型的處理和分析。因?yàn)樵诋?dāng)時(shí),我跟浙大CAD實(shí)驗(yàn)室的一位博士生叫許棟,做了一個(gè)很有趣的工作。我們這個(gè)技術(shù),可以在不同的三維模型之間進(jìn)行插值,背后用的計(jì)算理論是網(wǎng)格上的微分方法,我們將其稱為“泊松形狀插值”。

泊松形狀插值的方法,Kobelt教授也非常感興趣,因?yàn)樗l(fā)現(xiàn)這個(gè)技術(shù)也許可以用于寶馬汽車的外形設(shè)計(jì)。后來,我們也逐漸意識到這一技術(shù),也許是一種物體的本質(zhì)表達(dá)方法。但是怎么樣去驗(yàn)證這件事情不好說,因?yàn)樾枰罅康臄?shù)據(jù)。因此,從這個(gè)項(xiàng)目開始,我就越來越關(guān)注圖形數(shù)據(jù)庫方面的一些進(jìn)展。這當(dāng)中我們發(fā)現(xiàn)很多數(shù)據(jù),其實(shí)適合去做一些數(shù)據(jù)驅(qū)動的方法。如果能累積較多數(shù)據(jù),不光是能夠去做圖形的形狀分析與搜索,還能夠去驅(qū)動一些相關(guān)的物理仿真。

記得有一年,我和一個(gè)叫宋超的博士合作做了一個(gè)關(guān)于物理仿真的技術(shù)。在這個(gè)仿真技術(shù)里邊,我們不光用了是事先采集好的一些形狀數(shù)據(jù),而且還融匯了一個(gè)物理力學(xué)模型。我們把兩者結(jié)合起來,來做到一個(gè)比較真實(shí),但是速度非常快的物理仿真效果。

但當(dāng)時(shí)做了這一系列的研究之后,說實(shí)話我們在學(xué)術(shù)方面其實(shí)有些迷茫,特別在圖形學(xué)方向。該方向已經(jīng)發(fā)展到一個(gè)非常高的高度,進(jìn)入了一個(gè)平臺期。所以我們在做一些嘗試,想從別的角度去進(jìn)行一些挖掘,看看還有沒有別的路可以去走。這一點(diǎn)恰恰把我們70年代的人引入到大數(shù)據(jù)的時(shí)代來了。

大數(shù)據(jù)時(shí)代

大概是在2010年左右,我們前前后后做了三個(gè)不同的項(xiàng)目,我把這三個(gè)項(xiàng)目總結(jié)為三個(gè)“大”。

  • 大計(jì)算

在2010年左右的時(shí)候,阿里云的王堅(jiān)博士找到我們,希望把我們已有的圖形計(jì)算渲染,這種非常復(fù)雜的計(jì)算過程,搬到阿里云上。后來這個(gè)項(xiàng)目通過兩到三年的努力成型后,成為阿里云第一個(gè)上線的saas應(yīng)用。

有一次,我們兩邊合作總共調(diào)集了6500臺計(jì)算機(jī),或者說計(jì)算節(jié)點(diǎn),來完成一部動畫電影的渲染任務(wù),這個(gè)片叫《昆塔傳奇》,是我們杭州本地的一家廣告企業(yè)博彩傳媒拍攝的。我們把這么大規(guī)模的計(jì)算資源調(diào)度起來,做這么一個(gè)復(fù)雜的計(jì)算任務(wù),其實(shí)是非常了不起的。正是因?yàn)槟軌虼笠?guī)模的去調(diào)動這種計(jì)算資源的經(jīng)歷,使我后面可以說是開竅了,讓我很興奮,覺得這種大的計(jì)算能力真的可以做一些事情。

  • 大并發(fā)

我們在完成了阿里云這個(gè)項(xiàng)目之后,浙江大學(xué)的相關(guān)領(lǐng)導(dǎo)對我們很看重,把浙江大學(xué)研究生信息系統(tǒng)的改造項(xiàng)目,交給了我的課題組。為此,我們課題組經(jīng)過三年的努力,加上研究生院的老師一起,對整個(gè)研究生院的業(yè)務(wù)系統(tǒng)進(jìn)行了一次改造。

在這個(gè)改造項(xiàng)目當(dāng)中,最難的一點(diǎn)在于我們浙大每年有五千名研究生入學(xué)。然后這五千人一旦入學(xué)之后,會進(jìn)行一次集中選課,而且這個(gè)選課的流程是比較復(fù)雜的??梢哉f這個(gè)業(yè)務(wù)系統(tǒng),就需要支撐五千個(gè)人同時(shí)進(jìn)到這個(gè)系統(tǒng)進(jìn)行選課。這是一個(gè)高并發(fā)的項(xiàng)目。我們通過自己的努力,加上一些朋友幫忙,設(shè)計(jì)了一個(gè)很好的基于云的架構(gòu)。目前這個(gè)項(xiàng)目已經(jīng)順利結(jié)題,并已經(jīng)上線。我們浙大五萬師生目前每天都在使用這樣一個(gè)系統(tǒng)。

  • 大數(shù)據(jù)

在2010年代,我們接觸的第三個(gè)項(xiàng)目才真正讓我認(rèn)識到什么叫做大數(shù)據(jù)。當(dāng)時(shí)在杭州本地有一家創(chuàng)業(yè)公司叫做淘淘搜。因?yàn)樘蕴运训腃EO,也恰恰是我們浙大的同事,他有一次來找我,說我們能不能合作,把淘淘搜的圖像庫給利用起來。這個(gè)圖像庫有多大呢?當(dāng)時(shí)的數(shù)據(jù)是大概有四千萬張圖像。我們從中抽取了大概兩百萬張圖像,主要是四類——衣服、包、鞋子、褲子。我們希望能設(shè)計(jì)出一種新的交互方法,這個(gè)基本上重用了我們之前的一些技術(shù),就是草圖交互,我們希望通過草圖交互做一個(gè)以圖搜圖的功能。

在整個(gè)項(xiàng)目實(shí)施過程當(dāng)中,我們其實(shí)也借鑒了很多數(shù)據(jù)庫的相關(guān)技術(shù),把數(shù)據(jù)庫里所謂的倒排索引技術(shù),應(yīng)用到了我們圖像索引里面來。通過它,我們提供給用戶一個(gè)非常舒服方便的交互界面,使得用戶通過簡單的勾勾畫畫,就可以選中相關(guān)的圖象數(shù)據(jù),后來我們上線了一個(gè)專門的App應(yīng)用放在蘋果的商店里叫“服飾繪”。通過這個(gè)應(yīng)用,用戶可以進(jìn)行勾畫、搜索最后形成購買。

通過這三個(gè)項(xiàng)目,以及各方面科研,我們有很多深刻的體會。在2010年代開始之后,整個(gè)業(yè)界擁有的計(jì)算能力非常強(qiáng)大了,也有了大規(guī)模的數(shù)據(jù)。而且這些數(shù)據(jù)就是由大規(guī)模的人群產(chǎn)生,因?yàn)?strong>高并發(fā)往往背后是一個(gè)大規(guī)模的普通用戶人群的出現(xiàn)。

這三者的合力其實(shí)給了我們一些契機(jī),讓我們覺得數(shù)據(jù)驅(qū)動方法已經(jīng)不能只局限于以前的小規(guī)模小樣本的數(shù)據(jù),這個(gè)大數(shù)據(jù)的時(shí)代真的是來臨了。

但在這個(gè)心里面,其實(shí)一直記得當(dāng)時(shí)有一個(gè)宿愿,就是怎么樣做機(jī)器人這件事情?因?yàn)閷τ跈C(jī)器人,我們總是覺得它是很有智慧,很有力量的。它的這種能力的來源,是不是可以通過這種大計(jì)算、大并發(fā)與大數(shù)據(jù)的依托去做呢?這是當(dāng)時(shí)放在腦子里的一個(gè)問題。

智能家居時(shí)代

正是因?yàn)槲覀冊?010年左右完成的這一系列項(xiàng)目,使得各方面的合作紛至沓來,我們也有機(jī)會結(jié)合一些具體的項(xiàng)目來思考大數(shù)據(jù)如何應(yīng)用到機(jī)器人。后續(xù)我們做了兩個(gè)方面的探索:一個(gè)是在原有可視計(jì)算方面的探索,另一個(gè)是對人工智能與可視分析方法的探索。而這兩個(gè)探索的背景,是我們觀察到,最近幾年整個(gè)IT行業(yè)已進(jìn)入到智能家居時(shí)代。

  • 可視計(jì)算方面

我們發(fā)現(xiàn)了一個(gè)趨勢,那就是視覺技術(shù)的重新興起。比方說我們在Rokid做了很多新的技術(shù)研發(fā),特別是人臉方面。我們從人臉檢測、人臉識別、人臉表情、年齡判斷到性別判斷,做了一系列的工作。最近一段時(shí)間,我們在人臉年齡識別方面,在某一個(gè)人臉數(shù)據(jù)庫上已經(jīng)刷到了世界第一,因?yàn)槲覀冋业搅艘环N新的計(jì)算方法。

另外,我們在手勢識別方面也做了一些很有益的探索。當(dāng)時(shí)我們在設(shè)計(jì)Rokid的時(shí)候,有一個(gè)初衷,希望除了人能通過語言跟Rokid進(jìn)行交互,還能通過視覺通道來做各種各樣場景的交互,手勢是其中非常重要的一種手段。

人臉也好,手勢也好,其實(shí)我們發(fā)現(xiàn),思路基本上都是通過大量數(shù)據(jù)的累積,來訓(xùn)練合適的模型。這種模型再結(jié)合具體的場景,進(jìn)行進(jìn)一步的改造跟提升,就能使它更加實(shí)用化。這其實(shí)是一個(gè)非常有意義的探索。在這個(gè)過程當(dāng)中,不僅僅是簡單去用深度學(xué)習(xí)等大數(shù)據(jù)處理方法,也要把之前小樣本學(xué)習(xí)里面的各種技術(shù),比方說各種統(tǒng)計(jì)的方法要綜合利用起來。

Rokid是家庭里面的伙伴,所以我們覺得對Rokid這樣的設(shè)備,對家庭環(huán)境的認(rèn)知其實(shí)是非常重要的。所以我們結(jié)合相關(guān)項(xiàng)目的需求,著重做了幾件事情:第一個(gè),我們研發(fā)了一個(gè)技術(shù),就是如何從建筑平面圖當(dāng)中能夠快速的重建室內(nèi)三維結(jié)構(gòu)。因?yàn)閷τ谡麄€(gè)家庭環(huán)境來講,整個(gè)三維結(jié)構(gòu)的建立是非常重要的,而讓一般人去做一個(gè)交互生成一個(gè)三維的建筑平面圖,并不是每個(gè)人都可以完成的。所以比較合適的、折中的方式,就是盡量通過一些比較容易獲取的手段拿到這個(gè)三維信息。一個(gè)思路是,比如說樓道里經(jīng)常有一些建筑平面圖,類似于消防方面的信息,我們的技術(shù)可以通過這個(gè)圖直接進(jìn)行構(gòu)建。另外一個(gè)思路是,我們也做過嘗試,就是怎么樣從深度圖像里面去重建三維場景,這也是最近大家比較關(guān)心的一塊內(nèi)容就是SLAM。只有你對三維場景有認(rèn)知之后,很多家庭的應(yīng)用,場景里面的應(yīng)用就可以真的做起來了。

還有一個(gè)很有趣的點(diǎn),怎么樣把視覺的方法跟語音的方法結(jié)合起來,或者說,做所謂的多模態(tài)識別?舉個(gè)例子,當(dāng)Rokid看到一個(gè)人的時(shí)候,不光是“見其形”,也是“聞其聲”。只有在此基礎(chǔ)上,我們對于見到那個(gè)人有更多的認(rèn)知,對他的了解或者判斷會更加的準(zhǔn)確。所以其實(shí)在這里是有很多的事情可以去做的,我們最近也在做這方面的一些探索??偟膩碚f,這些內(nèi)容是在可視計(jì)算方面與智能家居的一個(gè)結(jié)合點(diǎn)。

  • 人工智能與可視化分析

智能家居時(shí)代跟可視化分析是緊密結(jié)合在一起的。一個(gè)重要原因是在于:像這樣的智能家居設(shè)備,會產(chǎn)生大量的后臺日志信息,而如何重用這些信息,本來就是一件非常有趣的事情。

舉幾個(gè)我們最近幾年研究的案例。比方說我們在后臺搜集Rokid的一個(gè)應(yīng)答內(nèi)容,它是一種短文本信息。當(dāng)時(shí)我們?yōu)榱俗鰧?shí)驗(yàn),大概搜集了200萬條短文本信息。我們希望通過這個(gè)短文本信息,能夠做一個(gè)應(yīng)答場景的判斷。比方說,你跟Rokid講一句話,“若琪,我想聽歌”,其實(shí)應(yīng)該是個(gè)音樂場景;而“若琪,今天天氣怎么樣”是一個(gè)天氣的問答場景。后來,我們就是拿了這200萬條的數(shù)據(jù),采用了一個(gè)深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了訓(xùn)練。在這個(gè)方法當(dāng)中,我們做了一個(gè)特別的嘗試,就是“不分詞”。因?yàn)镽okid的主要用戶是講中文、普通話的人群,所以我們需要對中文進(jìn)行針對性的處理。

我們知道,中文處理往往面臨一個(gè)問題需要對中文進(jìn)行分詞。但是實(shí)際上我們后來發(fā)現(xiàn),中文未必需要進(jìn)行分詞。我們可以把中文里面的每一個(gè)字看成是一個(gè)單元,然后把它作為一個(gè)構(gòu)建神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),來進(jìn)行一個(gè)深度學(xué)習(xí)的網(wǎng)絡(luò)構(gòu)建。通過這個(gè)網(wǎng)絡(luò)的構(gòu)建,我們就能夠做出一個(gè)很好的分類模型,當(dāng)時(shí)我們用了GPU來進(jìn)行數(shù)據(jù)的訓(xùn)練之后,大概能達(dá)到97%的準(zhǔn)確率。所以從這個(gè)方面來說,是一個(gè)很有意義的嘗試。雖然我本身不是做自然語言處理的,但是因?yàn)檫@些問題背后面臨的數(shù)據(jù),在那些問題里是相通的。使得我們有機(jī)會來做一個(gè)有益的嘗試。

從而我們發(fā)現(xiàn),這個(gè)數(shù)據(jù)本身雖然是大規(guī)模的,但每一條數(shù)據(jù)單位的信息量很少。只有集合在一起,這個(gè)數(shù)據(jù)的價(jià)值才是很高的,才有豐富的內(nèi)涵值得我們?nèi)ネ诰?。在Rokid短文本的訓(xùn)練當(dāng)中,我們還得到了一些啟示:是不是可以對一般的數(shù)據(jù),也采用類似的自然語言處理的方法,來進(jìn)行學(xué)習(xí)訓(xùn)練,最后獲得一些好的分析結(jié)果。

當(dāng)時(shí)正好有一位朋友,給了我一個(gè)千萬級的手機(jī)日志數(shù)據(jù)。所以我們在這個(gè)數(shù)據(jù)集合上面,做了一些探索。這個(gè)案例里,我首先介紹下這個(gè)數(shù)據(jù)本身。大家知道,現(xiàn)在手機(jī)在運(yùn)行過程當(dāng)中,后臺會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)會由一些專門的日志分析公司進(jìn)行搜集。我所拿到這份數(shù)據(jù)里,是一份每個(gè)手機(jī)里面安裝的應(yīng)用表的數(shù)據(jù)。現(xiàn)在好多HR在面試人的時(shí)候,經(jīng)常會問對方要手機(jī),看對方的手機(jī)里面裝了什么樣的應(yīng)用,因?yàn)榭梢酝ㄟ^一個(gè)人在手機(jī)里面安裝應(yīng)用,大概能夠分析出這個(gè)人的興趣、愛好,平常喜歡干些什么。我們就是利用這個(gè)原理,抽取了這么一個(gè)千萬級用戶的應(yīng)用列表,希望通過這個(gè)應(yīng)用列表來分析用戶的興趣點(diǎn),也就是通常所說的用戶畫像。在這個(gè)應(yīng)用當(dāng)中,其實(shí)我們是把后臺的日志數(shù)據(jù)通過某種形式的轉(zhuǎn)化,轉(zhuǎn)化成了一個(gè)個(gè)“文本”。通過這個(gè)“文本”再做一些語義分析,我們就獲得了人群的聚類信息,相當(dāng)于我們給每個(gè)人或者說“文本”做了一個(gè)量化,量化成了一個(gè)向量。

有了這個(gè)量化信息之后,我們在這么一個(gè)大規(guī)模的數(shù)據(jù)上面,就可以再進(jìn)一步進(jìn)行可視化。我們分別做了兩種可視化,包括宏觀的和微觀的。通過這個(gè)可視化,我們可以看到各個(gè)人群的興趣和愛好,他是不是對游戲感興趣,或者說他是不是對于QQ、聊天之類的感興趣。這個(gè)其實(shí)是有很大的業(yè)務(wù)場景可以去應(yīng)用的。

這樣的數(shù)據(jù)如果只是數(shù)據(jù)層面去進(jìn)行分析,去進(jìn)行統(tǒng)計(jì)的話,是不直觀的。所以在這項(xiàng)研究當(dāng)中,我們充分利用了最近大家都在談的地理信息可視化方法。我們把所有的數(shù)據(jù)都投在一個(gè)地圖上面,投在這么一個(gè)空間上面,做時(shí)空數(shù)據(jù)的分析。為此,我們找了很多專家,讓他們?nèi)タ次覀兊目梢暬Y(jié)果,大家都覺得這個(gè)很有意思,因?yàn)榭梢詮倪@個(gè)地理信息的可視化上直接發(fā)現(xiàn)一些端倪和趨勢。

后來我們又延續(xù)了這個(gè)思路,分析了杭州市運(yùn)營車輛的數(shù)據(jù)。這個(gè)數(shù)據(jù)規(guī)模也差不多是一個(gè)十萬級別車輛的數(shù)據(jù),總共一個(gè)月的信息,我們做了一個(gè)統(tǒng)計(jì)跟可視分析。在這個(gè)案例里邊,我們同樣的是把汽車的軌跡轉(zhuǎn)化成像文本一樣的內(nèi)容。你可以認(rèn)為一條汽車軌跡就是一個(gè)文本,既然是一個(gè)文本的話,我們就可以來進(jìn)行量化分析,用自然語言的方法來進(jìn)行處理。通過這個(gè)量化處理之后,我們就又可以對每條軌跡做一個(gè)畫像,然后千千萬萬的軌跡匯聚在一起,我們最后可以對一天24小時(shí)獲得24個(gè)不同的交通轉(zhuǎn)換圖。有了這個(gè)圖之后,我們就可以進(jìn)一步的來看看每個(gè)時(shí)段在城市里面各個(gè)關(guān)節(jié)要點(diǎn),是如何在進(jìn)行各種車輛之間的轉(zhuǎn)換的。是不是某時(shí)段從城西到城東去買東西的很多?或者在某一個(gè)區(qū)間段到機(jī)場會比較繁忙?

這兩個(gè)應(yīng)用案例里面,其實(shí)沒有用到太多的深度學(xué)習(xí)方法,但是其實(shí)里面也包含了一種人工智能的智慧。因?yàn)槲覀兪菍@種大規(guī)模的數(shù)據(jù)進(jìn)行了深度的分析,看起來真的是有一點(diǎn)智能。而在這樣的案例當(dāng)中,人也參與到了整個(gè)的分析過程當(dāng)中,起到了對數(shù)據(jù)進(jìn)行進(jìn)一步梳理,設(shè)計(jì)整個(gè)處理過程的作用。

對于云計(jì)算,之前我們搞過那些大計(jì)算的任務(wù),也做過類似的一個(gè)研究。因?yàn)槲覀冊谧鲣秩驹频臅r(shí)候,曾經(jīng)遇到過云計(jì)算后臺有大規(guī)模的數(shù)據(jù)在那里。對于整個(gè)并行計(jì)算運(yùn)行的數(shù)據(jù),那些CPU,對內(nèi)存的占用等各種信息,其實(shí)我們都有,但是靠人是看不過來的。然而機(jī)器可以,機(jī)器可以把這些數(shù)據(jù)給記錄下來,然后計(jì)算。所以我們就想了一個(gè)方法,是不是能夠把機(jī)器記錄下來的數(shù)據(jù)進(jìn)行可視化,再讓人來做進(jìn)一步的分析。這個(gè)方面的問題,其實(shí)我們前前后后做了將近三四年的研究。開始的話也沒有什么眉目,直到最近兩年我們通過跟UC Davis的馬匡六教授合作,做了一個(gè)有趣的工作,發(fā)表在了今年的IEEE TVCG上面。我們把云計(jì)算各種各樣的指標(biāo)做了一個(gè)綜合,而這些指標(biāo)通過可視化的系統(tǒng)可以展現(xiàn)出來。通過這么一個(gè)可視化的方法,我們把他稱為行為線,英文叫Behavior Line。對于每一臺機(jī)器,對于一個(gè)集群里面的每一個(gè)計(jì)算節(jié)點(diǎn),我們都可以進(jìn)行刻劃,然后通過這些行為線的匯聚進(jìn)行可視化之后,我們可以分析清楚在一個(gè)集群當(dāng)中很多分布式的計(jì)算任務(wù)是如何進(jìn)行調(diào)度的,他整個(gè)的計(jì)算生命周期當(dāng)中的各種資源是如何進(jìn)行變化的。通過這種分析,我們可以進(jìn)一步知道,在一個(gè)云計(jì)算集群里面,計(jì)算資源是如何分配,可以如何進(jìn)行優(yōu)化的。

最后一個(gè)案例也是關(guān)于Rokid的,上半年我們做的一項(xiàng)很有趣的工作,把Rokid的很多日志數(shù)據(jù)按照時(shí)間,按照月、星期、天進(jìn)行了一個(gè)可視化,我們把這樣的分析稱為“可視化敘事分析”。因?yàn)槲覀兿M酪粋€(gè)用戶或者一群用戶在使用Rokid的時(shí)候,一天做了哪些事情?在這個(gè)項(xiàng)目當(dāng)中,我們把整個(gè)日志數(shù)據(jù)進(jìn)行了清洗,進(jìn)行各種各樣的整理,也通過類似前面所講的自然語言處理的方法,進(jìn)行了分類。用戶的行為,通過這種方法,還真可以顯現(xiàn)出來他每一天的規(guī)律??梢哉f是“躍然圖上”了。

未來

從我非常個(gè)人的理解來說,人工智能是一種基于數(shù)據(jù)的累積,是一種數(shù)據(jù)驅(qū)動的方法。這個(gè)跟我個(gè)人的研究經(jīng)歷有關(guān)系。從小數(shù)據(jù)時(shí)代到大數(shù)據(jù)時(shí)代,到后面的智能家居,對各種各樣應(yīng)用數(shù)據(jù)的處理,我們深深的體會到這種數(shù)據(jù)驅(qū)動方法是無處不在的。而且人工智能應(yīng)該是人的智慧與機(jī)器智能的融合。因?yàn)樵谖覀兊难芯慨?dāng)中,特別是最近一段我們在可視分析領(lǐng)域的些微進(jìn)展,讓我特別確信這一點(diǎn)。在這個(gè)過程當(dāng)中,存在人與機(jī)的互動。這個(gè)最早在我們開始做人機(jī)交互的時(shí)候,其實(shí)我隱隱當(dāng)中已經(jīng)覺得有這種因素在。因?yàn)樵谶@個(gè)過程當(dāng)中,機(jī)器往往負(fù)責(zé)的是機(jī)械邏輯方面的一些計(jì)算,各種數(shù)據(jù)的清洗,非常繁復(fù)的工作,而且轉(zhuǎn)得非??臁H素?fù)責(zé)思考,進(jìn)行數(shù)據(jù)的整理,從宏觀方面,從邏輯方面,進(jìn)行進(jìn)一步的分析。同時(shí)這種機(jī)器和人之間的互動形成了一個(gè)閉環(huán)。我相信這種閉環(huán)對于我們這種數(shù)據(jù)科學(xué),對人工智能,甚至對因人工智能而所產(chǎn)生的智能家居設(shè)備,它的制造、生產(chǎn)以及設(shè)計(jì)各個(gè)環(huán)節(jié),都會是有很大的助益的。

 

 

人工智能概念股:埃斯頓、科大智能、漢王科技、江南化工、華東數(shù)控、和而泰、中科曙光、永創(chuàng)智能、北京君正、通富微電、永創(chuàng)智能、勁拓股份。

人工智能概念股

那么問題來了:最值得配置的人工智能概念股是哪只?即刻申請進(jìn)入國內(nèi)首個(gè)免費(fèi)的非公開主題投資交流社區(qū)概念股論壇參與討論!

0 0 0

東方智慧,投資美學(xué)!

我要投稿

申明:本文為作者投稿或轉(zhuǎn)載,在概念股網(wǎng) http://www.chiang1015.com/ 上發(fā)表,為其獨(dú)立觀點(diǎn)。不代表本網(wǎng)立場,不代表本網(wǎng)贊同其觀點(diǎn),亦不對其真實(shí)性負(fù)責(zé),投資決策請建立在獨(dú)立思考之上。

< more >

ABCDEFGHIJKLMNOPQRSTUVWXYZ0-9
暫無相關(guān)概念股
暫無相關(guān)概念股
go top