近兩年拍照答疑賽道一直備受關(guān)注,那么拍照答疑、在線答疑的技術(shù)核心究竟是哪些?學(xué)霸君研究負(fù)責(zé)人陳銳峰近日帶來(lái)了他的分享。
編者按:近兩年拍照答疑賽道一直備受關(guān)注,那么拍照答疑、在線答疑的技術(shù)核心究竟是哪些?學(xué)霸君研究負(fù)責(zé)人陳銳峰近日帶來(lái)了他的分享。
在教育倍受重視的今天,在線教育行業(yè)也發(fā)展的如火如荼。拍照搜題、在線答疑的核心技術(shù)究竟如何?在線教育行業(yè)背后的架構(gòu)又是怎樣?一起來(lái)看看吧!
從某種角度說(shuō),我們可以做一些補(bǔ)充性,或者說(shuō)問(wèn)題降解、難度降解的事情。我們把學(xué)生某種學(xué)習(xí)行為數(shù)據(jù)用一種手段,比如拍照搜題、1V1答疑,還有很多其他的模塊,收集起來(lái),進(jìn)行建模。然后做成各種各樣的模型,輸送給另外一個(gè)大腦。在這個(gè)過(guò)程中,我們就完成了部分知識(shí)或者記憶的傳輸。然后我們想做的是,利用他山之石來(lái)讓其他一些學(xué)生可以攻玉,這個(gè)就是學(xué)霸君要做的事情。
今天想跟大家分享的有幾點(diǎn)。首先簡(jiǎn)單介紹一下,我們的創(chuàng)業(yè)動(dòng)機(jī),然后是開(kāi)始的第一步,即搜題的一些核心技術(shù)。另外,我還會(huì)講講1V1的實(shí)時(shí)答疑,這方面也有很多核心技術(shù)。
學(xué)霸君要做一件什么事?
首先,跟大家簡(jiǎn)單分享一下我們學(xué)霸君的簡(jiǎn)史。
我們?cè)?012年11月開(kāi)始創(chuàng)建團(tuán)隊(duì),摸索了一年,終于在2013年的10月1號(hào)懷著忐忑的心情,把第一版的拍照搜題的APP推送上線。我們是非常緊張的,因?yàn)槟菚r(shí)候,國(guó)內(nèi)還沒(méi)有太多這樣類型的產(chǎn)品可以參考。它的實(shí)際效果、搜索命中率是怎么樣,都是個(gè)未知數(shù)。
等到第一版上線的時(shí)候,我們發(fā)現(xiàn),用了一大堆非常裸、非常的低效的平平手段創(chuàng)造出來(lái)的OCR加搜題的模塊,能夠達(dá)到百分之四十幾的搜索命中率。我們覺(jué)得這個(gè)東西有戲。在那個(gè)之后,我們逐步迭代各種版本,到現(xiàn)在已經(jīng)發(fā)布了三個(gè)主要的文字識(shí)別版本,大概是93%左右的搜索命中率。到目前累計(jì)搜索接近20億次。每一道題的搜索,后面緊密連接一個(gè)電話號(hào)碼,就是學(xué)生注冊(cè)的時(shí)候填寫的電話號(hào)碼。這有什么用呢?等一下我會(huì)跟大家分享一下。
在2015年9月1號(hào),我們首推了實(shí)時(shí)答疑。然后第二波的征程就開(kāi)始了。中國(guó)學(xué)生比較靦腆,很多時(shí)候遇到問(wèn)題不敢問(wèn)、不想問(wèn)、不會(huì)問(wèn)。老師的情況是,在二三線城市的老師的薪酬并不是特別高,但是他們有一部分空閑時(shí)間。大部分中國(guó)的家長(zhǎng)都是望子成龍的,愿意付很多的錢投資在小孩的學(xué)習(xí)上,他自身又沒(méi)有時(shí)間和能力去輔導(dǎo)他。這樣,學(xué)生在有問(wèn)題的時(shí)候,沒(méi)法得到有效的解決。在這種情況下,我們就進(jìn)一步衍生了一個(gè)實(shí)時(shí)答疑的產(chǎn)品,把相隔千山萬(wàn)水的老師跟學(xué)生之間的距離變成了5秒。
我們的模式是,可以把它理解為在線教育的Uber,用手機(jī)APP去呼叫老師,呼叫服務(wù)。學(xué)生遇到題目不懂,任意一個(gè)位置的學(xué)生拿起手機(jī)來(lái)直接就拍,拍了之后,我們就會(huì)對(duì)他進(jìn)行識(shí)別,會(huì)搜索,把答案推出來(lái)。甚至有解析,解析非常重要。如果學(xué)生看不懂,呼叫一下老師,老師會(huì)跟學(xué)生互動(dòng),他會(huì)用相應(yīng)的策略去講不一樣的解題思路。
我們用這個(gè)APP就做到這樣一個(gè)效果:老師拿題就講,學(xué)生不懂就問(wèn),問(wèn)懂為止,真正做到今日難題今日斃。在這樣的模式下,我們所推崇的就是效率的提升,這是我們?cè)趯W(xué)習(xí)里面經(jīng)常不能得到滿足的一個(gè)比較大的問(wèn)題。怎么樣做到這些呢?
拍照搜題核心技術(shù)
接下來(lái)講核心技術(shù)。首先,為什么要去做大量的行為數(shù)據(jù)的采集。行為數(shù)據(jù)的采集實(shí)際上是學(xué)霸君在做的真正的內(nèi)容,拍照搜題、1V1答疑也只是采集數(shù)據(jù)的兩種手段。以后,我們還有其他的采集手段會(huì)逐步開(kāi)放出來(lái)。2012年、2013年創(chuàng)業(yè)初期,我們思考的一個(gè)問(wèn)題是,怎么樣去捕捉學(xué)生的大腦。控制論的祖師爺是威娜,他對(duì)控制系統(tǒng)提出兩個(gè)指標(biāo),一個(gè)是可觀,一個(gè)是可控。而學(xué)生的大腦是極度不可觀測(cè)、極度不可控制的一個(gè)系統(tǒng)。那怎么樣去觀察學(xué)生大腦里面的一些東西,并且勾勒出能力缺陷的空間呢?
我們討論了很久,決定從所有的書(shū)籍開(kāi)始入手。怎么樣去采集書(shū)籍的內(nèi)容,這個(gè)就最終導(dǎo)致我們花了很多精力去做拍照搜題的一個(gè)產(chǎn)品。有了一個(gè)idea之后,我們非常興奮,但是馬上就遇到一個(gè)坎,發(fā)現(xiàn)文字識(shí)別實(shí)在太難了。那時(shí)候我們還沒(méi)有專門的歐西亞團(tuán)隊(duì),都是技術(shù)的小白。我們所搜集到的圖片都是亂七八糟的圖,有非常模糊的,有各種扭曲的。這個(gè)是技術(shù)難題,但是我們必須要解決。
我們就開(kāi)辟一條跑道,這個(gè)跑道非常曲折,在這條彎路上,先后探索了印刷體、中文識(shí)別、公式識(shí)別、英文識(shí)別、表格識(shí)別、圖像識(shí)別、自然語(yǔ)言處理、手寫識(shí)別、卷面的版面分析,以及高并發(fā)的圖像的處理框架,這些都構(gòu)成了基礎(chǔ)識(shí)別團(tuán)隊(duì)。然后相應(yīng)的團(tuán)隊(duì)也已經(jīng)組建起來(lái)。
文字識(shí)別上,第一步要做的就是單個(gè)文字的識(shí)別。我們用的是深度學(xué)習(xí)的技術(shù),從20億的虛擬字庫(kù)里面去進(jìn)行訓(xùn)練,最終的單字識(shí)別率現(xiàn)在是99.5%??紤]到里面有很多是模糊字,所以在清晰的情況下,基本上就是四個(gè)九到五個(gè)九左右級(jí)別的精度。這張圖顯示的是基本的技術(shù)結(jié)構(gòu)。模擬神經(jīng)網(wǎng)絡(luò),有若干個(gè)輸入,輸入之后有正向的應(yīng)急信號(hào),也有正向的增強(qiáng)信號(hào),也有負(fù)向的抑制信號(hào),所有信號(hào)疊加之后,有綜合的輸出。然后我們把所有的網(wǎng)絡(luò)用大概幾千萬(wàn)或者是幾百萬(wàn)個(gè)單元組合在一起。
分享一個(gè)題目。對(duì)于一張圖片,我們切割出來(lái),一個(gè)字一個(gè)字,每個(gè)字首先做一次卷集,把它某種方向的一個(gè)特征提取出來(lái)。第二步做一次下采樣,把它變成一個(gè)更小的一個(gè)圖。第三步再做一次卷集,然后變成看不太清楚,但是反映了一些文字的高層特征的圖。第四步再做一次下采樣,會(huì)變成一個(gè)更小的圖,然后做一個(gè)全連接,這是一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。最終的輸出實(shí)際上是對(duì)所有字的自信度的打分。比如說(shuō)在這個(gè)結(jié)果里面,層次是91%的進(jìn)度,那么這個(gè)圖片對(duì)應(yīng)的就是層的一個(gè)輸出。
然后我們還克服了若干其他的問(wèn)題?,F(xiàn)在完成了這樣的一個(gè)場(chǎng)景,就是我們可以把人眼基本上看不太清楚的東西,變成可以看見(jiàn)的東西。像這張圖里面,現(xiàn)在就可以把它浮現(xiàn)到可讀可識(shí)別這樣一個(gè)階段,這也是圍繞著圖像處理的一些手段。還有手寫識(shí)別,在拍題搜題里面,它的出現(xiàn)概率不會(huì)很多,2%左右,但是這一塊的技術(shù),對(duì)1V1答疑是一個(gè)基礎(chǔ)的技術(shù)。
先看一個(gè)結(jié)果。這是我們?cè)谑占臄z、拍照搜題出來(lái)的一個(gè)結(jié)果,里面的正確率基本上還可以,但是有一個(gè)錯(cuò)誤,這個(gè)錯(cuò)誤實(shí)際上導(dǎo)致了,數(shù)學(xué)引擎技術(shù)沒(méi)法完全波接這樣一個(gè)結(jié)果。如果這一套,這個(gè)字也識(shí)別對(duì)了,負(fù)一識(shí)別為負(fù)一的話,這道題在從數(shù)學(xué)引擎上是可解的。我們會(huì)進(jìn)入另外一個(gè)環(huán)節(jié),就是對(duì)題目畫(huà)像。我們會(huì)把所有提干進(jìn)行一個(gè)拆解,然后把一些已知因素跟未知因素處理出來(lái),做數(shù)學(xué)、語(yǔ)法素的應(yīng)用,最終把答案推理出來(lái)。
說(shuō)了那么多,我來(lái)說(shuō)一下應(yīng)用。在1V1實(shí)時(shí)答疑里面,假設(shè)這樣一個(gè)場(chǎng)景,老師在講題的時(shí)候,上面會(huì)不斷顯示,最重要的是類人腦的,或者沒(méi)有那么智能,而是一個(gè)某種程度上會(huì)思考的引擎,首先會(huì)分析老師的筆記。老師在上面畫(huà)了一張圖,我們會(huì)先做圖形的識(shí)別,它是一個(gè)立方體,有哪些虛線,哪些實(shí)線?
接下來(lái)會(huì)分析。比如說(shuō)在這里面它寫了幾何法,后面寫了一個(gè)向量法,幾何法跟向量法都可以觸發(fā)相應(yīng)的知識(shí)圖譜,這個(gè)知識(shí)圖譜是圍繞著題庫(kù)建立起來(lái)的另外一個(gè)知識(shí)體系?;蛘咚麑懥艘粭l式子,在這種情況下,直接就把式子算出來(lái)了。
老師在講課的時(shí)候,他不是孤身作戰(zhàn),他所講的內(nèi)容,得到我們的知識(shí)體系的支撐。然后會(huì)分析他需要什么,不斷為他聯(lián)動(dòng)一些要講的內(nèi)容。還有更重要的是,所有觸發(fā)在分析引擎的時(shí)候,我們會(huì)把數(shù)據(jù)收集下來(lái),這個(gè)才是對(duì)我們最有價(jià)值的,老師怎么講、用了哪些素材,最終會(huì)進(jìn)入數(shù)據(jù)庫(kù)。
第四個(gè),是智能版面分析引擎。接下去我們要做的事情會(huì)更有意思。所有的卷子、書(shū)籍,首先可以做校正,然后會(huì)做智能化的切割,一道題一道題切割出來(lái)。如果這道題是可以解的,那我們給它解出來(lái),如果這道題是數(shù)據(jù)庫(kù)有的,我們從數(shù)據(jù)庫(kù)搜索出來(lái)。每道題的頻次、考分、重要性全部分析出來(lái)。然后所有學(xué)習(xí)數(shù)據(jù),就可以幫助學(xué)生去更精準(zhǔn)投放時(shí)間,避免時(shí)間浪費(fèi)。我們通過(guò)圖像的切片,可以把整個(gè)任務(wù)切成一小塊一小塊,然后分發(fā)給圖像的云處理機(jī)群,做并發(fā)處理,最后把它拼接成綜合的結(jié)果,發(fā)送給相應(yīng)的處理終端。這個(gè)是我們?cè)频募軜?gòu)。
1V1實(shí)時(shí)答疑核心技術(shù)
在調(diào)度上,我們有各種各樣的挑戰(zhàn)。首先老師的上線時(shí)間是不確定的,每一個(gè)老師上傳的板塊不一致,各地的考綱不同,講題方式也不同。學(xué)生是隨機(jī)提問(wèn)的,對(duì)價(jià)格的敏感程度不一樣,一線城市可能愿意多花點(diǎn)錢,二線城市可能對(duì)比較優(yōu)惠的策略更感興趣。對(duì)于獲得的結(jié)果期待也不同。
所以,我們對(duì)各種策略需要有一個(gè)智能化的控制。然后大家看到這個(gè)系統(tǒng)是簡(jiǎn)單的寫照。如果一個(gè)學(xué)生有問(wèn)題,發(fā)起請(qǐng)求,然后進(jìn)入調(diào)度中心,這個(gè)調(diào)度中心會(huì)在問(wèn)題空間里面選取若干個(gè)老師,然后發(fā)送,最后老師接單,就是這樣一個(gè)流程。
隱藏的技術(shù)就由這個(gè)架構(gòu)體現(xiàn)。最底層的是知識(shí)模型,包括知識(shí)導(dǎo)航、知識(shí)圖譜。往上一層,包括學(xué)生畫(huà)像跟老師畫(huà)像兩塊的用戶畫(huà)像,當(dāng)然家長(zhǎng)畫(huà)像也是非常重要的。還有第三個(gè),往上走就是預(yù)測(cè)算法。因?yàn)楣┬桕P(guān)系必須平衡,不平衡會(huì)導(dǎo)致整個(gè)系統(tǒng)崩潰,所以這塊也是非常重要的。最上面是偏運(yùn)籌學(xué)方面的工作,需要對(duì)老師的需求跟供應(yīng)進(jìn)行建模,然后做最優(yōu)化、智能的調(diào)度。
現(xiàn)在我們已經(jīng)收集了接近20億次的學(xué)生提問(wèn)、幾千萬(wàn)左右的題目。我們使用自然語(yǔ)言理解,還有深度學(xué)習(xí),對(duì)這些題目跟知識(shí)做梳理,然后把它整理成樹(shù)狀的結(jié)構(gòu)。比如說(shuō)高中數(shù)學(xué),現(xiàn)在有七大板塊,22個(gè)章節(jié),550個(gè)知識(shí)點(diǎn),三千多個(gè)題型,根據(jù)各地的考綱的不同,會(huì)有不同的版本,然后這些版本會(huì)導(dǎo)致問(wèn)題更細(xì)致化。
但是整體的思想是,建成一個(gè)樹(shù)狀結(jié)構(gòu)的導(dǎo)航體系,可以把它類比為Uber系統(tǒng)的GPS,就用這個(gè)去分類各種題目、學(xué)生畫(huà)像等。接下來(lái)看一下怎么去用這個(gè)東西。第一個(gè)問(wèn)題是,學(xué)生畫(huà)像是非常有意思的問(wèn)題,學(xué)生是千人千面,沒(méi)有兩個(gè)學(xué)生是完全一樣的,但是我們通過(guò)某種統(tǒng)計(jì)規(guī)律可以抽象出一些共性,然后就可以用來(lái)做很多事情。
這張圖給大家看一下我們怎么去分析學(xué)生的共性,怎么去用這種拍照搜題數(shù)據(jù)。每個(gè)學(xué)生在系統(tǒng)里面呈現(xiàn)出很多的數(shù)據(jù),這個(gè)數(shù)據(jù)就是我們非常大的財(cái)富,然后不斷去挖掘里面隱含的信息。首先用剛才說(shuō)的那個(gè)GPS系統(tǒng),就是知識(shí)的建模,把每一個(gè)題目的知識(shí)點(diǎn)抽樣出來(lái),變成一個(gè)輸入,接上時(shí)間軸,把它扔進(jìn)一個(gè)深度神經(jīng)網(wǎng)絡(luò),這時(shí)候就可以抽取學(xué)生的各種特征。然后接下去,我們可以做一些分析。
舉個(gè)例子,可以看到學(xué)生的行為有個(gè)時(shí)間軸。學(xué)生的行為實(shí)際上是動(dòng)態(tài)變化的,不是固定的,今天學(xué)代數(shù),明天學(xué)幾何,會(huì)不斷變化,學(xué)生所問(wèn)的問(wèn)題,或者說(shuō)需求的問(wèn)題不斷變遷。那在這種情況下,有一個(gè)現(xiàn)象是可以利用的,就是學(xué)生之間的共性。比如說(shuō)A學(xué)生,問(wèn)了若干系列的問(wèn)題,B學(xué)生問(wèn)了若干系列的問(wèn)題,后來(lái)來(lái)了個(gè)C學(xué)生,我們發(fā)現(xiàn)A學(xué)生B學(xué)生的共性非常強(qiáng),那C學(xué)生接下去想問(wèn)的問(wèn)題或想了解的內(nèi)容,可以通過(guò)前面A學(xué)生B學(xué)生所形成的聚集去預(yù)測(cè),這個(gè)對(duì)于分配老師、調(diào)度老師的策略上是非常有幫助的。
老師的畫(huà)像跟學(xué)生的畫(huà)像是完全不一樣的兩個(gè)問(wèn)題。老師沒(méi)有學(xué)習(xí)階段的時(shí)間軸,很多老師各個(gè)年級(jí)都能講,但是他所講程度不太一樣。為了對(duì)老師進(jìn)行適當(dāng)?shù)姆诸?,我們用了這樣的策略,就是競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)。我們把所有的老師,大概有幾千到接近一萬(wàn)老師,映射到一張地圖,這是數(shù)據(jù)計(jì)算出來(lái)的地圖,用類似于商級(jí)來(lái)區(qū)分不同老師的分類,每種顏色代表著老師的一個(gè)類,這個(gè)只是龐大地圖里面的一小塊。
比如,綠色代表著老師會(huì)講立體幾何,紅色代表會(huì)講立方體這一塊,等等。對(duì)所有老師建模之后,注冊(cè)一個(gè)新的老師,他講若干道題之后,開(kāi)始對(duì)這個(gè)老師進(jìn)行定位。比如,他講了立體幾何,可能還講了其他一些題,但是他立體幾何比較擅長(zhǎng),那最終會(huì)把他定位到這一個(gè)區(qū)域里面,然后不斷讓他講這塊內(nèi)容。這個(gè)就是我們老師畫(huà)像的應(yīng)用,這體現(xiàn)了需求和供應(yīng)兩方面。
需求供應(yīng),我們需要去量化。接下一個(gè)核心技術(shù)就是需要去預(yù)測(cè),每一個(gè)知識(shí)點(diǎn)、每一個(gè)知識(shí)板塊,有多少的供應(yīng)量,有多少的需求量,可以去設(shè)計(jì)老師的人源池的分配。每個(gè)地區(qū)供需關(guān)系不太一樣,這導(dǎo)致一個(gè)非常有意思的數(shù)學(xué)問(wèn)題,就是龐大數(shù)據(jù)集多時(shí)序的一個(gè)預(yù)測(cè)。每個(gè)老師都有一個(gè)相應(yīng)講題的頻次、數(shù)量等,幾個(gè)月下來(lái),基本上可以估出它的模式,然后就可以對(duì)每個(gè)老師的上線時(shí)間進(jìn)行預(yù)測(cè),對(duì)講題的供應(yīng)能力進(jìn)行預(yù)測(cè)。
最后,根據(jù)歷史結(jié)果來(lái)估算老師未來(lái)的服務(wù)能力,然后可以對(duì)不同老師的能力進(jìn)行排序,有需求的時(shí)候,會(huì)根據(jù)這種排序去進(jìn)行動(dòng)態(tài)的調(diào)度。這里面就有啟發(fā)性搜索的算法。接下來(lái)我們就講精益工程里面經(jīng)常用的庫(kù)存模型,把它用到1V1時(shí)答疑里面去,這個(gè)模型叫做Make toOrder,就是按需求去生產(chǎn)。
生產(chǎn)系統(tǒng)里面基本上有三個(gè)主要角色。首先是協(xié)調(diào)管理和調(diào)度的人員,我們現(xiàn)在是用95%的自動(dòng)化加5%的人工去進(jìn)行協(xié)調(diào)管理,其目的就是為了調(diào)整老師跟學(xué)生之間的匹配關(guān)系。老師答疑的供應(yīng),可類比為庫(kù)存,整個(gè)系統(tǒng)不斷生產(chǎn),老師會(huì)不斷出來(lái),如果庫(kù)存積壓的話,有庫(kù)存成本。
學(xué)生答疑的需求,可類比為市場(chǎng)需求,如果市場(chǎng)的需求不能得到滿足的話,那收入就會(huì)流失,如果需求太少的話,整個(gè)系統(tǒng)也跑不起來(lái)。這樣的系統(tǒng)建立一個(gè)數(shù)學(xué)模型,X代表著庫(kù)存大小,γ 1、γ 2代表著老師到來(lái)的頻次、學(xué)生到來(lái)的頻次。這就是一個(gè)數(shù)學(xué)問(wèn)題了。
我們把它建成一個(gè)Markov過(guò)程,這是實(shí)實(shí)在在放在后臺(tái)調(diào)度的一個(gè)模塊。然后可以把Markov過(guò)程想象成為狀態(tài)機(jī),有不同的狀態(tài),每個(gè)狀態(tài)可以互相跳變,但是這個(gè)跳變有一定的概率。我們可以去模擬各種各樣稀奇古怪的分布,老師的分布不一定是正態(tài)分布或者指數(shù)分布那樣工正,可能是雙峰值、后尾的等。為了預(yù)測(cè)比較好的準(zhǔn)確度,用了非常特殊的一個(gè)分布區(qū)域?qū)λM(jìn)行建模。
建模之后,我們就可以做隊(duì)列的模型。老師進(jìn)來(lái),服從這樣一個(gè)Markov過(guò)程,學(xué)生到來(lái),服從另外一個(gè)Markov過(guò)程,它的參數(shù)是不一樣的。學(xué)生過(guò)來(lái)之后,如果有老師在等待隊(duì)列里面,他們就可以匹配,形成服務(wù)的一個(gè)對(duì)接,這就是一個(gè)好的開(kāi)始。有了剛才Markov過(guò)程,接下去就是列出一大堆平衡方程,總共大概有幾十萬(wàn)到一百萬(wàn)的平衡方程,基本上是描述各種狀態(tài)之間的跳變。
然后再加歸一化條件,所有的概率的核等于1。接下去就可以解線性方程,最終得到一個(gè)非常有意思的結(jié)果,就是隊(duì)列的一個(gè)分布、老師的概率,隊(duì)列里面有兩個(gè)老師的概率,有三個(gè)老師的概率,再細(xì)化一點(diǎn),就是隊(duì)列里面輔導(dǎo)立體幾何的老師在等待的概率、輔導(dǎo)函數(shù)的五個(gè)老師在等待的概率。就可以幫我們推導(dǎo)運(yùn)籌學(xué)的收益優(yōu)化的模型。
這是非常簡(jiǎn)單的版本,它主要包括幾個(gè)模塊。一個(gè)是答疑總量,這個(gè)是正向的,答疑總量越大,我們收益率越高,還有答疑評(píng)分越高的話,基本上來(lái)說(shuō)收益會(huì)更好。一個(gè)是提問(wèn)流失,是負(fù)向的,如果流失的提問(wèn),我們效益要緊逼。老師閑置也是負(fù)向的,這個(gè)也會(huì)打擊老師的積極性,然后再減去其他的成本,實(shí)際上還有很多很多其他的因素。
老師的實(shí)際可調(diào)配的量是小于最大的供給量的,即,最大不可能超過(guò)注冊(cè)老師的供應(yīng)量。然后就有一個(gè)非常有意思的調(diào)度策略,實(shí)際上相當(dāng)于滴滴司機(jī)排班這樣的策略,但是我們對(duì)老師有一定的干預(yù)能力。我們會(huì)從需求上預(yù)測(cè),大概在某個(gè)時(shí)間點(diǎn)需要多少老師,把它切為若干時(shí)間片,每個(gè)時(shí)間片需要多少老師。最后,會(huì)向老師推送一些信息,這個(gè)時(shí)間點(diǎn)你上線,有更多的單子,那老師就會(huì)來(lái)。這些信息最終歸結(jié)為最優(yōu)化的問(wèn)題,可以用很多的算法。
簡(jiǎn)言之,我們現(xiàn)在用了遺傳算法在做在線的優(yōu)化。遺傳算法簡(jiǎn)單時(shí)顯,實(shí)際上就是通過(guò)不斷的迭代、計(jì)算,把一些解不斷優(yōu)化,X1、X2、X3到X8就代表著每一個(gè)時(shí)間的一個(gè)片斷的一個(gè)排單量,然后通過(guò)兩種算子,一種是交叉,一種是編譯,不斷去形成更優(yōu)的排班。迭代很多次計(jì)算之后,總體的收益函數(shù)會(huì)不斷上升,直到比較好的結(jié)果。這個(gè)就是我們最終的排班策略。
為什么排班策略很重要,為什么調(diào)度策略非常重要?非常簡(jiǎn)單,這是一個(gè)速度決定著生死的市場(chǎng),如果沒(méi)法在很短的時(shí)間內(nèi)聚集足夠有用的數(shù)據(jù)量,我們是完不成數(shù)據(jù)采集的最終目標(biāo)的。如果爬坡速度夠快,那可以有足夠的數(shù)據(jù)量,去推進(jìn)下一步的業(yè)務(wù),把數(shù)據(jù)全部用起來(lái),可以做很多事情。如果沒(méi)有的話,基本上到后面就是會(huì)走向消亡,這個(gè)是非常殘酷的一個(gè)現(xiàn)實(shí)。
學(xué)霸君在收集20億左右拍照搜題的題目之后,接下去的目標(biāo)是一千萬(wàn)、非常高質(zhì)量的、1V1的視頻樣本。1V1視頻樣本是非常特殊的數(shù)據(jù),它只有一個(gè)人講、一個(gè)人問(wèn),然后只針對(duì)一道題。像手機(jī)講話,它非常垂直、非常精準(zhǔn),有大量的數(shù)據(jù)在圍繞它做一個(gè)標(biāo)注,比如有圖庫(kù)做支撐,有圖譜知識(shí)做支撐,拿這些東西去做語(yǔ)音的訓(xùn)練也好,去做知識(shí)的建模也好,都是非常有價(jià)值的。
最后能夠拿到現(xiàn)在國(guó)內(nèi)還沒(méi)有人擁有的垂直領(lǐng)域的教學(xué)模型。我們就把它放到計(jì)算系統(tǒng)里面。這個(gè)計(jì)算系統(tǒng)分為兩層。第一層是CPU跟GPU計(jì)算機(jī)群,現(xiàn)在很多的最優(yōu)化機(jī)器學(xué)習(xí)都放在這樣機(jī)群里面去算。但是機(jī)器不是萬(wàn)能的。我們搭建了人工自有系團(tuán)隊(duì),去標(biāo)注各種各樣的數(shù)據(jù),然后綜合起來(lái)。我們會(huì)不斷去提煉里面的模型。
數(shù)據(jù)庫(kù)主要有三個(gè),一是題庫(kù)、學(xué)生庫(kù)、老師庫(kù),二是更高層的拍題的一些記錄,三是1V1講題記錄,這是更高層的數(shù)據(jù)記錄。我們的數(shù)據(jù)挖掘工程師,不斷去做各種各樣的計(jì)算流,把它扔到這個(gè)平臺(tái)里,從各個(gè)側(cè)面去挖這樣的數(shù)據(jù),比如說(shuō)哪些題是更高頻的、這個(gè)學(xué)生需要問(wèn)什么問(wèn)題、這個(gè)學(xué)生以后三個(gè)月需要學(xué)習(xí)什么,這是知識(shí)性學(xué)習(xí)的問(wèn)題,等等。還有一些報(bào)表的結(jié)果。
小結(jié)
實(shí)際上我們是開(kāi)數(shù)據(jù)挖掘機(jī)的。
陳銳鋒,新加坡國(guó)立大學(xué)運(yùn)籌學(xué)博士,研究方向?yàn)榇笠?guī)模生產(chǎn)資源調(diào)度、供應(yīng)鏈庫(kù)存協(xié)調(diào)、運(yùn)輸系統(tǒng)的建模、生產(chǎn)系統(tǒng)的動(dòng)態(tài)控制。 2010年回國(guó)加入東南融通,任研發(fā)中心高級(jí)研發(fā)工程師、博士后,從事金融IT及風(fēng)險(xiǎn)模型研發(fā),負(fù)責(zé)業(yè)務(wù)流程和金融票據(jù)業(yè)務(wù)解決方案。 2012年加入廈門恒隆興公司、重慶恒隆興公司,任技術(shù)專家、部門經(jīng)理。 2013年投身學(xué)霸君,擔(dān)任研究負(fù)責(zé)人職務(wù),組建智能計(jì)算團(tuán)隊(duì),主攻文字識(shí)別、圖像算法和數(shù)據(jù)挖掘方向。帶領(lǐng)團(tuán)隊(duì)在國(guó)內(nèi)率先開(kāi)創(chuàng)同時(shí)適應(yīng)自然場(chǎng)景、復(fù)雜版式圖像拍照識(shí)別引擎,為搜題及1V1實(shí)時(shí)答疑業(yè)務(wù)奠定了技術(shù)基礎(chǔ)。同時(shí),將基于深度學(xué)習(xí)的文本挖掘技術(shù)引入產(chǎn)品,實(shí)現(xiàn)高效而智能化的知識(shí)導(dǎo)航。