商學(xué)院

多知商學(xué)院創(chuàng)辦于2017年，面向教育行業(yè)創(chuàng)業(yè)者、從業(yè)者、投資人，課程體系涵蓋系統(tǒng)課、專(zhuān)題課、大講堂，旨在連接行業(yè)頭部，直擊深度思考，提升商業(yè)認(rèn)知，催生自我迭代。

Open Talk

OpenTalk是多知組織的定期線下活動(dòng)，邀請(qǐng)行業(yè)細(xì)分賽道頭部選手，分享行業(yè)新趨勢(shì)、時(shí)下最前沿的觀點(diǎn)和玩法，提供線上、線下多維度互動(dòng)，也為多知讀者提供暢聊的見(jiàn)面機(jī)會(huì)。

拍照搜題和在線答疑，靠什么核心技術(shù)？

2016-06-24 14:46:15發(fā)布來(lái)源：InfoQ 作者：陳銳鋒

　　編者按：近兩年拍照答疑賽道一直備受關(guān)注，那么拍照答疑、在線答疑的技術(shù)核心究竟是哪些？學(xué)霸君研究負(fù)責(zé)人陳銳峰近日帶來(lái)了他的分享。

　　在教育倍受重視的今天，在線教育行業(yè)也發(fā)展的如火如荼。拍照搜題、在線答疑的核心技術(shù)究竟如何？在線教育行業(yè)背后的架構(gòu)又是怎樣？一起來(lái)看看吧！

　　從某種角度說(shuō)，我們可以做一些補(bǔ)充性，或者說(shuō)問(wèn)題降解、難度降解的事情。我們把學(xué)生某種學(xué)習(xí)行為數(shù)據(jù)用一種手段，比如拍照搜題、1V1答疑，還有很多其他的模塊，收集起來(lái)，進(jìn)行建模。然后做成各種各樣的模型，輸送給另外一個(gè)大腦。在這個(gè)過(guò)程中，我們就完成了部分知識(shí)或者記憶的傳輸。然后我們想做的是，利用他山之石來(lái)讓其他一些學(xué)生可以攻玉，這個(gè)就是學(xué)霸君要做的事情。

　　今天想跟大家分享的有幾點(diǎn)。首先簡(jiǎn)單介紹一下，我們的創(chuàng)業(yè)動(dòng)機(jī)，然后是開(kāi)始的第一步，即搜題的一些核心技術(shù)。另外，我還會(huì)講講1V1的實(shí)時(shí)答疑，這方面也有很多核心技術(shù)。

　　學(xué)霸君要做一件什么事？

　　首先，跟大家簡(jiǎn)單分享一下我們學(xué)霸君的簡(jiǎn)史。

　　

　　我們?cè)?012年11月開(kāi)始創(chuàng)建團(tuán)隊(duì)，摸索了一年，終于在2013年的10月1號(hào)懷著忐忑的心情，把第一版的拍照搜題的APP推送上線。我們是非常緊張的，因?yàn)槟菚r(shí)候，國(guó)內(nèi)還沒(méi)有太多這樣類(lèi)型的產(chǎn)品可以參考。它的實(shí)際效果、搜索命中率是怎么樣，都是個(gè)未知數(shù)。

　　等到第一版上線的時(shí)候，我們發(fā)現(xiàn)，用了一大堆非常裸、非常的低效的平平手段創(chuàng)造出來(lái)的OCR加搜題的模塊，能夠達(dá)到百分之四十幾的搜索命中率。我們覺(jué)得這個(gè)東西有戲。在那個(gè)之后，我們逐步迭代各種版本，到現(xiàn)在已經(jīng)發(fā)布了三個(gè)主要的文字識(shí)別版本，大概是93%左右的搜索命中率。到目前累計(jì)搜索接近20億次。每一道題的搜索，后面緊密連接一個(gè)電話號(hào)碼，就是學(xué)生注冊(cè)的時(shí)候填寫(xiě)的電話號(hào)碼。這有什么用呢？等一下我會(huì)跟大家分享一下。

　　在2015年9月1號(hào)，我們首推了實(shí)時(shí)答疑。然后第二波的征程就開(kāi)始了。中國(guó)學(xué)生比較靦腆，很多時(shí)候遇到問(wèn)題不敢問(wèn)、不想問(wèn)、不會(huì)問(wèn)。老師的情況是，在二三線城市的老師的薪酬并不是特別高，但是他們有一部分空閑時(shí)間。大部分中國(guó)的家長(zhǎng)都是望子成龍的，愿意付很多的錢(qián)投資在小孩的學(xué)習(xí)上，他自身又沒(méi)有時(shí)間和能力去輔導(dǎo)他。這樣，學(xué)生在有問(wèn)題的時(shí)候，沒(méi)法得到有效的解決。在這種情況下，我們就進(jìn)一步衍生了一個(gè)實(shí)時(shí)答疑的產(chǎn)品，把相隔千山萬(wàn)水的老師跟學(xué)生之間的距離變成了5秒。

　　我們的模式是，可以把它理解為在線教育的Uber，用手機(jī)APP去呼叫老師，呼叫服務(wù)。學(xué)生遇到題目不懂，任意一個(gè)位置的學(xué)生拿起手機(jī)來(lái)直接就拍，拍了之后，我們就會(huì)對(duì)他進(jìn)行識(shí)別，會(huì)搜索，把答案推出來(lái)。甚至有解析，解析非常重要。如果學(xué)生看不懂，呼叫一下老師，老師會(huì)跟學(xué)生互動(dòng)，他會(huì)用相應(yīng)的策略去講不一樣的解題思路。

　　我們用這個(gè)APP就做到這樣一個(gè)效果：老師拿題就講，學(xué)生不懂就問(wèn)，問(wèn)懂為止，真正做到今日難題今日斃。在這樣的模式下，我們所推崇的就是效率的提升，這是我們?cè)趯W(xué)習(xí)里面經(jīng)常不能得到滿足的一個(gè)比較大的問(wèn)題。怎么樣做到這些呢？

　　拍照搜題核心技術(shù)

　　接下來(lái)講核心技術(shù)。首先，為什么要去做大量的行為數(shù)據(jù)的采集。行為數(shù)據(jù)的采集實(shí)際上是學(xué)霸君在做的真正的內(nèi)容，拍照搜題、1V1答疑也只是采集數(shù)據(jù)的兩種手段。以后，我們還有其他的采集手段會(huì)逐步開(kāi)放出來(lái)。2012年、2013年創(chuàng)業(yè)初期，我們思考的一個(gè)問(wèn)題是，怎么樣去捕捉學(xué)生的大腦?？刂普摰淖鎺煚斒峭?，他對(duì)控制系統(tǒng)提出兩個(gè)指標(biāo)，一個(gè)是可觀，一個(gè)是可控。而學(xué)生的大腦是極度不可觀測(cè)、極度不可控制的一個(gè)系統(tǒng)。那怎么樣去觀察學(xué)生大腦里面的一些東西，并且勾勒出能力缺陷的空間呢？

　　我們討論了很久，決定從所有的書(shū)籍開(kāi)始入手。怎么樣去采集書(shū)籍的內(nèi)容，這個(gè)就最終導(dǎo)致我們花了很多精力去做拍照搜題的一個(gè)產(chǎn)品。有了一個(gè)idea之后，我們非常興奮，但是馬上就遇到一個(gè)坎，發(fā)現(xiàn)文字識(shí)別實(shí)在太難了。那時(shí)候我們還沒(méi)有專(zhuān)門(mén)的歐西亞團(tuán)隊(duì)，都是技術(shù)的小白。我們所搜集到的圖片都是亂七八糟的圖，有非常模糊的，有各種扭曲的。這個(gè)是技術(shù)難題，但是我們必須要解決。

　　我們就開(kāi)辟一條跑道，這個(gè)跑道非常曲折，在這條彎路上，先后探索了印刷體、中文識(shí)別、公式識(shí)別、英文識(shí)別、表格識(shí)別、圖像識(shí)別、自然語(yǔ)言處理、手寫(xiě)識(shí)別、卷面的版面分析，以及高并發(fā)的圖像的處理框架，這些都構(gòu)成了基礎(chǔ)識(shí)別團(tuán)隊(duì)。然后相應(yīng)的團(tuán)隊(duì)也已經(jīng)組建起來(lái)。

　　文字識(shí)別上，第一步要做的就是單個(gè)文字的識(shí)別。我們用的是深度學(xué)習(xí)的技術(shù)，從20億的虛擬字庫(kù)里面去進(jìn)行訓(xùn)練，最終的單字識(shí)別率現(xiàn)在是99.5%。考慮到里面有很多是模糊字，所以在清晰的情況下，基本上就是四個(gè)九到五個(gè)九左右級(jí)別的精度。這張圖顯示的是基本的技術(shù)結(jié)構(gòu)。模擬神經(jīng)網(wǎng)絡(luò)，有若干個(gè)輸入，輸入之后有正向的應(yīng)急信號(hào)，也有正向的增強(qiáng)信號(hào)，也有負(fù)向的抑制信號(hào)，所有信號(hào)疊加之后，有綜合的輸出。然后我們把所有的網(wǎng)絡(luò)用大概幾千萬(wàn)或者是幾百萬(wàn)個(gè)單元組合在一起。

　　分享一個(gè)題目。對(duì)于一張圖片，我們切割出來(lái)，一個(gè)字一個(gè)字，每個(gè)字首先做一次卷集，把它某種方向的一個(gè)特征提取出來(lái)。第二步做一次下采樣，把它變成一個(gè)更小的一個(gè)圖。第三步再做一次卷集，然后變成看不太清楚，但是反映了一些文字的高層特征的圖。第四步再做一次下采樣，會(huì)變成一個(gè)更小的圖，然后做一個(gè)全連接，這是一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。最終的輸出實(shí)際上是對(duì)所有字的自信度的打分。比如說(shuō)在這個(gè)結(jié)果里面，層次是91%的進(jìn)度，那么這個(gè)圖片對(duì)應(yīng)的就是層的一個(gè)輸出。

　　

　　然后我們還克服了若干其他的問(wèn)題?，F(xiàn)在完成了這樣的一個(gè)場(chǎng)景，就是我們可以把人眼基本上看不太清楚的東西，變成可以看見(jiàn)的東西。像這張圖里面，現(xiàn)在就可以把它浮現(xiàn)到可讀可識(shí)別這樣一個(gè)階段，這也是圍繞著圖像處理的一些手段。還有手寫(xiě)識(shí)別，在拍題搜題里面，它的出現(xiàn)概率不會(huì)很多，2%左右，但是這一塊的技術(shù)，對(duì)1V1答疑是一個(gè)基礎(chǔ)的技術(shù)。

　　先看一個(gè)結(jié)果。這是我們?cè)谑占臄z、拍照搜題出來(lái)的一個(gè)結(jié)果，里面的正確率基本上還可以，但是有一個(gè)錯(cuò)誤，這個(gè)錯(cuò)誤實(shí)際上導(dǎo)致了，數(shù)學(xué)引擎技術(shù)沒(méi)法完全波接這樣一個(gè)結(jié)果。如果這一套，這個(gè)字也識(shí)別對(duì)了，負(fù)一識(shí)別為負(fù)一的話，這道題在從數(shù)學(xué)引擎上是可解的。我們會(huì)進(jìn)入另外一個(gè)環(huán)節(jié)，就是對(duì)題目畫(huà)像。我們會(huì)把所有提干進(jìn)行一個(gè)拆解，然后把一些已知因素跟未知因素處理出來(lái)，做數(shù)學(xué)、語(yǔ)法素的應(yīng)用，最終把答案推理出來(lái)。

　　

　　說(shuō)了那么多，我來(lái)說(shuō)一下應(yīng)用。在1V1實(shí)時(shí)答疑里面，假設(shè)這樣一個(gè)場(chǎng)景，老師在講題的時(shí)候，上面會(huì)不斷顯示，最重要的是類(lèi)人腦的，或者沒(méi)有那么智能，而是一個(gè)某種程度上會(huì)思考的引擎，首先會(huì)分析老師的筆記。老師在上面畫(huà)了一張圖，我們會(huì)先做圖形的識(shí)別，它是一個(gè)立方體，有哪些虛線，哪些實(shí)線？

　　接下來(lái)會(huì)分析。比如說(shuō)在這里面它寫(xiě)了幾何法，后面寫(xiě)了一個(gè)向量法，幾何法跟向量法都可以觸發(fā)相應(yīng)的知識(shí)圖譜，這個(gè)知識(shí)圖譜是圍繞著題庫(kù)建立起來(lái)的另外一個(gè)知識(shí)體系?；蛘咚麑?xiě)了一條式子，在這種情況下，直接就把式子算出來(lái)了。

　　老師在講課的時(shí)候，他不是孤身作戰(zhàn)，他所講的內(nèi)容，得到我們的知識(shí)體系的支撐。然后會(huì)分析他需要什么，不斷為他聯(lián)動(dòng)一些要講的內(nèi)容。還有更重要的是，所有觸發(fā)在分析引擎的時(shí)候，我們會(huì)把數(shù)據(jù)收集下來(lái)，這個(gè)才是對(duì)我們最有價(jià)值的，老師怎么講、用了哪些素材，最終會(huì)進(jìn)入數(shù)據(jù)庫(kù)。

　　第四個(gè)，是智能版面分析引擎。接下去我們要做的事情會(huì)更有意思。所有的卷子、書(shū)籍，首先可以做校正，然后會(huì)做智能化的切割，一道題一道題切割出來(lái)。如果這道題是可以解的，那我們給它解出來(lái)，如果這道題是數(shù)據(jù)庫(kù)有的，我們從數(shù)據(jù)庫(kù)搜索出來(lái)。每道題的頻次、考分、重要性全部分析出來(lái)。然后所有學(xué)習(xí)數(shù)據(jù)，就可以幫助學(xué)生去更精準(zhǔn)投放時(shí)間，避免時(shí)間浪費(fèi)。我們通過(guò)圖像的切片，可以把整個(gè)任務(wù)切成一小塊一小塊，然后分發(fā)給圖像的云處理機(jī)群，做并發(fā)處理，最后把它拼接成綜合的結(jié)果，發(fā)送給相應(yīng)的處理終端。這個(gè)是我們?cè)频募軜?gòu)。

　　

　　1V1實(shí)時(shí)答疑核心技術(shù)

　　1V1實(shí)時(shí)答疑實(shí)際上可以類(lèi)比為一個(gè)Uber打車(chē)的模式。我們把它說(shuō)成是滴滴叫老師。這個(gè)模式一個(gè)核心技術(shù)，就是讓最合適的老師給一個(gè)學(xué)生講題。我們的老師不一定都是國(guó)家級(jí)優(yōu)秀老師，有很多老師在二三線城市耕耘了很多年，有不錯(cuò)的講課經(jīng)驗(yàn)，但是還沒(méi)有達(dá)到最頂級(jí)老師的水平。通過(guò)這樣的機(jī)制，讓老師不斷去提升在某個(gè)垂直知識(shí)點(diǎn)的熟練程度，不斷優(yōu)化，不斷優(yōu)化，不斷優(yōu)化。這個(gè)老師在某個(gè)曲折點(diǎn)上，他能講出比一級(jí)老師更嫻熟的內(nèi)容，這是我們的一個(gè)核心理念。

　　在調(diào)度上，我們有各種各樣的挑戰(zhàn)。首先老師的上線時(shí)間是不確定的，每一個(gè)老師上傳的板塊不一致，各地的考綱不同，講題方式也不同。學(xué)生是隨機(jī)提問(wèn)的，對(duì)價(jià)格的敏感程度不一樣，一線城市可能愿意多花點(diǎn)錢(qián)，二線城市可能對(duì)比較優(yōu)惠的策略更感興趣。對(duì)于獲得的結(jié)果期待也不同。

　　所以，我們對(duì)各種策略需要有一個(gè)智能化的控制。然后大家看到這個(gè)系統(tǒng)是簡(jiǎn)單的寫(xiě)照。如果一個(gè)學(xué)生有問(wèn)題，發(fā)起請(qǐng)求，然后進(jìn)入調(diào)度中心，這個(gè)調(diào)度中心會(huì)在問(wèn)題空間里面選取若干個(gè)老師，然后發(fā)送，最后老師接單，就是這樣一個(gè)流程。

　　隱藏的技術(shù)就由這個(gè)架構(gòu)體現(xiàn)。最底層的是知識(shí)模型，包括知識(shí)導(dǎo)航、知識(shí)圖譜。往上一層，包括學(xué)生畫(huà)像跟老師畫(huà)像兩塊的用戶畫(huà)像，當(dāng)然家長(zhǎng)畫(huà)像也是非常重要的。還有第三個(gè)，往上走就是預(yù)測(cè)算法。因?yàn)楣┬桕P(guān)系必須平衡，不平衡會(huì)導(dǎo)致整個(gè)系統(tǒng)崩潰，所以這塊也是非常重要的。最上面是偏運(yùn)籌學(xué)方面的工作，需要對(duì)老師的需求跟供應(yīng)進(jìn)行建模，然后做最優(yōu)化、智能的調(diào)度。

　　

　　現(xiàn)在我們已經(jīng)收集了接近20億次的學(xué)生提問(wèn)、幾千萬(wàn)左右的題目。我們使用自然語(yǔ)言理解，還有深度學(xué)習(xí)，對(duì)這些題目跟知識(shí)做梳理，然后把它整理成樹(shù)狀的結(jié)構(gòu)。比如說(shuō)高中數(shù)學(xué)，現(xiàn)在有七大板塊，22個(gè)章節(jié)，550個(gè)知識(shí)點(diǎn)，三千多個(gè)題型，根據(jù)各地的考綱的不同，會(huì)有不同的版本，然后這些版本會(huì)導(dǎo)致問(wèn)題更細(xì)致化。

　　但是整體的思想是，建成一個(gè)樹(shù)狀結(jié)構(gòu)的導(dǎo)航體系，可以把它類(lèi)比為Uber系統(tǒng)的GPS，就用這個(gè)去分類(lèi)各種題目、學(xué)生畫(huà)像等。接下來(lái)看一下怎么去用這個(gè)東西。第一個(gè)問(wèn)題是，學(xué)生畫(huà)像是非常有意思的問(wèn)題，學(xué)生是千人千面，沒(méi)有兩個(gè)學(xué)生是完全一樣的，但是我們通過(guò)某種統(tǒng)計(jì)規(guī)律可以抽象出一些共性，然后就可以用來(lái)做很多事情。

　　這張圖給大家看一下我們怎么去分析學(xué)生的共性，怎么去用這種拍照搜題數(shù)據(jù)。每個(gè)學(xué)生在系統(tǒng)里面呈現(xiàn)出很多的數(shù)據(jù)，這個(gè)數(shù)據(jù)就是我們非常大的財(cái)富，然后不斷去挖掘里面隱含的信息。首先用剛才說(shuō)的那個(gè)GPS系統(tǒng)，就是知識(shí)的建模，把每一個(gè)題目的知識(shí)點(diǎn)抽樣出來(lái)，變成一個(gè)輸入，接上時(shí)間軸，把它扔進(jìn)一個(gè)深度神經(jīng)網(wǎng)絡(luò)，這時(shí)候就可以抽取學(xué)生的各種特征。然后接下去，我們可以做一些分析。

　　

　　舉個(gè)例子，可以看到學(xué)生的行為有個(gè)時(shí)間軸。學(xué)生的行為實(shí)際上是動(dòng)態(tài)變化的，不是固定的，今天學(xué)代數(shù)，明天學(xué)幾何，會(huì)不斷變化，學(xué)生所問(wèn)的問(wèn)題，或者說(shuō)需求的問(wèn)題不斷變遷。那在這種情況下，有一個(gè)現(xiàn)象是可以利用的，就是學(xué)生之間的共性。比如說(shuō)A學(xué)生，問(wèn)了若干系列的問(wèn)題，B學(xué)生問(wèn)了若干系列的問(wèn)題，后來(lái)來(lái)了個(gè)C學(xué)生，我們發(fā)現(xiàn)A學(xué)生B學(xué)生的共性非常強(qiáng)，那C學(xué)生接下去想問(wèn)的問(wèn)題或想了解的內(nèi)容，可以通過(guò)前面A學(xué)生B學(xué)生所形成的聚集去預(yù)測(cè)，這個(gè)對(duì)于分配老師、調(diào)度老師的策略上是非常有幫助的。

　　

　　老師的畫(huà)像跟學(xué)生的畫(huà)像是完全不一樣的兩個(gè)問(wèn)題。老師沒(méi)有學(xué)習(xí)階段的時(shí)間軸，很多老師各個(gè)年級(jí)都能講，但是他所講程度不太一樣。為了對(duì)老師進(jìn)行適當(dāng)?shù)姆诸?lèi)，我們用了這樣的策略，就是競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)。我們把所有的老師，大概有幾千到接近一萬(wàn)老師，映射到一張地圖，這是數(shù)據(jù)計(jì)算出來(lái)的地圖，用類(lèi)似于商級(jí)來(lái)區(qū)分不同老師的分類(lèi)，每種顏色代表著老師的一個(gè)類(lèi)，這個(gè)只是龐大地圖里面的一小塊。

　　比如，綠色代表著老師會(huì)講立體幾何，紅色代表會(huì)講立方體這一塊，等等。對(duì)所有老師建模之后，注冊(cè)一個(gè)新的老師，他講若干道題之后，開(kāi)始對(duì)這個(gè)老師進(jìn)行定位。比如，他講了立體幾何，可能還講了其他一些題，但是他立體幾何比較擅長(zhǎng)，那最終會(huì)把他定位到這一個(gè)區(qū)域里面，然后不斷讓他講這塊內(nèi)容。這個(gè)就是我們老師畫(huà)像的應(yīng)用，這體現(xiàn)了需求和供應(yīng)兩方面。

　　

　　需求供應(yīng)，我們需要去量化。接下一個(gè)核心技術(shù)就是需要去預(yù)測(cè)，每一個(gè)知識(shí)點(diǎn)、每一個(gè)知識(shí)板塊，有多少的供應(yīng)量，有多少的需求量，可以去設(shè)計(jì)老師的人源池的分配。每個(gè)地區(qū)供需關(guān)系不太一樣，這導(dǎo)致一個(gè)非常有意思的數(shù)學(xué)問(wèn)題，就是龐大數(shù)據(jù)集多時(shí)序的一個(gè)預(yù)測(cè)。每個(gè)老師都有一個(gè)相應(yīng)講題的頻次、數(shù)量等，幾個(gè)月下來(lái)，基本上可以估出它的模式，然后就可以對(duì)每個(gè)老師的上線時(shí)間進(jìn)行預(yù)測(cè)，對(duì)講題的供應(yīng)能力進(jìn)行預(yù)測(cè)。

　　

　　最后，根據(jù)歷史結(jié)果來(lái)估算老師未來(lái)的服務(wù)能力，然后可以對(duì)不同老師的能力進(jìn)行排序，有需求的時(shí)候，會(huì)根據(jù)這種排序去進(jìn)行動(dòng)態(tài)的調(diào)度。這里面就有啟發(fā)性搜索的算法。接下來(lái)我們就講精益工程里面經(jīng)常用的庫(kù)存模型，把它用到1V1時(shí)答疑里面去，這個(gè)模型叫做Make toOrder，就是按需求去生產(chǎn)。

　　生產(chǎn)系統(tǒng)里面基本上有三個(gè)主要角色。首先是協(xié)調(diào)管理和調(diào)度的人員，我們現(xiàn)在是用95%的自動(dòng)化加5%的人工去進(jìn)行協(xié)調(diào)管理，其目的就是為了調(diào)整老師跟學(xué)生之間的匹配關(guān)系。老師答疑的供應(yīng)，可類(lèi)比為庫(kù)存，整個(gè)系統(tǒng)不斷生產(chǎn)，老師會(huì)不斷出來(lái)，如果庫(kù)存積壓的話，有庫(kù)存成本。

　　學(xué)生答疑的需求，可類(lèi)比為市場(chǎng)需求，如果市場(chǎng)的需求不能得到滿足的話，那收入就會(huì)流失，如果需求太少的話，整個(gè)系統(tǒng)也跑不起來(lái)。這樣的系統(tǒng)建立一個(gè)數(shù)學(xué)模型，X代表著庫(kù)存大小，γ 1、γ 2代表著老師到來(lái)的頻次、學(xué)生到來(lái)的頻次。這就是一個(gè)數(shù)學(xué)問(wèn)題了。

　　

　　我們把它建成一個(gè)Markov過(guò)程，這是實(shí)實(shí)在在放在后臺(tái)調(diào)度的一個(gè)模塊。然后可以把Markov過(guò)程想象成為狀態(tài)機(jī)，有不同的狀態(tài)，每個(gè)狀態(tài)可以互相跳變，但是這個(gè)跳變有一定的概率。我們可以去模擬各種各樣稀奇古怪的分布，老師的分布不一定是正態(tài)分布或者指數(shù)分布那樣工正，可能是雙峰值、后尾的等。為了預(yù)測(cè)比較好的準(zhǔn)確度，用了非常特殊的一個(gè)分布區(qū)域?qū)λM(jìn)行建模。

　　建模之后，我們就可以做隊(duì)列的模型。老師進(jìn)來(lái)，服從這樣一個(gè)Markov過(guò)程，學(xué)生到來(lái)，服從另外一個(gè)Markov過(guò)程，它的參數(shù)是不一樣的。學(xué)生過(guò)來(lái)之后，如果有老師在等待隊(duì)列里面，他們就可以匹配，形成服務(wù)的一個(gè)對(duì)接，這就是一個(gè)好的開(kāi)始。有了剛才Markov過(guò)程，接下去就是列出一大堆平衡方程，總共大概有幾十萬(wàn)到一百萬(wàn)的平衡方程，基本上是描述各種狀態(tài)之間的跳變。

　　然后再加歸一化條件，所有的概率的核等于1。接下去就可以解線性方程，最終得到一個(gè)非常有意思的結(jié)果，就是隊(duì)列的一個(gè)分布、老師的概率，隊(duì)列里面有兩個(gè)老師的概率，有三個(gè)老師的概率，再細(xì)化一點(diǎn)，就是隊(duì)列里面輔導(dǎo)立體幾何的老師在等待的概率、輔導(dǎo)函數(shù)的五個(gè)老師在等待的概率。就可以幫我們推導(dǎo)運(yùn)籌學(xué)的收益優(yōu)化的模型。

　　

　　這是非常簡(jiǎn)單的版本，它主要包括幾個(gè)模塊。一個(gè)是答疑總量，這個(gè)是正向的，答疑總量越大，我們收益率越高，還有答疑評(píng)分越高的話，基本上來(lái)說(shuō)收益會(huì)更好。一個(gè)是提問(wèn)流失，是負(fù)向的，如果流失的提問(wèn)，我們效益要緊逼。老師閑置也是負(fù)向的，這個(gè)也會(huì)打擊老師的積極性，然后再減去其他的成本，實(shí)際上還有很多很多其他的因素。

　　老師的實(shí)際可調(diào)配的量是小于最大的供給量的，即，最大不可能超過(guò)注冊(cè)老師的供應(yīng)量。然后就有一個(gè)非常有意思的調(diào)度策略，實(shí)際上相當(dāng)于滴滴司機(jī)排班這樣的策略，但是我們對(duì)老師有一定的干預(yù)能力。我們會(huì)從需求上預(yù)測(cè)，大概在某個(gè)時(shí)間點(diǎn)需要多少老師，把它切為若干時(shí)間片，每個(gè)時(shí)間片需要多少老師。最后，會(huì)向老師推送一些信息，這個(gè)時(shí)間點(diǎn)你上線，有更多的單子，那老師就會(huì)來(lái)。這些信息最終歸結(jié)為最優(yōu)化的問(wèn)題，可以用很多的算法。

　　

　　簡(jiǎn)言之，我們現(xiàn)在用了遺傳算法在做在線的優(yōu)化。遺傳算法簡(jiǎn)單時(shí)顯，實(shí)際上就是通過(guò)不斷的迭代、計(jì)算，把一些解不斷優(yōu)化，X1、X2、X3到X8就代表著每一個(gè)時(shí)間的一個(gè)片斷的一個(gè)排單量，然后通過(guò)兩種算子，一種是交叉，一種是編譯，不斷去形成更優(yōu)的排班。迭代很多次計(jì)算之后，總體的收益函數(shù)會(huì)不斷上升，直到比較好的結(jié)果。這個(gè)就是我們最終的排班策略。

　　為什么排班策略很重要，為什么調(diào)度策略非常重要？非常簡(jiǎn)單，這是一個(gè)速度決定著生死的市場(chǎng)，如果沒(méi)法在很短的時(shí)間內(nèi)聚集足夠有用的數(shù)據(jù)量，我們是完不成數(shù)據(jù)采集的最終目標(biāo)的。如果爬坡速度夠快，那可以有足夠的數(shù)據(jù)量，去推進(jìn)下一步的業(yè)務(wù)，把數(shù)據(jù)全部用起來(lái)，可以做很多事情。如果沒(méi)有的話，基本上到后面就是會(huì)走向消亡，這個(gè)是非常殘酷的一個(gè)現(xiàn)實(shí)。

　　

　　學(xué)霸君在收集20億左右拍照搜題的題目之后，接下去的目標(biāo)是一千萬(wàn)、非常高質(zhì)量的、1V1的視頻樣本。1V1視頻樣本是非常特殊的數(shù)據(jù)，它只有一個(gè)人講、一個(gè)人問(wèn)，然后只針對(duì)一道題。像手機(jī)講話，它非常垂直、非常精準(zhǔn)，有大量的數(shù)據(jù)在圍繞它做一個(gè)標(biāo)注，比如有圖庫(kù)做支撐，有圖譜知識(shí)做支撐，拿這些東西去做語(yǔ)音的訓(xùn)練也好，去做知識(shí)的建模也好，都是非常有價(jià)值的。

　　最后能夠拿到現(xiàn)在國(guó)內(nèi)還沒(méi)有人擁有的垂直領(lǐng)域的教學(xué)模型。我們就把它放到計(jì)算系統(tǒng)里面。這個(gè)計(jì)算系統(tǒng)分為兩層。第一層是CPU跟GPU計(jì)算機(jī)群，現(xiàn)在很多的最優(yōu)化機(jī)器學(xué)習(xí)都放在這樣機(jī)群里面去算。但是機(jī)器不是萬(wàn)能的。我們搭建了人工自有系團(tuán)隊(duì)，去標(biāo)注各種各樣的數(shù)據(jù)，然后綜合起來(lái)。我們會(huì)不斷去提煉里面的模型。

　　數(shù)據(jù)庫(kù)主要有三個(gè)，一是題庫(kù)、學(xué)生庫(kù)、老師庫(kù)，二是更高層的拍題的一些記錄，三是1V1講題記錄，這是更高層的數(shù)據(jù)記錄。我們的數(shù)據(jù)挖掘工程師，不斷去做各種各樣的計(jì)算流，把它扔到這個(gè)平臺(tái)里，從各個(gè)側(cè)面去挖這樣的數(shù)據(jù)，比如說(shuō)哪些題是更高頻的、這個(gè)學(xué)生需要問(wèn)什么問(wèn)題、這個(gè)學(xué)生以后三個(gè)月需要學(xué)習(xí)什么，這是知識(shí)性學(xué)習(xí)的問(wèn)題，等等。還有一些報(bào)表的結(jié)果。

　　

　　小結(jié)

　　最后總結(jié)一下，學(xué)霸君是做什么的？我們是一家做教育行為數(shù)據(jù)采集的公司，采集的手段有圖像識(shí)別、手寫(xiě)識(shí)別、工人識(shí)別、文檔分析，還有音視頻數(shù)據(jù)的采集，還有識(shí)別。這是第一步。第二步，就是做分析。我們用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)去做各種題目的建模、人物的建模，還有整個(gè)調(diào)度模式的建模，然后把它用到體系里面，不斷推高數(shù)據(jù)采集的速度。最終，我們把它用在培訓(xùn)上，會(huì)跟其他人合作，或者是會(huì)有一些相應(yīng)的業(yè)務(wù)。

　　實(shí)際上我們是開(kāi)數(shù)據(jù)挖掘機(jī)的。

　　陳銳鋒，新加坡國(guó)立大學(xué)運(yùn)籌學(xué)博士，研究方向?yàn)榇笠?guī)模生產(chǎn)資源調(diào)度、供應(yīng)鏈庫(kù)存協(xié)調(diào)、運(yùn)輸系統(tǒng)的建模、生產(chǎn)系統(tǒng)的動(dòng)態(tài)控制。 2010年回國(guó)加入東南融通，任研發(fā)中心高級(jí)研發(fā)工程師、博士后，從事金融IT及風(fēng)險(xiǎn)模型研發(fā)，負(fù)責(zé)業(yè)務(wù)流程和金融票據(jù)業(yè)務(wù)解決方案。 2012年加入廈門(mén)恒隆興公司、重慶恒隆興公司，任技術(shù)專(zhuān)家、部門(mén)經(jīng)理。 2013年投身學(xué)霸君，擔(dān)任研究負(fù)責(zé)人職務(wù)，組建智能計(jì)算團(tuán)隊(duì)，主攻文字識(shí)別、圖像算法和數(shù)據(jù)挖掘方向。帶領(lǐng)團(tuán)隊(duì)在國(guó)內(nèi)率先開(kāi)創(chuàng)同時(shí)適應(yīng)自然場(chǎng)景、復(fù)雜版式圖像拍照識(shí)別引擎，為搜題及1V1實(shí)時(shí)答疑業(yè)務(wù)奠定了技術(shù)基礎(chǔ)。同時(shí)，將基于深度學(xué)習(xí)的文本挖掘技術(shù)引入產(chǎn)品，實(shí)現(xiàn)高效而智能化的知識(shí)導(dǎo)航。

相關(guān)閱讀

拍照搜題和在線答疑，靠什么核心技術(shù)？

多知新書(shū)開(kāi)售，共赴教育+AI新紀(jì)元
兩部《教育科技這一年》重磅發(fā)售！

感谢您访问我们的网站，您可能还对以下资源感兴趣：

粗大猛烈进出高潮视频_99热精品人妻无码_亚洲精选视频_无码动漫精选在线播放

成全动漫视频在线观看视频二区制服人妻中文字幕舌头伸进我下面好爽动态图_国产v欧美v日本v韩国_国产αv天堂在线观看免费_成人无码视频日韩一区二区三区国产