在做題庫和教學(xué)產(chǎn)品時有哪些經(jīng)驗(yàn)?面向K12的題庫產(chǎn)品如何積累有效數(shù)據(jù)?現(xiàn)在的數(shù)據(jù)是否能支撐起人工智能在教育領(lǐng)域的應(yīng)用?1對1教學(xué)有哪些問題,要如何解決?近日,李行武接受了愛分析專訪,對這些問題交流了自己的看法。

學(xué)吧課堂李行武:粗粒度的個性化是偽個性化

2017-03-22 14:06:52發(fā)布     來源:愛分析    作者:東起  

  調(diào)研 | 凱文 東起

  撰寫 | 東起

  學(xué)吧課堂創(chuàng)始人&CTO李行武畢業(yè)于清華大學(xué)計算機(jī)系,在校期間曾在Intel、微軟亞洲研究院和搜狗實(shí)習(xí),畢業(yè)后參與兩家公司創(chuàng)業(yè),后加入奇跡通訊擔(dān)任CTO,2013年進(jìn)入教育領(lǐng)域,創(chuàng)立了博學(xué)慎思教育科技有限公司。

  公司旗下產(chǎn)品學(xué)吧課堂,是一款針對中學(xué)數(shù)學(xué)的練習(xí)產(chǎn)品;在積累了約200萬用戶和7億條做題數(shù)據(jù)后,開始推出教學(xué)服務(wù),其基于教學(xué)導(dǎo)航系統(tǒng)的1對1輔導(dǎo)產(chǎn)品已上線內(nèi)測。

  在做題庫和教學(xué)產(chǎn)品時有哪些經(jīng)驗(yàn)?面向K12的題庫產(chǎn)品如何積累有效數(shù)據(jù)?現(xiàn)在的數(shù)據(jù)是否能支撐起人工智能在教育領(lǐng)域的應(yīng)用?1對1教學(xué)有哪些問題,要如何解決?近日,李行武接受了愛分析專訪,對這些問題交流了自己的看法。

  題庫產(chǎn)品篇

  

  愛分析:14年的時候推出了虛擬老師,當(dāng)時做這個產(chǎn)品有哪些技術(shù)難點(diǎn)?

  李行武:兩個難點(diǎn)吧,第一個是內(nèi)容生產(chǎn),一道題能有這么多變化,這些內(nèi)容不可能是合成出來的,所以實(shí)際上是在事先錄好了大量的有關(guān)聯(lián)的十幾秒到幾十秒的短視頻,組成一個巨大的內(nèi)容樹;第二個是如何帶學(xué)生走出一條路徑來,這條路徑拼出來就是這道題,這個過程其實(shí)就是人腦思考的過程,需要去模擬這個過程。

  愛分析:后來是如何解決第二個難點(diǎn)的?

  李行武:一開始沒有什么特別好的辦法,更多的是像大家說的,你得去理解這個事情。今天AI的概念大行其道,大部分都是偽的。

  它從中長期來看是靠數(shù)據(jù)驅(qū)動的,但它早期不是,尤其在這個場景中,因?yàn)槟銢]有數(shù)據(jù)驅(qū)動算法,所以它極大程度上是基于策略的,就像教小朋友下跳棋,你說第一步走這個,如果他走了這步,你就走這步,這是最簡單的策略,但實(shí)際會復(fù)雜很多。這相當(dāng)于要把人思考的策略用機(jī)器實(shí)現(xiàn),所以更多的是基于對上課這件事情的理解,這就是你去上了課才會知道的。

  愛分析:所以目前AI在教育領(lǐng)域還是偽概念?

  李行武:看你怎么定義了,這個講起來比較細(xì),要看不同的場景。

  即使在練習(xí)場景,所有的做題產(chǎn)品講的故事都是一樣的,會根據(jù)同學(xué)們的做題情況推送適合的題,使做題更加高效,這個故事邏輯是成立的,但不謙虛的講,可能在第一階段只有我們做到了。

  這其實(shí)也是我們轉(zhuǎn)型做做題產(chǎn)品的一個非常重要的原因。

  15年我們在轉(zhuǎn)型的時候,去看市面上已經(jīng)滿街的做題產(chǎn)品了,但是你會發(fā)現(xiàn)沒有一家起來了,做題產(chǎn)品沒有人用。一個品類都沒有做出來的時候,它只有兩種情況:一個是這個事本身錯了,一個是大家沒找到路。我們的判斷是這事沒錯,因?yàn)樵诰€教育真能成立的話,學(xué)練測這重要的三大場景,一定都會在線化,所以一定是存在在線做題這樣的事情的。那么問題出在哪?就去找問題,解決。

  愛分析:那問題出在哪呢?

  李行武:有一個很簡單的結(jié)論,做題不是小朋友的需求。中國的K12教育整體上是反人性的,這也是K12領(lǐng)域最難的部分之一,就是它是一個反人性的行業(yè);所有偉大的產(chǎn)品都是順應(yīng)人性的,你如何在一個反人性的領(lǐng)域做出一個有用戶活躍度的產(chǎn)品。

  那同學(xué)們?yōu)槭裁床粣蹖W(xué)習(xí)?咱們最終要對學(xué)習(xí)有幫助其實(shí)就是兩件事,傳統(tǒng)行業(yè)早有定論,第一是學(xué)習(xí)動力問題,第二是學(xué)習(xí)方法問題。如果優(yōu)先選一個解決,那肯定是學(xué)習(xí)動力問題。

  回到大的邏輯,互聯(lián)網(wǎng)對一個行業(yè)產(chǎn)生所謂巨大的影響,一定是解決行業(yè)一些根本性的問題,絕對不是細(xì)枝末節(jié)的;如果在線教育這個命題成立的話,它一定是要最終解決大問題,那行業(yè)的大問題也有定論,其中一個就是學(xué)習(xí)動力問題,影響學(xué)習(xí)動力的原因其實(shí)也有結(jié)論了,叫做累計的挫敗感。

  這是同學(xué)們不愛學(xué)習(xí)的核心原因,解決它的方案是讓它進(jìn)入正循環(huán)。所以我們當(dāng)時就沿著這個思路去做了學(xué)吧課堂。

  愛分析:解決學(xué)習(xí)動力問題,學(xué)吧課堂是怎么做的?

  李行武:大家都喜歡做的是有成就感的事情,落地到做題上就是這題我剛好會做,所以你要出他會做的題。同時,我們把整個評價體系改了,我們營造了一個“學(xué)渣“的結(jié)界。

  比如我舉一個小的點(diǎn),我們分很多區(qū),一萬人一個區(qū),我們每個區(qū)的排行榜前十名可能只有兩個是“學(xué)霸”,剩下八個是“學(xué)渣”,為什么呢?咱們一起做題,因?yàn)槟闶菍W(xué)霸,所以你的題是競賽題,而我的是剛好會做的簡單的題,咱倆都做對了,你得5分我也得5分,所以誰在前面真不好說。

  

  愛分析:那在產(chǎn)品設(shè)計和技術(shù)層面,是怎么實(shí)現(xiàn)的?

  李行武:對于練習(xí)產(chǎn)品,首先要解決的問題就是有人用,并且能活躍的用起來,核心就是剛才講的動力問題。這靠兩件事,第一是用很特殊的激勵體系,第二是真正能夠出適合學(xué)生的題目。

  對于激勵體系,外界有些聲音說學(xué)吧是靠給學(xué)生補(bǔ)貼,那這個我們完全不避諱,就是同學(xué)們來我們這做題是有收入的,但問題是收入是多少呢,就是一個學(xué)生他幾乎天天來做題,而且還要盡量把題做對的情況下一個月最多獲得價值5塊錢的東西。

  所以我會問大家說,給你5塊錢你愿意每天來做對幾十道題嗎?而且退一步講,對家長來說,我去問家長,你給我5塊錢,我讓你孩子天天做題,你干不干?這件事本身是有價值的,所以不單純是靠激勵。

  還有另外一件事在輔助它就是出題,你要讓激勵體系配合看不見的出題,才有可能使你的模型最終成立,獲得持續(xù)的活躍用戶,這是我們在2016年所謂寒冬能拿到錢的主要原因,我們在一個大家覺得幾乎已經(jīng)判死刑的賽道上做出一個完全不一樣的產(chǎn)品,雖然看起來是一樣的。

  愛分析:出適合的題的基礎(chǔ)是打標(biāo)簽,在這方面有哪些經(jīng)驗(yàn)?

  李行武:我們認(rèn)為這件事的關(guān)鍵點(diǎn)在于顆粒度,粗粒度的個性化是偽個性化。比如把“集合的運(yùn)算”這個考點(diǎn)作為標(biāo)簽,有教學(xué)經(jīng)驗(yàn)的老師來看就會感覺到它有多粗;如果以這樣的詞作為標(biāo)簽,那中學(xué)數(shù)學(xué)大概也就是百這個量級的知識點(diǎn),我們的知識點(diǎn)是在千這個量級。

  當(dāng)顆粒度粗的時候,機(jī)器是分辨不出來的。比如大家都知道AI最近的突破都是在視覺領(lǐng)域,最經(jīng)典的例子就是識別貓,機(jī)器怎么認(rèn)識一張圖是貓?因?yàn)槟憬o了它10000張圖片去做訓(xùn)練,但是你想象一下,如果我給的這10000張圖片全是打馬賽克的貓,它能認(rèn)出來嗎?

  那問題在哪呢,也有人反問我,如果我給它10000張高清的貓,它會不會認(rèn)的更好,好像也沒有,所以就是這個度到底在哪里?當(dāng)你定性分析完,定量去分析,到底什么樣算是正好到這個要求了,這就是應(yīng)用決定的,應(yīng)用到什么級別,你的數(shù)據(jù)就要到什么級別。這是很粗層的一個理解。

  所以打標(biāo)簽這件事情,關(guān)鍵在于能打的多細(xì)多準(zhǔn),當(dāng)你到某個量級以前,打多少都是廢的,過不了那個閾值。

  愛分析:那目前打標(biāo)簽有哪些方式呢?

  李行武:現(xiàn)在行業(yè)通行的做法是找?guī)装賯€大學(xué)生,按計件的方式進(jìn)行,因?yàn)槟悴豢赡苷颐麕焷泶驑?biāo)。問題就在于如何保證這些人的輸出是穩(wěn)定的,質(zhì)量可靠的。

  這件事是需要深刻理解知識,只依靠做工程的人是做不出來的,你要想辦法去把這個標(biāo)做好的分解。打標(biāo)的過程其實(shí)就是要去區(qū)分,是在多個之中去做選擇。那怎么才能盡量選擇對呢?其實(shí)就是你的選項(xiàng)越正交,越容易選出來。

  再比如說你在流程設(shè)計上,比如一個人打是不可信的,通常至少三個人打,其中兩個人一樣就過,這是個簡單有效的策略。那你說我可不可以先讓兩個人打,當(dāng)兩個人不一樣的時候,再讓第三個人打,這個和剛才那個的區(qū)別就在于人效比差了1.5倍,因?yàn)榇蟛糠謺r候會有兩個人打一樣的。

  所以最終的結(jié)果是,通過對工程以及領(lǐng)域本身的理解,使得你做這件事情的效率遠(yuǎn)遠(yuǎn)高于別人。

  舉個例子,我們的查錯成本大概是別人的1/50以下,我們是這么干的:由于我的同學(xué)們已經(jīng)相對認(rèn)真的做題了,題目從老師那邊經(jīng)過初步的過濾之后,會小范圍的推給認(rèn)真做題的同學(xué),這些人就會有反饋,如果到了一定的閾值,題目會自動打回。

  如果比如100個人都沒問題,就進(jìn)入第二階段,再過了,就可以推出去了,這會使整個查錯的過程發(fā)生本質(zhì)的變化。所以在內(nèi)容這件事,核心是你怎么讓效率遠(yuǎn)遠(yuǎn)高于別人。

  愛分析:其它公司這么做似乎也不是很難?

  李行武:所以問題在于這個過程是聯(lián)動的。

  當(dāng)我們在講數(shù)據(jù)的時候,除了內(nèi)容數(shù)據(jù),還有一個很重要的就是行為數(shù)據(jù),也就是同學(xué)們做題的數(shù)據(jù)。

  做題數(shù)據(jù)有一個重要的指標(biāo),叫做正確率,如果正確率很差,那不管是一億條還是十億條,讓機(jī)器去訓(xùn)練,機(jī)器只可能有兩個結(jié)論:一是從單題來看,這題很難;二是從任何一個個體來看,全是“學(xué)渣”。所以這個數(shù)據(jù)不僅沒辦法讓你判斷這道題是對還是錯,更沒有辦法判斷這道題的難度,更不要說去計算。

  沒有用戶就沒有數(shù)據(jù),沒有數(shù)據(jù)就不能很好的給用戶出題,然后就更沒有用戶。我的結(jié)論是說,大家可以用錢先去解決用戶的問題,在跑起來進(jìn)入正循環(huán)之后,你的出題會比較好,用戶感知就會比較好,然后用戶的做題行為就會相對好,使得數(shù)據(jù)更好。

  那怎么樣進(jìn)入正循環(huán)?第一是啟動點(diǎn),第二個是收斂速度。

  愛分析:收斂速度怎么理解?

  李行武:所有產(chǎn)品都會面臨所謂冷啟動問題,就是不了解用戶。關(guān)鍵在于你能在多短時間內(nèi)跨過那個閾值,做到還比較適合用戶,使他開始用起來。如果你說要在用戶做100道題之后,才有辦法出適合的題,那大部分人可能還沒到100題就已經(jīng)走了,所以啟動靠外部動力,在啟動那件事情沒有消失之前要收斂。

  教學(xué)產(chǎn)品篇

  

  愛分析:在練完成后還有個教的問題,只有教才能實(shí)現(xiàn)規(guī)?;杖耄瑢W(xué)吧課堂在這方面有哪些考慮?

  李行武:練是不能完成最后的商業(yè)模式的,只是路徑的一環(huán),我們已經(jīng)開始從練走向教了。

  教書從形式上就是班課和1對1。我們認(rèn)為在線教學(xué)這件事情,一定是1對1先起,它有個很重要的邏輯,就是從需求角度來看,大部分家長不相信學(xué)生可以在沒有監(jiān)督的情況下,在電腦前聽一個老師講大課聽一個小時;但是1對1他又覺得有戲,因?yàn)?對1老師就帶你一個,還有視頻回放和雙方錄音,這是一個看似小但是決定性的點(diǎn)。

  所以第一個結(jié)論是要從1對1切,而且1對1也正好跟我們的大邏輯一脈相承。

  愛分析:1對1的問題也被討論的很多了,你怎么看?

  李行武:傳統(tǒng)行業(yè)1對1的問題,其實(shí)也有非常明確的定論就是做不大,從財務(wù)角度看它的成本結(jié)構(gòu)很痛苦。

  成本問題的根源在于三點(diǎn),獲客,場地和教師。對于在線教學(xué),場地的問題沒有了,現(xiàn)在大家關(guān)注最多的就是獲客,那么獲客的問題在我們看來原因只有兩個:上游流量的集中化和服務(wù)同質(zhì)化。

  流量集中化這個事情比較好理解,大趨勢擺在這里,所以流量成本會越來越高,我們今天看到大家的做法都是在流量端做文章,做法有幾種:

  第一種是沒有自有流量,就是傳統(tǒng)的靠買,新媒體矩陣也好,線下開體驗(yàn)店也好,都是想嘗試用一些方法去抓流量,但是這種方法最好的結(jié)果是短期有效。因?yàn)楸举|(zhì)上沒解決問題,一旦你找到了一個方法,大家就會立刻蜂擁而上,那你唯一的辦法就是不停的有創(chuàng)新,去抓一開始短暫的紅利。

  第二種是2B2C,先明確一點(diǎn)這個客是家長而不是學(xué)生,家長是一個很神奇的群體,我們把他稱作沒有用戶畫像,因?yàn)樗腥硕际羌议L,所以不存在一個聚集家長量的地方,但有一個特例是好未來的家長幫,當(dāng)然這是另外一個故事,我們不展開;除非是母嬰那個特殊的品類,那無非就是,一種是2B通過抓老師影響家長,還有一種是2C通過抓學(xué)生再去抓家長。

  但是各自面臨問題:2B的問題是說,因?yàn)樽吖⑿#栽谧錾虡I(yè)化的時候遇到的最大的風(fēng)險是政策風(fēng)險,這是一個非常難拿捏的度,如果要轉(zhuǎn)化成家長付費(fèi)的話,怎么過這關(guān)?當(dāng)然有一些做法,大邏輯的做法就是把這個流量導(dǎo)成另外一個流量,脫離出來。2C的問題是孩子的需求和家長的需求是對立的。

  而服務(wù)同質(zhì)化,因?yàn)?對1教學(xué)發(fā)展到今天,最大的坑就在于無法做到規(guī)模化的品控,品控的核心是控制下限,你要保證輸出的下限比較高。

  愛分析:學(xué)吧課堂打算怎么做?

  李行武:我們?nèi)ツ曜鲎鲱}產(chǎn)品,本源的切入點(diǎn)是數(shù)據(jù);但是我們在商業(yè)化思考的時候,發(fā)現(xiàn)了一個附帶的好處:當(dāng)做題產(chǎn)品解決了活躍度問題之后,它成為了一種新的流量池,這個轉(zhuǎn)化是比較高的,這就是我們從流量端去解決獲客的一個點(diǎn)。那這還是偏戰(zhàn)術(shù)層面,因?yàn)楫?dāng)你有了用戶量,開始考慮后端上課服務(wù)的時候,會發(fā)現(xiàn)獲客問題的本源還是在服務(wù)端。

  我們在服務(wù)端的方法還是靠系統(tǒng),稱之為教學(xué)導(dǎo)航系統(tǒng)。具體形態(tài)比如講義,真的是根據(jù)學(xué)生情況來出,因?yàn)榱髁縼碜晕覀冏约旱淖鲱}用戶,你對他是非常熟悉的;然后在教的時候這個講義會告訴教師具體的安排。這個東西做出來就可以做過程管控了,你可以很好的去做一些定量的評價,老師這堂課上的好還是不好,有沒有按你的計劃走。

  無論是做出自己新的流量池,還是做好品控,都會使成本降低。成本的本源其實(shí)是你的價值到底在哪里,1對1行業(yè)在傳統(tǒng)中是營銷驅(qū)動的,而機(jī)構(gòu)沒有在教學(xué)本身這件事上提供價值,所以收不來這個錢。所以如果它能真的往健康的方向發(fā)展的話,一定是對教學(xué)這件事情提供了價值,比如說你讓老師借助系統(tǒng)把課上好。

  愛分析:對于教學(xué)產(chǎn)品的未來有哪些期待?

  李行武:未來教學(xué)我們認(rèn)為是兩個階段走,第一個階段是由于整個系統(tǒng)的介入,使得在不降低服務(wù)質(zhì)量的前提下,對服務(wù)提供者的要求極大下降,從而使服務(wù)提供者極大增加,解決供應(yīng)問題。

  第二階段是讓人借助系統(tǒng),使生產(chǎn)力數(shù)量級的放大。也就是今天一個老師,如果他真的個性化的去教,只能教十幾個孩子;但是未來我們希望可以做到,教師可以個性化的教幾百個孩子。今天老師可以通過大課教幾百個孩子,但是所有的孩子未來一定是個性化的,所以反個性化的大課會一直存在,但不會是主流。

(本文來源:愛分析,作者為東起)