當(dāng)前位置:財(cái)富500強(qiáng)首頁(yè) > 科技 > 新聞?wù)?/div>

微軟將開源數(shù)據(jù)集 提高機(jī)器的閱讀理解能力

來(lái)源于互聯(lián)網(wǎng) 2016年12月19日 閱讀(

微軟將開源數(shù)據(jù)集 提高機(jī)器的閱讀理解能力

據(jù)外媒報(bào)道,微軟將發(fā)布免費(fèi)的數(shù)據(jù)集來(lái)幫助機(jī)器創(chuàng)建更多的對(duì)話。

該數(shù)據(jù)集名為微軟機(jī)器閱讀理解數(shù)據(jù)集(簡(jiǎn)稱MS MARCO),包含有10萬(wàn)條英文查詢及對(duì)應(yīng)回答。用來(lái)幫助人工智能系統(tǒng)更好地理解人類語(yǔ)言。

微軟合作伙伴集團(tuán)項(xiàng)目經(jīng)理Rangan Majumder在周五的一篇博客中提到,微軟將免費(fèi)開放MS MARCO,并希望能夠與其他機(jī)構(gòu)合作來(lái)更好地提高機(jī)器的閱讀理解能力。

數(shù)據(jù)集中的資料來(lái)源于必應(yīng)搜索和Cortana,并做相應(yīng)的匿名處理。對(duì)問題的回答則是基于互聯(lián)網(wǎng)、人類手工編寫以及經(jīng)過驗(yàn)證的信息。這些查詢和回復(fù)將用于建立深度學(xué)習(xí)模型。

當(dāng)前,該數(shù)據(jù)集將對(duì)非商業(yè)用途的用戶提供免費(fèi)下載。同其他人工智能數(shù)據(jù)集開源計(jì)劃類似,微軟也將采用同樣的方式開源MS MARCO。

其中的一項(xiàng)是ImageNet,可用于訓(xùn)練圖像識(shí)別算法的圖片標(biāo)記數(shù)據(jù)庫(kù)。微軟此前在開發(fā)圖片識(shí)別技術(shù)時(shí)用到ImageNet,現(xiàn)在又用該數(shù)據(jù)庫(kù)來(lái)強(qiáng)化微軟計(jì)算機(jī)視覺API等產(chǎn)品。如果想了解更多有關(guān)MS MARCO的信息,可下載其研發(fā)團(tuán)隊(duì)發(fā)表的論文。該團(tuán)隊(duì)還在進(jìn)行另外一項(xiàng)挑戰(zhàn),用MARCO的數(shù)據(jù)來(lái)評(píng)估訓(xùn)練模型,而評(píng)估腳本也還在研發(fā)中。

這項(xiàng)開源計(jì)劃也是微軟進(jìn)一步發(fā)展其人工智能的舉重要措。微軟一直以來(lái)都在打造基于機(jī)器學(xué)習(xí)和人工智能的Azure云平臺(tái),同時(shí)在Office和Windows中也加入了一些人工智能的特性。本周早些時(shí)候,微軟推出了QnA Maker云服務(wù),用于降低開發(fā)者研制問答聊天機(jī)器人的難度。(Sherwood)

資訊整理:中國(guó)財(cái)富500強(qiáng)(m.cementmason.com)

免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無(wú)關(guān)。文中內(nèi)容僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。如用戶將之作為消費(fèi)行為參考,本網(wǎng)敬告用戶需審慎決定。本網(wǎng)不承擔(dān)任何經(jīng)濟(jì)和法律責(zé)任。