售前電話
135-3656-7657
售前電話 : 135-3656-7657
中文臨床醫(yī)學(xué)文本分詞與命名實(shí)體挑戰(zhàn)賽,是由北京愛(ài)數(shù)智慧和香港中文大學(xué)(深圳)聯(lián)合主辦,并獲得英特爾團(tuán)隊(duì)的大力支持。挑戰(zhàn)賽于9月2日正式開(kāi)啟注冊(cè)報(bào)名,整個(gè)賽程持續(xù)到10月28日止,頒獎(jiǎng)典禮將在由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦的2021中國(guó)計(jì)算機(jī)大會(huì)(CNCC)技術(shù)論壇“多模態(tài)在人機(jī)交互場(chǎng)景下的思考與挑戰(zhàn)”現(xiàn)場(chǎng)舉行。
本次NLP競(jìng)賽圍繞中文臨床醫(yī)學(xué)文本內(nèi)容,對(duì)醫(yī)療文本的分詞和命名實(shí)體進(jìn)行自然語(yǔ)言處理任務(wù),以醫(yī)療問(wèn)答為切入點(diǎn),推動(dòng)NLP技術(shù)創(chuàng)新,努力擴(kuò)展到更多應(yīng)用場(chǎng)景。
本次競(jìng)賽獎(jiǎng)金豐厚,面向社會(huì)各界開(kāi)放,歡迎全國(guó)高校學(xué)生、AI科技型企業(yè)和自然語(yǔ)言處理愛(ài)好者報(bào)名參加!
賽題背景
和眾多行業(yè)一樣,醫(yī)療行業(yè)是人工智能重要落地行業(yè),人工智能將轉(zhuǎn)變傳統(tǒng)醫(yī)療服務(wù)模式并走向智能化。現(xiàn)在新醫(yī)改大背景下,智慧醫(yī)療水平不斷提升,服務(wù)能力不斷增強(qiáng),患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)之間的溝通互動(dòng)愈加頻繁化和信息化。在實(shí)現(xiàn)智慧醫(yī)療過(guò)程中,人工智能對(duì)輔助治療、醫(yī)療文本分類等領(lǐng)域發(fā)揮著重要作用。使得最終提升治療效率、降低醫(yī)療成本、個(gè)性化醫(yī)療服務(wù)的目標(biāo)成為可能。
人工智能對(duì)醫(yī)學(xué)文本的識(shí)別離不開(kāi)自然語(yǔ)言處理(NLP)技術(shù),自然語(yǔ)言處理是人工智能領(lǐng)域的一個(gè)重要方向,科研領(lǐng)域一直沒(méi)有停止在NLP技術(shù)上創(chuàng)新步伐。自然語(yǔ)言處理主要應(yīng)用于機(jī)器翻譯、輿情監(jiān)測(cè)、觀點(diǎn)提取、文本分類、語(yǔ)音識(shí)別等方面。其中命名實(shí)體識(shí)別是文本挖掘系統(tǒng)中的一個(gè)重要的基礎(chǔ)步驟,命名實(shí)體識(shí)別的準(zhǔn)確程度是其他文本挖掘技術(shù)如信息提取或文本分類等的先決條件。
賽題任務(wù)
本次大賽的任務(wù)是參賽者對(duì)主辦方提供的中文臨床醫(yī)學(xué)病例樣本,進(jìn)行醫(yī)學(xué)文本分詞和命名實(shí)體的自然語(yǔ)言處理任務(wù)。數(shù)據(jù)類型均為中文臨床醫(yī)學(xué)病例文本數(shù)據(jù),該文本數(shù)據(jù)是已被標(biāo)注好的結(jié)構(gòu)化文本。希望參賽者結(jié)合當(dāng)下前沿自然語(yǔ)言處理和深度學(xué)習(xí)技術(shù),有效推動(dòng)人工智能在醫(yī)學(xué)文本領(lǐng)域應(yīng)用。
數(shù)據(jù)簡(jiǎn)介
本次比賽使用的原始醫(yī)療數(shù)據(jù)來(lái)源于中文醫(yī)療問(wèn)答語(yǔ)料庫(kù)。該醫(yī)療問(wèn)答語(yǔ)料庫(kù)包含約20萬(wàn)組從互聯(lián)網(wǎng)資訊平臺(tái)獲取的醫(yī)患問(wèn)答,涵蓋內(nèi)科、外科等共計(jì)15個(gè)科室,共計(jì)約4500萬(wàn)字。其中,每組問(wèn)答包括標(biāo)題、患者問(wèn)題、所屬科室、關(guān)鍵詞、以及平臺(tái)注冊(cè)醫(yī)生的回答等信息。該數(shù)據(jù)集可用于包括智能醫(yī)療問(wèn)答、自動(dòng)分診、關(guān)鍵詞抽取等多項(xiàng)中文自然語(yǔ)言處理任務(wù)。關(guān)于該語(yǔ)料庫(kù)的使用和下載等更多信息,請(qǐng)參考
。
在本次比賽中,比賽項(xiàng)目組織方從最基礎(chǔ)的自然語(yǔ)言處理任務(wù)出發(fā),關(guān)注醫(yī)療分詞和醫(yī)療術(shù)語(yǔ)標(biāo)注這兩個(gè)最基礎(chǔ)的自然語(yǔ)言處理任務(wù)。比賽項(xiàng)目組織方采用人工方式標(biāo)注了1000組醫(yī)患問(wèn)答中患者問(wèn)題和醫(yī)生回答部分的分詞和醫(yī)療術(shù)語(yǔ),共計(jì)約22萬(wàn)字,5500余句。其中醫(yī)療智能問(wèn)答,分詞部分基本采用賓州中文樹(shù)庫(kù)(即 Penn ,CTB5)的分詞規(guī)范,并在其基礎(chǔ)上針對(duì)中文醫(yī)療領(lǐng)域的語(yǔ)言特點(diǎn)對(duì)其稍加改進(jìn)。醫(yī)療術(shù)語(yǔ)部分,比賽項(xiàng)目組織方在借鑒了現(xiàn)有主流的中文醫(yī)療命名實(shí)體識(shí)別的標(biāo)注規(guī)范的基礎(chǔ)上,結(jié)合實(shí)際醫(yī)療診斷中存在的需求,定義了近20個(gè)類別的醫(yī)療術(shù)語(yǔ)(例如疾病、癥狀、病情程度、身體部位、科室、治療方案等),并以此為基礎(chǔ)標(biāo)注數(shù)據(jù),成為現(xiàn)存公開(kāi)中文醫(yī)療術(shù)語(yǔ)標(biāo)注數(shù)據(jù)中包含醫(yī)療術(shù)語(yǔ)類別最多的數(shù)據(jù)集。
本次比賽使用的樣本數(shù)據(jù)集和測(cè)試數(shù)據(jù)集將分批次發(fā)放,參賽選手需提交模型在最終的開(kāi)放測(cè)試集上的預(yù)測(cè)結(jié)果,用于評(píng)測(cè)模型的性能。
組隊(duì)規(guī)則
1. 原則上,本次競(jìng)賽以團(tuán)隊(duì)形式參與,每個(gè)團(tuán)隊(duì)不超過(guò)4個(gè)人。
2. 參賽團(tuán)隊(duì)在比賽過(guò)程中被要求提供個(gè)人身份信息,如郵箱、姓名、電話等,參賽者須保證提供信息真實(shí)性。
3. 競(jìng)賽所使用的數(shù)據(jù)必須是主辦方提供的數(shù)據(jù)集醫(yī)療智能問(wèn)答,不得使用外部數(shù)據(jù)。
競(jìng)賽議程
競(jìng)賽分前期報(bào)名準(zhǔn)備,正式競(jìng)賽、公布結(jié)果和最后頒獎(jiǎng)幾個(gè)環(huán)節(jié)。前期報(bào)名完成后,參賽者會(huì)加入競(jìng)賽微信群,比賽中遇到任何問(wèn)題都可通過(guò)微信群進(jìn)行咨詢。