助力健康中国,国内首个中文医疗信息处理挑战榜正式发布传媒

/ / 2015-10-25
允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 近日,由中国中文信息学会医疗健康与生物信息处理专业委员会发起的...

近日,由中国中文信息学会医疗健康与生物信息处理专业委员会发起的 中文医疗健康信息处理挑战榜-CBLUE(Chinese Biomedical Language Understanding Evaluation) 正式上线了,这是 国内首个公开的中文医疗自然语言处理领域benchmark,榜单的推出将会促进医疗领域数据科技的发展,对医疗人工智能技术的发展和创新起着重要意义。

为什么医疗文本需要进行自然语言处理?

先简单介绍下什么是自然语言处理,自然语言处理简称NLP(Natural Language Processing),是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,是人工智能的一个重要子方向。自然语言处理技术已经在各行各业中得到了广泛应用,如智能司法、智慧医疗等。

完成病历信息结构化是否就足够了呢?假如我们要统计一个区域内患有“2型糖尿病”的患者总数, 实际会面临到的问题是对于临床上同一种诊断、手术、检查、化验等,医生往往会有成百上千种不同的写法,以“2型糖尿病”为例,其它可能的写法有“Ⅱ型糖尿病”,“糖尿病(2型)”等,如果要准确统计到“2型糖尿病”的患者总数,就需要将不同的叫法都映射到同一个标准的名称上,如ICD(International Classification of Disease)编码,这个过程我们称为医学术语标准化,也是需要NLP技术来支持的。

除了上述提到的结构化和标准化之外,NLP技术还在医学检索、互联网在线问诊、体检报告解读等多个场景中发挥着重要作用。

为什么要建设中文医学标准数据集?

人工智能发展的三要素是数据、算力和算法,“数据”是最基础的环节,如果把人工智能比作是火箭,那数据就是火箭发射的燃料,以计算机视觉(CV)为例, ImageNet[1] 的推出极大促进了CV技术的发展。

医学人工智能技术要取得发展当然也离不开标准数据集的建设,但建设过程中也面临诸多难点:首先是医疗数据涉及到权属和合规问题,要求在绝对安全的前提下才可以被使用,这使得医学数据的获取成本非常高;其次医学是一门专业性很强且非常严谨的科学,数据的规范制定以及标注均需要专家的参与,因此数据集的构建比较耗时,这也会限制数据集的规模。

国外的医疗信息化进程起步较早,在标准数据集的建设和规范制定上比较领先。随着国家人工智能战略的推进,国内医疗AI产业在近年来也取得了快速发展。

在医疗NLP数据集建设方面,中国中文信息学会的两个旗舰会议CHIP(China Health Information Processing Conference)和CCKS(China Conference on Knowledge Graph and Semantic Computing)每年都发布医疗信息处理相关的学术评测比赛,此外一些竞赛平台如阿里云天池也会不定期举办一些医疗AI比赛,这些评测数据集均有效促进了相关领域的技术发展,并吸引了更多研究者对医疗AI领域的关注。然而这些数据集一般在比赛结束之后就不再开放下载,这对数据集的获取以及后续的研究均造成了一定的困难。 如果能够集中维护这些数据集并授权开放下载使用,对推动医学NLP社区的发展将会有着积极的意义

近年来预训练语言模型技术(如 BERT[2] )成为NLP领域的研究热点,一个重要原因是预训练语言模型泛化性好,在很多NLP下游任务上均取得不错的性能。 同时得益于预训练语言模型技术的发展,催生出一批多任务benchmark榜单,代表性的工作是 GLUE[3] 。多任务榜单的设立重在考察模型的泛化能力,因此又促进了预训练语言模型技术的发展。

CBLUE榜单是什么?

CBLUE就是在这样的背景下产生的,是由中国中文信息学会医疗健康与生物信息处理专业委员发起,由阿里云天池平台承办,并由北京大学、医渡云(北京)技术有限公司等开展智慧医疗研究的单位共同协办。

榜单上线后得到了学界、医界和业界的广泛关注,来自浙江大学软件学院的研究生小刘表示,自己从事的研究方向是医疗大数据分析, CBLUE榜单的推出刚好解决了研究过程中缺乏标准数据集的难题,并且榜单中有部分任务是自己之前没有涉及过的,极大的开拓了自己的技术视野。小刘还注意到榜单的提交单位中除了高校实验室以外,还有很多国内知名的医疗AI企业和医学院所,如协和医学院,表明了CBLUE挑战榜在行业中被广泛认可,同时能和这么多知名机构同台竞技也让自己更有动力在医疗AI领域深耕。

      
      1
      联系我们