数据和文本挖掘 BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型外文翻译资料

 2023-01-19 11:01

Bioinformatics, 36(4), 2020, 1234–1240

doi: 10.1093/bioinformatics/btz682 Advance Access Publication Date: 10 September 2019

Original Paper

Data and text mining

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Downloaded from https://academic.oup.com/bioinformatics/article-abstract/36/4/1234/5566506 by guest on 21 February 2020

Jinhyuk Lee 1,dagger;, Wonjin Yoon 1,dagger;, Sungdong Kim 2, Donghyeon Kim Sunkyu Kim 1, Chan Ho So 3 and Jaewoo Kang 1,3,*

1

,

1Department of Computer Science and Engineering, Korea University, Seoul 02841, Korea, 2Clova AI Research, Naver Corp, SeongNam 13561, Korea and 3Interdisciplinary Graduate Program in Bioinformatics, Korea University, Seoul 02841, Korea

*To whom correspondence should be addressed.

The authors wish it to be known that the first two authors contributed equally.

Associate Editor: Jonathan Wren

Received on May 16, 2019; revised on July 29, 2019; editorial decision on August 25, 2019; accepted on September 5, 2019

Abstract

Motivation: Biomedical text mining is becoming increasingly important as the number of biomedical documents rapidly grows. With the progress in natural language processing (NLP), extracting valuable information from bio-medical literature has gained popularity among researchers, and deep learning has boosted the development of effective biomedical text mining models. However, directly applying the advancements in NLP to biomedical text mining often yields unsatisfactory results due to a word distribution shift from general domain corpora to biomedical corpora. In this article, we investigate how the recently introduced pre-trained language model BERT can be adapted for biomedical corpora.

Results: We introduce BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining), which is a domain-specific language representation model pre-trained on large-scale biomedical corpora. With almost the same architecture across tasks, BioBERT largely outperforms BERT and previous state-of-the-art models in a variety of biomedical text mining tasks when pre-trained on biomedical corpora. While BERT obtains performance comparable to that of previous state-of-the-art models, BioBERT significantly outperforms them on the following three representative biomedical text mining tasks: biomedical named entity recognition (0.62% F1 score improvement), biomedical relation extraction (2.80% F1 score improvement) and biomedical question answering (12.24% MRR improvement). Our analysis results show that pre-training BERT on biomedical corpora helps it to understand complex biomedical texts.

Availability and implementation: We make the pre-trained weights of BioBERT freely available at https://github. com/naver/biobert-pretrained, and the source code for fine-tuning BioBERT available at https://github.com/dmis-lab/ biobert.

Contact: kangj@korea.ac.kr

1 Introduction

The volume of biomedical literature continues to rapidly increase. On average, more than 3000 new articles are published every day in peer-reviewed journals, excluding pre-prints and technical reports such as clinical trial reports in various archives. PubMed alone has a total of 29M articles as of January 2019. Reports containing valuable information about new discoveries and new insights are continuously added to the already overwhelming amount of literature. Consequently, there is increasingly more demand for accurate bio-medical text mining tools for extracting information from the literature.

Recent progress of biomedical text mining models was made possible by the advancements of deep learning techniques used in natural language processing (NLP). For instance, Long Short-Term Memory (LSTM) and Conditional Random Field (CRF) have greatly improved performance in biomedical named entity recognition (NER) over the last few years (Giorgi and Bader, 2018; Habibi et al., 2017; Wang et al., 2018; Yoon et al., 2019). Other deep learning based models have made improvements in biomedical text mining tasks such as relation extraction (RE) (Bhasuran and Natarajan, 2018; Lim and Kang, 2018) and question answering (QA) (Wiese et al., 2017).

VC The Author(s) 2019. Published by Oxford University Press.

1234

This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted reuse, distribution, and reproduction in any medium, provided the original work is properly cited.

BioBERT

1235

However, directly applying state-of-the-art NLP methodologies to biomedical text mining has limitations. First, as recent word representation models such as Word2Vec (Mikolov et al., 2013), ELMo (Peters et al., 2018) and BERT (Devlin et al., 2019) are trained and tested mainly on datasets containing general domain texts (e.g. Wikipedia), it is difficult to estimate their performance on datasets containing biomedical texts. Also, the word distributions of general and biomedical corpora are quite different, which can often be a problem for biomedical text mining models. As a result, recent models in biomedical text mining rely largely on adapted versions of word representations (Habibi et al., 2017; Pyysalo et al., 2013).

In this study, we hypothesize that current state-of-the-art word representation models such as BERT need to be trained on biomedical corpora to be effective in biomedical text mining tasks. Previously, Word2Vec, which is one of the most widely known context independent word representation models, was trained on bio-medical corpora which contain terms and expressions that are usually not included in a general domain corpus (Pyysalo et al., 20

剩余内容已隐藏,支付完成后下载完整资料


摘要:

动机:随着生物医学文档数量的快速增长,生物医学文本挖掘变得越来越重要。随着自然语言处理(NLP)的发展,从生物医学文献中提取有价值的信息越来越受到研究者的青睐,深度学习促进了有效的生物医学文本挖掘模型的发展。然而,将自然语言处理技术的发展直接应用于生物医学文本挖掘往往会产生不理想的结果。在这篇文章中,我们研究了最近引入的预训练语言模型BERT如何适用于生物医学语料库。

结果:我们介绍了BioBERT(来自生物医学文本挖掘变压器的双向编码器表示),这是一个预先在大型生物医学语料库上训练的领域特定的语言表示模型。BioBERT的任务架构几乎相同,在生物医学语料库上进行预培训时,它在各种生物医学文本挖掘任务上的表现在很大程度上超过了BERT和之前的先进模型。BERT的性能可以与之前的先进模型相媲美,但BioBERT在以下三个有代表性的生物医学文本挖掘任务上明显优于它们:生物医学命名实体识别(F1分数提高0.62%),生物医学关系提取(F1分数提高2.80%)和生物医学问题回答(12. 24% MRR提升)。我们的分析结果表明,对BERT进行生物医学语料库的预训练有助于其理解复杂的生物医学文本。

1.介绍

生物医学文献的数量继续快速增长。平均每天有超过3000篇新文章发表在同行评审的期刊上,不包括预印本和技术报告,如各种档案中的临床试验报告。截至2019年1月,仅PubMed就拥有2900万篇文章。包含有关于新发现和新见解的有价值的信息的报告不断地添加到已经压倒一切的文献中。因此,从文献中提取信息的准确的生物医学文本挖掘工具的需求越来越大。随着自然语言处理(NLP)中深度学习技术的发展,使得生物医学文本挖掘模型的发展成为可能。例如,长短时记忆网络(LSTM)和条件随机域(CRF)在过去几年极大地提高了生物医学命名实体识别(NER)的性能。其他基于深度学习的模型已经在生物医学文本挖掘任务中做出了改进,如关系提取(RE) 和问答(Qamp;A)。

然而,直接将最先进的NLP方法应用于生物医学文本挖掘具有局限性。首先,作为最近的词表示模型,如Word2Vec (Mikolov等。, 2013), ELMo (Peters等。(2018年)和BERT (Devlin等人)。主要针对包含一般域文本的数据集(如很难估计它们在包含生物医学文本的数据集上的表现。此外,一般语料库和生物医学语料库的词性分布存在较大差异,这也是生物医学文本挖掘模型经常遇到的问题。因此,生物医学文本挖掘的最新模型在很大程度上依赖于单词表示的改编版本(Habibi等人)。,2017;Pyysalo et al。,2013)。在这项研究中,我们假设目前最先进的词表示模型,如BERT,需要在生物医学语料库上进行训练,以有效地进行生物医学文本挖掘任务。在此之前,Word2Vec是最广为人知的上下文独立的单词表示模型之一,它是在生物医学语料库上训练的,这些语料库包含了通常不包括在一般领域语料库中的术语和表达式(Pyysalo等)。,2013)。虽然ELMo和BERT已经证明了上下文化词表示的有效性,但是他们无法在生物医学语料库上获得高性能,因为他们只在一般的域语料库上进行了预先训练。由于BERT在不同的NLP任务上取得了非常好的结果,同时在任务之间使用几乎相同的结构,因此将BERT应用于生物医学领域可能会使许多生物医学NLP研究受益。

2.方法

在这篇文章中,我们介绍了BioBERT,这是一个预先训练的生物医学领域的语言表达模型。预培训和微调BioBERT的整个过程如图1所示。首先,我们用BERT的权值初始化BioBERT, BERT的权值是在通用域语料库(英文维基百科和BooksCorpus)上预先训练的。然后,BioBERT在生物医学领域语料库(PubMed摘要和PMC全文文章)上进行预训练。为了证明我们的方法在生物医学文本挖掘中的有效性,BioBERT在三个流行的生物医学文本挖掘任务(NER、RE和QA)上进行了微调和评估。我们使用不同的一般领域语料库和生物医学语料库的组合和大小来测试各种训练前策略,并分析每种语料库对训练前的影响。我们还对BERT和BioBERT进行了深入的分析,以说明我们实施培训前策略的必要性。

bull;BioBERT是第一个基于领域特定BERT的模型,在8台NVIDIA V100显卡上进行了23天的生物医学语料库预处理。

bull;我们证明,对BERT进行生物医学语料库的预培训可以在很大程度上提高其性能。BioBERT在生物医学NER(0.62)和生物医学RE(2.80)中获得更高的F1得分,在生物医学QA中获得更高的MRR分(12.24)。

3.材料和措施

BioBERT的结构与BERT基本相同。我们简要讨论了最近提出的BERT,然后详细描述了BioBERT的预处理和微调过程。

3.1 BERT: bidirectional encoder representations from transformers

从大量未注释的文本中学习单词表示是一种由来已久的方法。而以往的模型Word2Vec,GloVe 都专注于学习语境独立的词汇表征,近期的研究主要集中在学习语境依赖的词汇表征。例如,ELMo使用双向语言模型,而CoVe )使用机器翻译将上下文信息嵌入到单词表征中。

BERT是基于掩蔽语言模型并使用双向转换器进行预训练的上下文化单词表示模型。由于语言建模的本质是看不到未来的单词,所以以前的语言模型仅限于两个单向语言模型(即从左到右和从右到左)。BERT使用了一种掩蔽语言模型,该模型可以在序列中预测随机掩蔽词,因此可以用于学习双向表示。此外,它在大多数NLP任务上获得最先进的性能,同时需要最小的特定于任务的架构修改。根据BERT的作者的观点,在自然语言中,将来自双向表征而不是单向表征的信息整合在一起是至关重要的。我们假设这种双向表示在生物医学文本挖掘中也很重要,因为生物医学术语之间的复杂关系通常存在于生物医学语料库中。由于篇幅有限,我们建议读者参考Devlin等人。

3.2 Biobert的训练

作为一种通用的语言表示模型,BERT采取了英文维基百科和BooksCorpus的预训练。然而,生物医学领域的文本包含相当数量的特定领域。专有名词,这是生物医学研究人员最了解的。因此,为通用语言理解而设计的NLP模型在生物医学文本挖掘任务中往往表现不佳。在这项工作中,我们对PubMed摘要(PubMed)和PubMed中心全文文章(PMC)的BioBERT进行了预培训。用于BioBERT预培训的文本语料库列于表1,文本语料库的测试组合列于表2。计算效率,每当维基百科全书被用于训练的,我们提供的初始化与预处理BioBERT我们将BioBERT定义为一种语言表征模型,其训练的语料库包括生物医学语料库(如生物医学语料库)。Biobert在标记化方面,BioBERT使用了单词标记化(Wu等人)。,这缓解了词汇量不足的问题。在单词标记化中,任何新单词都可以由频繁出现的子单词。我们发现,使用大小写词汇表(而不是大小写较低的词汇表)可以略微提高下游任务的性能。虽然我们可以构建基于生物医学的新零件词汇语料,我们使用的原始词汇BERTfor以下原因:(i)兼容性BioBERT伯特,它允许伯特pre-trained一般域全集重用,并使它容易互换使用现有的模型基于伯特和BioBERT和(2)任何新单词可能仍然是代表和调整生物医学领域使用的原始零件词汇。

3.3精确微调整Biobert模型

通过最小化架构修改,BioBERT可以应用于各种下游文本挖掘任务。我们在以下三个有代表性的生物医学文本挖掘任务上微调模型:NER、RE和QA。

命名实体识别是生物医学文本最基本的挖掘任务之一,涉及到生物医学语料库中大量领域专有名词的识别。而之前的大多数作品都是基于LSTMs和CRFs的不同组合(Giorgi和Bader, 2018;Habibiet,2017;wang,2018)。 BERT有一个基于双向变压器的简单架构。BERT使用基于其最后一层的表示的单个输出层来仅计算标记级别BIO2的概率。请注意,虽然之前的工作在生物医学NER经常使用的词嵌入培训的PubMed或PMC语料库(Habibi等人)。,2017;Yoon et al。, BioBERT直接学习单词嵌入在预培训和微调。对于NER的评价指标,我们使用了实体级精度、召回率和F1分数。

关系抽取是对生物医学语料库中命名实体之间的关系进行分类的一项任务。我们利用BERT原始版本的句子分类器,它使用一个[CLS]令牌对关系进行分类。句子分类是使用基于BERT的[CLS]标记表示的单个输出层来执行的。我们在句子中使用预定义的标记来匿名目标命名实体。相关篇章提出的问题进行回答的活动。为了调整QA的BioBERT模型,我们使用了与小队相同的BERT架构。

4.结果

4.1 训练集

生物医学NER数据集的统计如表3所示。我们使用了Wang等人提供的所有NER数据集的预处理版本,除2010年i2b2/VA、JNLPBA和Species- 800个数据集外。预处理后的NCBI Disease数据集的注释比原始数据集少,因为它从训练集中删除了重复的文章。我们使用CoNLL格式(https:// github.com/spyysalo/standoff2conll)对2010 i2b2/VA 和 JNLPBA数据集进行预处理。基于Pyysalo (https://github. com/spyysalo/s800)的数据集,对Species-800数据集进行预处理和分割。我们没有为BC2GM数据集使用替代注释,所有NER计算都基于实体级的精确匹配。请注意,尽管最近有其他几个高质量的生物医学NER数据集(Mohan和Li, 2019),我们使用的数据集经常被许多生物医学NLP研究人员使用,这使我们的工作更容易与他们的比较。这些数据集包含了基因-疾病关系和基因-化学关系(表4)。预处理GAD和EU-ADR数据集可与我们提供的代码。对于CHEMPROT数据集,我们使用与Lim和Kang(2018)中描述的相同的预处理过程。我们使用BioASQ factoid数据集,它可以转换为与小队数据集相同的格式(表5)。我们使用了完整的摘要(PMIDs)和BioASQ组织者提供的相关问题和答案。我们已经公开了经过预处理的BioASQ数据集。对于所有的数据集,我们使用了与之前工作中相同的数据集分割(Lim and Kang, 2018;Tsatsaronis ,2015;Wang,2018)。进行公平评价;然而,在Giorgi和Bader(2018)中没有发现LINAAEUS和Species-800的分割可能是不同的。与之前的工作一样(Bhasuran和Natarajan, 2018),我们报告了在没有单独测试集的数据集上10倍交叉验证的性能。

我们将BERT和BioBERT与当前最先进的模型进行比较,并比较他们的分数。请注意,最先进的模型都有不同的体系结构和训练过程。例如,Yoon等人的最先进的模型是被训练于JNLPBA数据集是基于多个Bi-LSTM CRF模型与字符等级CNN,而先进的模式,Giorgi和Bader(2018)训练数据集使用Bi-LSTM CRF模型与LSTMs和另外银本位训练数据集。

4.2实验器材

我们在英文维基百科和BooksCorpus上训练训练过的BERTmodel走了100万步。 BioBERT v1.0(thorn;PubMedthorn;PMC)的版本BioBERT(thorn;PubMedthorn;PMC)训练了470 K的步骤。在使用PubMed和PMC语料库时,我们发现PubMed和PMC分别采用200K和270K的预训练步骤是最优的。我们还使用了过热版本的BioBERT v1.0只预在PubMed上训练20万步(BioBERT v1.0(thorn;PubMed)和270 k步骤(PMC BioBERT v1.0(thorn;PMC))。在我们释放BioBERT v1.0之后,我们在PubMed上对BioBERT进行了1M步的预训练,我们将这个版本称为BioBERT v1.1(thorn;PubMed)。其他超参数,如批大小和训练前生物样本的学习速率调度与训练前BERT的相同,除非另有说明。

我们使用Naver智能机器学习(NSML)对BioBERT进行了预训练(Sung等人),用于需要在多个gpu上运行的大型实验。我们使用8个NVIDIA V100 (32GB) gpu进行预训练。最大序列长度固定为512,小批量大小设置为192,每次迭代得到98 304个单词。它需要超过10天的预训练BioBERT v1.0(thorn;PubMedthorn;PMC)接近23天的BioBERT v1.1(thorn;PubMed)在此设置。

尽管我们尽了最大的努力使用BERT时,由于BERT的计算复杂性,我们只使用了BERT,我们使用一个单一的NVIDIA泰坦(12GB) GPU微调每个任务的生物参数。请注意,微调过程的计算效率比训练前的生物样本。为了进行微调,选择批量大小为10、16、32或64的批处理。对QA和RE任务的BioBERT进行微调所需时间不到一个小时,因为训练数据的大小远远小于Devlin等人使用的训练数据。(2019)。另一方面,BioBERT在NER数据集上达到最高性能需要超过20个世纪。

4.3实验结果

NER的结果如表6所示。首先,我们观察到BERT只在一般的域语料库上进行预处理是非常有效的,但是BERT的微观平均F1分数较低(2分)比最先进的型号低一倍。另一方面,BioBERT在所有数据集上的得分都高于BERT。BioBERT在9个数据集中有6个的表现优于最先进的模型,而BioBERT v1。1(thorn;PubMed)的表现也优于最先进的模型超过了最先进的模型由在微平均F1成绩方面0.62分。LINNAEUS数据集得分相对较低的原因是:(i)缺乏用于训练以前的最先进模型的银色标准数据集,(ii)以前工作中使用的不

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237933],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。