CAIL2018:为司法审判预测设计的大规模数据集外文翻译资料

 2021-12-22 22:29:00

英语原文共 10 页

文献1:

CAIL2018:为司法审判预测设计的大规模数据集

摘要:在本文中,我们介绍了中国人工智能和法律挑战赛数据集(CAIL2018),是第一个大规模的为审判预测设计的大规模数据集。CAIL2018包含超过230万个由中国人民最高法院发布的刑事案件,这个数量远远超过目前其他有关审判预测研究中的数据集。此外,本数据集中关于审判结果的注释更加详细和丰富:注释由适用法律条款、罪名和刑期组成,均可通过案件的事实描述来进行推断。作为比较,我们实现了一些传统的针对审判预测的文本分类基线,实验结果显示对于目前的模型而言,预测司法案件的审判结果——尤其是对于刑期的预测,仍然是一个很大的挑战。为了协助研究人员在司法审判预测的研究上取得进展,CAIL2018和基线将会在CAIL挑战赛之后发布。

1.引言

司法审判预测(LJP)旨在让机器通过阅读案件的事实描述,然后去预测司法案件审判结果。相关的研究已经开展了多年。囿于有限的公开案件数量,早期的工作通常是在少量案件的基础上进行统计分析而非预测(Lauderdale and Clark, 2012; Segal, 1984; Keown, 1980; Ulmer, 1963; Nagel, 1963; Kort, 1957)。随着机器学习算法的发展,一些研究将LJP转变成了文本分类任务并尝试从事实描述中提取有效信息(Liu and Chen, 2017; Sulea et al., 2017; Aletras et al., 2016; Lin et al., 2012; Liu and Hsieh, 2006)。这些研究仍然被限制在特定的案件类型并且当应用在其他场景中时存在泛化上的问题。

受到深度学习在自然语言处理任务中成功应用的启发,研究者尝试用神经模型,在文本分类框架下处理审判预测的任务(Luo et al., 2017; Hu et al., 2018)。然而,目前并没有一个公开可用的针对LJP任务的高质量数据集。因此,我们收集并公布第一个面向LJP任务的大规模数据集——CAIL2018,以促进在这个任务上的更多发现和其他先进的法律智能算法。

CAIL2018由超过260万个中国人民最高法院公开在http://wenshu.court.gov.cn/上的刑事案件组成。这些文件可供专业人员参考以提高他们的工作效率,并有望给法律智能系统的相关研究带来利好。

具体来说,CAIL2018中的每个案件由两部分组成:事实描述和相应的判决结果。这里的判决结果被归纳为三条代表性的数据:相关法条、罪名和刑期。与现存其他面向LJP任务的数据集相比,CAIL2018拥有更大规模的数据并保存有丰富的有关判决结果的注释。CAIL2018总共包含2,676,075个刑事案件,所有注释中包含183项刑法条款和202项罪名指控。无论从案件的数量还是标签的数量上来看,CAIL2018都是其他闭源LJP数据集的若干倍。

在后续章节中,我们将会对CAIL2018的构筑和通过基线方法得出的LJP任务结果做一个详细的介绍。

2.数据集的构筑

我们利用从中国裁判文书网上获取的5,730,302篇法律文书构筑了CAIL2018数据集。这些刑事案件的文书隶属于五个类别:判决书、裁定书、调解书、决定书和通知书。对于LJP任务,我们仅考虑那些含有判决结果的案件。因此,我们仅保留了其中的判决书,用于训练LJP模型。

每一篇原始文书均有清晰的结构并被划分成了若干部分:事实描述、法院观点、主体、判决结果和其他信息。因此,我们将事实描述作为输入信息并利用正则表达式提取判决结果中适用的法律条款、罪名和刑期。

因为许多刑事案件拥有多名被告,而这将大大提高LJP任务的难度,因此我们仅仅为每个案件保留了一位被告。

此外,收集到的数据中存在很多低频的指控(例如:侮辱国旗、越狱)和法律条款。我们过滤掉了那些相关罪名和法律条款的频数低于30的案件。同时,中国刑法中的前102条法律条款与具体指控无关,因此我们同样过滤掉了这些内容。

经过预处理之后,得到的数据集包含2,676,075个刑事案件,183条刑法条款,202项罪名指控以及刑期。我们在表1中展示了其中的一个例子。

值得注意的是,CAIL2018中不同类别的分布十分不平衡。例如,频率最高的前十项罪名覆盖了79%的案件,而最低的十项罪名仅仅覆盖了0.12%的案件。CAIL2018中的这种不平衡问题使得利用它来预测低频罪名和法律条款变得十分困难。

3.实验

在本节中,我们在LJP的三个子任务上实现了一些传统文本分类基准方法并进行了评价,包括法律条款、罪名指控和刑期。

3.1 基准方法

我们采取了以下三种基准方法作为比较:

TF-IDF SVM: 词频逆文本频率指数(TF-IDF)(Salton and Buckley, 1988)是一个提取单词特征的有效方法,而支持向量机(SVM)(Suykens and Vandewalle, 1999)是一个具有代表性的分类模型。我们应用了TF-IDF去提取文本特征,然后使用线性内核的SVM去训练分类器。

FastText: FastText(Joulin et al., 2017)是一个基于N-grams和Hierarchical softmax的简单而有效的文本分类方法(Mikolov et al., 2013)。

CNN: 卷积神经网络已经被证明可以用来有效解决文本分类问题(Kim, 2014)。我们采用了多层卷积核的CNN模型来编码事实描述。

3.2 实现细节

对于所有方法,我们随机挑选了1,710,856个案件进行训练,以及965,219个案件用于测试。由于所有事实描述都是中文的,我们采用THULAC(Sun et al., 2016)来做分词。对于TFIDF SVMmoxing,我们将特征大小限制在了5,000。对于神经模型,我们采用Skip-Gram模型(Mikolov et al., 2013)来训练200维的词向量。

对于CNN模型,我们将案件描述的最大长度设置为4,096,卷积核的宽度设置为(2,3,4,5)。同时每个卷积核的大小设置为64以保持一致。

在训练的时候,我们使用Adam(Kingma and Ba, 2015)进行优化。我们设置了学习率为0.001,dropout率为0.5,批处理数据大小为128。

3.3 结果和分析

我们用多种标准评价了这些基准方法,包括准确率(Acc.),宏观精确度(MP)和宏观召回率(MR)。这些都是被广泛用于文本分类任务评价中的方法。实验结果如表2所示。

从表中我们能够发现,目前的模型能够在罪名预测和相关法条预测中达到不错的效果。然而,MP和MR的指标结果显示由于训练数据的不足以及不平衡的问题,LJP仍然是一个巨大的挑战。

4.结语

在这项工作中,我们公布了收个大规模的司法审判预测数据集——CAIL2018.与已有的其他LJP数据集相比,CAIL2018是目前最大且公开的数据集。并且CAIL2018拥有更详细的注释,与实际情况更加一致。实验表明,LJP任务仍然具有挑战性并且有很大的可提升空间。

5.参考文献

[1] Nikolaos Aletras, Dimitrios Tsarapatsanis, Daniel Preotiuc-Pietro, and Vasileios Lampos. 2016. Predicting judicial decisions of the european court of human rights: A natural language processing perspective. PeerJ Computer Science 2.

[2] Zikun Hu, Xiang Li, Cunchao Tu, Zhiyuan Liu, and Maosong Sun. 2018. Few-shot charge prediction with discriminative legal attributes. In Proceedings of COLING.

[3] Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov.2017. Bag of tricks for efficient text classification. In Proceedings of EACL.

[4] R Keown. 1980. Mathematical models for legal prediction. Computer/LJ 2:829.

[5] Yoon Kim. 2014. Convolutional neural networks for sentence classification. In Proceedings of EMNLP.

[6] Diederik Kingma and Jimmy Ba. 2015. Adam: A method for stochastic optimization. In Proceedings of ICLR.

[7] Fred Kort. 1957. Predicting supreme court decisions mathematically: A quantitative analysis of the ”right to counsel” cases. American Political Science Review 51(1):1–12.

[8] Benjamin E Lauderdale and Tom S Clark. 2012. The supreme courtrsquo;s many median justices. American Political Science Review 106(4):847–866.

[9] Wan-Chen Lin, Tsung-Ting Kuo, Tung-Jia Chang, Chueh-An Yen, Chao-Ju Chen, and Shou-de Lin. 2012. Exploiting machine learning models for chinese legal documents labeling, case classification, and sentencing prediction. In Processdings of ROCLING. page 140.

[10] Chao-Lin Liu and Chwen-Dar Hsieh. 2006. Exploring phrase-basedclassification of judicial documentsfor criminal charges in chinese. In Proceedings of ISMIS. pages 681–690.

[11] Yi Hung Liu and Yen Liang Chen. 2017. A two-phase sentiment analysis approach for judgement prediction. Journal of Information Science .

[12] Bingfeng Luo, Yansong Feng, Jianbo Xu, Xiang Zhang, and Dongyan Zhao. 2017. Learning to predict charges for criminal cases with legal basis. In Proceedings of EMNLP.

[13] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality. In Proceedings of NIPS. pages 3111–3119.

[14] Stuart S Nagel. 1963. Applying correlation analysis to case prediction. Tex. L. Rev. 42:1006.

[15] Gerard Salton and Christopher Buckley. 1988. Termweighting approaches in automatic text retrieval. Information processing amp; management 24(5):513– 523.

[16] Jeffrey A Segal. 1984. Predicting supreme court cases probabilistically: The search and seizure cases, 1962-1981. American Political Science Review 78(4):891–900.

[17] Octavia Maria Sulea, Marcos Zampieri, Mihaela Vela, and Josef Van Genabith. 2017. Exploring the use of textclassi cation in the legaldomain. In Proceedings

资料编号:[3919]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。