对中文网站密码中数字的深入研究外文翻译资料

 2022-08-14 14:12:22

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


对中文网站密码中数字的深入研究

摘要:当前的研究主要采用自然语言处理技术来研究密码中的语义模式,但是他们没有深入探索数字的构造来产生更多可命中的猜测。在本文中,我们使用内存分块方法将密码中的非语义数字分割,并定义组合规则以将语义数字模式分割为小块。我们使用为中国网站定制的模式来提取字母和符号的结构和片段。我们使用概率上下文无关文法对它们进行建模,以生成密码猜测。此外,我们引入了一个称为“密码猜测概率稀疏性”的定义,以描述复杂模式带来的负面影响,并制定措施以取得实质性改进。基于包含超过1.6亿个条目的大规模数据集的实验结果表明,我们的方法猜测密码比以前的猜测长数字密码和通用密码的方法要有效得多。我们在猜测长数字密码方相比John the Riper有107.18%的改进,在猜测通用密码方面相比以前的方法有14.46%的提高。

  1. 引言

尽管已经提出了各种用户身份验证技术,但是基于文本的密码无疑在可预见的未来中占有不可替代的地位[1]。 一些研究者指出,中国互联网用户在编写密码时更喜欢使用数字摘要,而英国互联网用户则更喜欢使用字母[2]。 遗憾的是,大多数现有的密码分析方法都将密码中的数字视为一个整体,很少利用数字的内部结构。 因此,有必要对密码中的数字进行深入研究,以提高密码猜测的速度,尤其是针对中国互联网用户。

近年来,大量密码的不幸泄露使许多基于经验的研究诞生,这些研究开发了许多超越传统蛮力算法的密码猜测算法。 这些研究可以分为两类。 一些研究人员旨在探索在密码构造中使用个人身份信息(PII)的习惯[3] [4]。 互联网用户的PII主要包括姓名,生日和ID号等。PII是密码的常见组成部分,但它是私密的,几乎不易获得。 在他们的实验中,包含PII的数据集非常小。 例如,12306和Rootkit分别仅包含大约129和6.9万个条目[3] [4]。 包含PII的少量可用数据集限制了这些方法进行密码猜测的能力。

其他研究主要尝试使用统计技术从泄漏的数据集中找到常见的密码模式[5] [6] [2] [7] [8]。 他们采用自然语言处理(NLP)技术来分析密码中的语义模式。 然后将概率无上下文语法(PCFG)和Markov模型与语义模式一起使用,以对密码的构建过程进行建模。 但是这些方法在不了解数字内部结构的情况下,将密码中的数字视为一个整体模式(例如生日或随机数字序列)。 我们以前的工作[9]借鉴了心理学中的内存分块(MC)的想法,并将每个纯数字密码分成小块以提取结构和片段。 这种方法很容易胜过开膛手约翰在猜测长数字密码时的性能,但其攻击目标仅限于纯数字密码,而不是所有通用密码。

在本文中,我们通过使用内存分块对密码中的数字进行了深入研究,并将其与语义模式相结合,以开发出一种新颖的PCFG算法来生成密码猜测。首先,我们使用NLP方式处理通用密码集,并获得键盘布局模式(例如“!QAZ@WSX”),中文拼音模式(例如“ woshishui”),英文单词模式(例如“ warcraft”)等。也可以通过使用正则表达式匹配来找到语义数字模式,例如日期“ 19980725”。密码中的其他非语义数字将在第二阶段使用MC手段进行处理。在[9]中,我们使用内存分块方法来处理纯数字密码。在本文中,我们将MC应用于密码中的所有非语义数字以获取小数字块,并定义了一组组合规则以将语义数字模式也拆分为小数字块。将所有语义模式和小数字块都视为终端的元素,并提出了一种PCFG来对密码的构建过程建模。

此外,我们发现,当数字的结构和数字块变得更加复杂时(例如“ 5841314521”→[584,1314,521]),一种称为密码猜测概率稀疏性的现象将影响密码猜测的收敛速度。 这种现象意味着一次成功的密码猜测与几个大块结合的概率变小了。 密码猜测的命中百分比随着猜测数量的增加而非常缓慢地增加,因为这些大块的组合并没有对具有特定含义的那些数字序列进行优先排序。 针对这个问题,我们将出现在密码中的所有数字序列作为先验知识,并在PCFG模型中插入一些特定的规则。 实证结果表明,该方法可以对以前的模型进行实质性的改进。

我们使用来六个自中国网站的大规模泄漏的数据集进行了研究,其中包括超过1.6亿个条目。尽管这些数据全部来自中国,但我们相信对数字的深入了解可以应用于其他网站上包含的所有密码。我们的主要贡献概述如下:

bull;我们对通用密码中的所有数字进行了深入分析。详细地说,我们在非语义数字上使用MC,在语义数字上使用组合规则,以将所有数字分成小块。

bull;我们发现某些特定规则可以减少“密码猜测概率稀疏”现象带来的负面影响。此外,我们开发了一种新颖的PCFG作为密码猜测生成器。

bull;我们基于大规模数据集的实验结果表明,在猜测长密码方面,我们的方法相比于John the Ripper获得了107.18%的改进,相比先前猜测所有通用密码的方法获得了14.46%的改进。

本文的其余部分安排如下。第二部分讨论了一些相关的工作。在第三节中,我们对把MC和PCFG语义模式相结合的密码数据集和方法进行了实证研究。第四节介绍了根据其他密码猜测方法评估的实验结果。最后,在第五节对本文进行了总结,并讨论了未来的工作。

  1. 相关工作

我们从三个方面讨论了有关密码猜测的现有相关研究。

  1. 涉及个人信息:网站用户经常使用个人身份信息来构造自己的密码,以便于记忆。 Li[4]等人的实验表明在60.1%的12306密码中包含至少一种个人信息,并引入了Personal-PCFG模型来生成密码猜测。 Wang等人[3]将用户PII分为两种类型,并提出了四个TarGuess框架来表征七个典型的目标猜测场景。这些作品的性能优于其他有针对性的在线猜测方法,但是PII是私密的,很难在训练中获得,而且在实验中包含PII的小型数据集限制了密码猜测的能力。
  2. 忽略个人信息:Weir等人[5]提出了一种PCFG模型来按概率顺序生成密码结构。 Veras等人分析了Rockyou数据集中数字日期的安全隐患[10],并使用PCFG模型描述密码语义模式[6]。 Ma等人文献[7]研究了马尔可夫模型,发现一个具有平滑功能的六阶马尔可夫模型获得了英语密码的最佳结果。 Houshmand等人[8]将键盘模式和多字模式合并到PCFG中,比以前的方法提高了55%。 这些工作中的数字序列被当作一个整体模式,而不必分成小块来深入理解数字的结构和组成。
  3. 数字密码:密码中的数字在中文网站中起着重要作用。 Li等人[4]发现,在五个最受欢迎的中文网站中,纯数字密码占32.86%至64.56%。 Veras等人[10]统计出大约4%的RockYou密码(超过3200万)是数字日期,这影响了密码安全性。
  4. 数据分析与方法

在本节中,我们将对密码中的数字进行实证研究,然后介绍如何使用MC将语义数字和非语义数字分割成小块,并提供一种PCFG算法,该算法使用这些块和其他模式来模拟密码的构造过程。

  1. 数据集安装

为了深入分析密码中的数字,我们首先分析了六个泄漏的密码数据集,这些数据集包含来自中国网站的超过1.6亿个密码。所有这些泄漏的数据集都可以公开下载。 在我们的研究中,我们严格遵守道德规范,从未将泄漏的数据用于除统计观察和实验研究以外的任何用途。

表I简要介绍了泄漏的数据集。 中国数据集总计达到超过1.6亿个文本密码。 163网站是网易在中国推出的主流电子邮件服务之一,其中包含超过1.16亿个密码,并于2015年10月被泄露[11]。7k7k和178是两个受欢迎的游戏门户网站,其中包含超过1700万个密码[12] [13]。 CSDN网站是中国最大的信息技术交流论坛之一,其中包含超过600万个密码[14]。Duduniu是提供在线娱乐服务的商业网站,其中包含超过1500万个密码[15]。 新浪微博是类似于Twitter的流行社交网站,其中包含大约400万个密码[16]。 这五个中国数据集在2011年末泄漏。

我们通过删除163数据集中电子邮件地址的后缀不是“ @ 163.com”的条目,和包含不可打印字符的条目以及所有数据集中的重复条目来清洗原始数据集。表I的第四列显示了清理后的数据集的数量。这些数据集是从各个领域泄漏的,这些领域包括电子邮件服务,技术论坛,社交网络等。由于这些网站在中国都很受欢迎,因此我们认为这些网站的用户代表典型的中国互联网用户。另外,这些泄漏的帐户在日常生活中经常被使用,例如,许多人也使用163电子邮件地址作为Apple ID。 因此,这些泄漏的密码在密码安全性研究中具有很高的价值。

  1. 口令构造
  2. 流行数字:由于中国人为非英语母语者,因此他们的密码主要由数字和拼音组成[2]。我们将带有数字的密码分为全数字密码和部分数字密码。 全数字密码表示密码中的整个字符均为数字,即纯数字密码,而部分数字密码表示密码中仅一部分字符为数字。

表I的最后两列显示了这两组的数量和百分比。全数字密码和部分数字密码分别平均占所有数据集的51.09%和36.77%。总的来说,包含数字的密码占87.86%,这是一个显着的比例。我们得出的结论是,数字在中文密码中得到了广泛的普及,对其进行深入的研究对于理解密码的构造非常有帮助。

  1. 语义模式:基于现有研究,我们将其模式扩展为识别密码段的语义类型。我们使用

反向最大覆盖率作为选择候选片段的主要标准。首先,键盘是最常用的输入工具,许多人自然会使用一些关联的键。我们使用五种键盘模式,其中包括连续的,有规律的跳跃,重复相同,重复不同和相邻但不在同一行的键。并且我们将它们分别标记为“ K连续”,“ K跳跃”,“ K重复0”,“ K重复1”和“ K之字形”。具有这些模式的句段分别占3.96%,0.05%,1.73%,2.38%和0.48%。

第二,密码中使用了大量的中文拼音和英文单词,我们使用了各种中文和英文语料库。 Veras等人[6]引入了当代美国英语语料库(COCA),它是带有使用频率信息的带有部分语音标记的N-元集合。考虑到密码中英语单词的长度限制和比例,我们在COCA中仅使用了双字母组和三字母组。作为补充,我们使用Merriam-Websters大学词典(MWCD)作为unigram语料库。对于英语单词和短语,我们使用“ L_EN_Word”和“ L_EN_Phrase”,与它们相对应的句段分别占0.95%和0.36%。根据Zhigong Li等人在[2]中发现的汉语拼音的特征,我们以紫光拼音的词库作为我们汉语拼音的主要来源,这是最常见的提供拼音输入法的流行软件之一。该词典包括425,694个不同的拼音短语和396个拼音音节。对于中文拼音和词组,我们使用“ L_CN拼音”和“ L_CN短语”,与它们相对应的句段分别占0.01%和4.92%。

第三,研究[17]表明,名称和日期是密码中最常见的。上面提到的词典不足以支持有关名称和日期的句段,因此有必要收集专门的单词列表。对于英文名称,我们使用的数据集来自美国社会保障局[18],带有“ L_EN名称”模式的句段占1.24%。至于汉语拼音名称,我们的源代码列表是从搜狗拼音词典的全名库中下载的[19],我们从中得出两个列表,一个是名字,一个是姓氏。我们用“ L_CN_Name,“ L_CN Name_AB”,“ L_CN Name_S”和“ L_CN Name_F”代表汉语拼音的全称,缩写,姓氏和名字,其中与它们相关的句段分别占0.70 %,8.97%,1.33%和0.09%。我们定义并使用29个正则表达式来标识不同形式的日期,如表V所示。有效日期的范围是从1900年到2016年。我们将日期格式标记为“ D_Date”,而这个句段则占10.75%。

为了显示用户通常选择哪些段来构造其密码,我们选择了9种常见模式,并在表II和表III中列出了使用这些模式的前十大最受欢迎的段。令人惊讶的是,六个键盘和英语模式的前10个部分占了5.37%〜85.96%,这是用户经常使用的。 我们还选择了三种汉语拼音模式的前10个段,如表III所示。我们可以看到,中文用户也经常在三种汉语拼音模式中选择16.10%〜41.03%的段。 同样,其他模式的句段也仅集中在前10名中。 这些常见的快速列举的段可以提高生成密码猜测的效率。

有相当多的句段不能用明显的语义来识别。 根据这些句段的字符类型,我们定义了三种非语义模式来处理它们,分别为“ D”,“ L”和“ S”,分别占惊人的45.04%,14.65%和2.38%。 除了它们之外,最常见的键盘布局模式,数字和字母是“ K_CONSECUTIVE”,“ D_DATE”和“ L_CN_NAME_AB”,它们占总数的23.68%。在字母模式组中,拼音和英语的总比例分别为16.00%和2.56%。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235742],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。