Keystroke dynamics on Android platform
Tirgu Mures
Margit Antal*, Laszlo Zsolt Szabo, Izabella Laszlo Sapientia University, Faculty of Technical andHuman Sciences, Soseaua Sighisoarei 10, Tirgu Mures (Corunca) 540485, Romania
Abstract:Currently people store more and more sensitive data on their mobile devices. Therefore it is highly important to strengthen the existing authentication mechanisms. The analysis of typing patterns, formally known as keystroke dynamics is useful to enhance the security of password-based authentication.Moreover, touchscreen allows adding features ranging from pressure of the screen or finger area to the classical time-based features used for keystroke dynamics. In this paper we examine the effect of these additional touchscreen features to the identification and verification performance through our dataset of 42 users. Results show that these additional features enhance the accuracy of both processes.
Keywords: Security; User Authentication; Behavioral Biometric; Keystroke Dynamics; Touch Features
1. Introduction
At present more and more people store private and sensitive data on their smartphones. Consequently, the demand is growing for secure mobile authentication methods. Setting a password-based authentication is the most frequently used method to protect data from intruders. However, people tend to use passwords, which can be easily remembered, hence easy to crack. Therefore, additional mechanisms are needed to enhance the security of password based authentication. One such complementary method is to use the typing pattern of the user, known as keystroke dynamics.
Keystroke dynamics is an active research topic and has been researched mainly on desktop computers.There are very few studies conducted on mobile phones, even fewer on smartphones with touchscreen. The study, the main problem is whether the touch screen can add new features, such as pressure or finger area can enhance the accuracy of keystroke identification system. The next section, this paper briefly introduces the keystroke dynamics in the study domain of touch screen on the device, and review. Then we through data collection and evaluation research methods are put forward. The last section puts forward several conclusions and the direction of the research and development in the future.
2. Keystroke Dynamics
Keystroke dynamics is a heavily researched field. One of the most important advantages is low implementation and deployment cost[11] . In contrast to other biometric methods, this method does not require any dedicated hardware device. As the capture of keystroke pattern is implemented using a back-end software, it makes this method transparent and noninvasive for the user[11]. Keystroke dynamics can be used both for strengthening entry point based authentication and as a continuous authentication mechanism[2] . Compared to other methods, the main disadvantage of this type of biometrics is low accuracy[11] .
Keystroke dynamics studies reported data acquisition using various input devices, ranging from normal to pressure sensitive keyboards [7]. The most commonly used time-based features are dwell time and flight time. Dwell time is the time interval between key press and key release (sometimes called hold time) whereas flight time is the time interval between releasing one key and pressing the next one. Sometimes three or more consecutive key time events are used as features (n-graph), but the majority of papers used digraph features (two consecutive keys). Most of the existing pattern recognition approaches were tested for keystroke recognition, including statistical and machine learning approaches. The simplest method is to construct a reference template for the respective user and compute the distance between the current typing pattern and the reference template in the authentication stage. This method is known as template matching and can be combined with different metrics, ranging from simple Euclidean metric to Mahalanobis metric. Neural networks and support vector machine (SVM) were the best[11] .
Biometric systems can have two distinct functions: verification and identification. Verification is a binary decision problem, in which the system accepts or rejects the identity claimed by the user. Identification, also called recognition, is a classification problem: the system classifies the input pattern into one of the N known classes.
The quality of biometric systems is usually characterized by three kinds of errors: FAR, FRR and EER. False Acceptance Rate (FAR) is the rate at which a biometric system accepts a sample as one belonging to the claimed identity when the sample belongs to an impostor. False Rejection Rate (FRR) is the rate at which a biometric system incorrectly rejects a sample provided by the genuine user. EER is the rate at which FAR is equal to FRR.
The following is an overview of studies that used touchscreen based devices for data collection.
Saevanee and Bhattarakosol presented the first study[9] using keystroke dynamics combined with finger pressure. Through a dataset collected from 10 users they demonstrated that users can be identified with 99% accuracy by using only finger pressure information. However, data were collected using a notebook with touchpad acting as a touchscreen. Participants had to enter their 10 digits long cell phone numbers. Since each user has a different phone number, only FRR type error can be measured on the dataset. For FAR error measurement impostor data must be collected. The lack of impostor data can be considered the main limitation of this study.
Another study related to keystroke dynamics using touchscreen features is presented in the master thesis of Johansen[5] . The purpose of this study was to compare keystroke dynamics on personal computer to smartph
剩余内容已隐藏,支付完成后下载完整资料
在安卓平台的击键动力学
Tirgu Mures
Tirgu Mures 在Sapientia大学技术学院和人文科学院发表, Soseaua Sighisoarei 1C 540485,罗马尼亚
摘要:现在人们将越来越多的私人数据存储在他们的移动设备内,因此,加强现有的身份验证机制是非常重要的。这种分析模式在专业领域内称作按键动态,主要用于加强输入密码的安全性能。而且,触屏还添加了其他功能特征:范围从屏幕压力或键盘对于经典的时效性都被应用于击键动力学,在这个论文里面,我们检验这些添加的屏幕功能对身份验证机制的功能作用,并且通过验证我们的42个用户的数据库的运转。结果显示这些添加的功能加强了双重进程。
关键词:安全性,用户鉴别,按键动态,触摸特性
- 引言
现在,越来越多的人将私人信息以及敏感信息存入智能手机,因此,手机安全身份验证方法的需求量日趋增长。用户输入口令是用户防止设备入侵最常用的方法。然而,人们趋于使用口令操作,这样用于方便记忆,易于开机,因此,额外的机制需要用于身份验证以加强口令安全。这样一个互补的方法被应用于用户的输入模式的称之为击键动力学。击键动力学在台式电脑研究中是一个热门的研究课题,而有研究手机的课题很少,触屏智能手机的课题就更少。这项研究的最主要问题是触屏是否可以添加新的功能特性,例如按压或手指区域可以增强按键身份系统的精确性。下一节简要介绍了击键动力学在触摸屏设备上的研究领域,以及回顾课题。接着我们通过数据的收集并评估再提出研究方法。最后一节提出了几条结论和未来研究和发展的方向。
- 击键动力学
击键动力学是一个热门的研究领域,最重要的优势之一是成本低并且安装简便,与其他生物识别方法相比,该方法不需要任何专门的硬件设备[11]。因为作为掌控击键模式是应用一个后端软件。这使得该方法可以为用户的透明和非侵入性发挥功能,基建动力学可以被用于加强输入密码时的身份验证和连续的身份验证机制[2]。与其他的方式相比较,这种生物识别的精确度并不高[11]。击键动力学,击键力学的研究报告收录了各种输入设备的数据,从常规的到压力敏感的键盘,最常用时效性能是间歇时间和运转时间。间歇时间是按键和输出之间的时间间隔(又是被称作停歇功能),而运行时间是上一个字符的输出和下一个字符输入之间时间。常用的功能(n-图)是应用三个或更多的连续击键时间,但是大部分论文采用有向图(两个连续的击键)。大多数现有的识别方法是检测按键识别性能,包括分析研究数据和机器学习的方法。最简单的方法是为一个资历较深的用户构建一个模板,然后计算在实际的身份验证阶段输入模式和参考模板之间的距离,这种方法称作样板匹配,该方法还可以结合不同的衡量值,范围可从简单的欧式距离到马氏距离。其中神经网络和无线电导航机是最好的[11]。
生物识别性有两个最突出的功能:验证和确认,验证过程是一个二元判定问题,在该程序系统接受或拒绝用户的身份宣称,身份鉴定也称之为身份识别属于一个分类问题: 系统将输入模式分为N已知的一类。
生物识别系统假废品率(FRR)是生物系统的错误拒绝真正的用户提供的样本种错误分别是:FAR,FRR,ERR。错误接受率(FAR)是生物识别系统在识别错误地评判并接受一个入侵者的信息;错误拒绝率(FRR)是指真正用户的信息遭到生物识别系统的拒绝;ERR是指错误率同错误拒绝率相等的情况。
下面的研究概述是关于触摸屏的初级设备被用于数据收集。
Saevanee 和 Bhattarakosol已经陈述了初级研究学习用击键动力学结合手指点击力度。根据从10个用户那里收集的数据集,他们验证了可通过用户只使用手指识别信息但准确率高达99%。然而,触屏版笔记本可用于收集数据,由于不同的用户有不同的手机号码,所以不同的用户必须输入10个不同的长串数字,对于错误拒绝率(FRR)可以用数据库评判,而错误接收率的错误数据必须被收集,虚假数据的缺乏是本次研究的最主要限制。
另一项研究Johansen的硕士论文里面被陈述,过是击键动态同触屏性能相关,研究的主要目的在于比较击键动态在个人电脑和智能手机的区别,一共有42个人参与本次实验,其中有一部分人既参与了个人电脑又参与了智能手机的体验。这项研究的最主要发现是:在仅使用于时间特性的情况下智能手机的运行状况比个人电脑要差一些,在智能机上的运行比一个标准的键盘要低。然而在使用智能机的附加功能(包括时间性能)时,运行状态明显比在一个标准键盘上要好,该研究拟将用于解答模仿某人的打字节奏有多困难。研究表明,在标准键盘上模拟人打字要比智能机上更容易,这样研究的主要限制在于在数据收集过程中要使用数字式的口令在手机的12个键上。
Trojahn在论文里面陈述过这项研究的主要目的,即用来证明手指压力和尺寸作为附加性能可用于降低用户认证系统中的错误率。测试中需要152个数据的提供者引入一串17个数字式的口令密码。每一个参与者需要敲击10次单的语句音。将运行时间,有像图同三线图形和字母计时信息结合是最好的FAR FRR组合,其错误率远低于使用触摸屏的附加功能,该研究的最主要限制同Johansens所陈述的相同,并且数据是呈单语句音的形式运行的。
我们发现只有一项研究将手机软键盘用于用户身份验证[4],输入的数据是由13个用户在3周的时间所收集的,高级的软件键盘在一个普通软件的辅助下可将关键的按键信息存储在同一文本中。按键长度、平滑度、压力、手指区域和设备定位方向被用作功能特性,可通过使用使用远FAR和FRR报告用户身份验证结果。的数据的收集机制定义得并不是很清楚,触摸和按键的概念区别将会在Draffin提出的方法中证明是有价值的。
最近Sen和Muralidharan提出的一项研究使用了移动设备上的压力作为用户身份验证的功能,同其他的研究相似,该实验是基于一个4位数字的密码。除了确认验证结果使用了PAR和FRR类型错误,ERR错误也被报告是基于一个特殊的虚拟模型。
表1总结了近期研究结果。 不幸的是,研究报告的不同类型的错误使比较困难。
表1.最近在触摸屏上进行的研究所获得的误差率(特征符号见表2)
表1通过最近在触摸屏上进行的研究获得的错误率(特征符号在表2中解释)
#参与者 |
#样本/使用者 |
密码 |
特征 |
结果 |
|
[10] |
10 |
100 |
4位 |
H P最小 P最大 |
EER:15.2% |
[12] |
152 |
10 |
17位 |
H P FA UD |
FAR;4.19% FRR:4.59% |
[4] |
13 |
NA |
NA |
H P FAH P FA 按键位置 漂移 方向 |
FAR:14.0% FRR:2.2% |
[9] |
10 |
30 |
10位 |
P |
EER:1% |
结论,我们可以陈述的是没有研究在智能机上使用真实的口令密码,并且触屏性能-压力和手指区域没有被在真实在条件中研究过。
3.1方法论
每个Android应用程序有自己相应的软件键盘,被用于开发数据收集系统。用户必须输入私人信息,如:性别,出生日期,关于在使用智能手机注册阶段的经验,因为输入模式可以受到几个因素的影响,所以收集的数据应该是几段会话。大部分的实验参与者在两周内都完成了2段会话,同一段会话必需由参与者重复30次,这被认为是一个安全系数很高的密码,也被应用于Killourhy的击键力学实验设计[6]。共42人参加了这项研究,其中24名男性,18名女性24岁,年龄层从20-46(平均年龄在22、2岁),其中有一位老师其余都是学生。我们从收集到的数据包排除了含删除和创建的数据集,数据包是从51个用户的数据输入模式里收集的。我们决定为每个用户设定相同的密码,这样每个参与者的语音数据都可用于分辨一个非法用户和一个合法的用户。
采集的数据可供两种类型的Android设备使用,一种是为7尺寸平板电脑和美孚LG的P710设备。总共有37个平板电脑用户和5手机用户提供数据。
输入所选的口令密码键盘上需要14键,8个字母, 一个数字,一个字符,点击两次Shift键实现从大写字母到数字的切换。触摸屏幕即可运行节省了使用手指敲击的时间,释放保存屏幕的时间戳。特征向量的分量如表2所示。
表2.特征向量的元素
钥匙保持时间(H) |
按键和释放之间的时间 |
14 |
下降时间(DD) |
连续按键之间的时间 |
13 |
上下班时间(UD) |
按键释放和下一个按键之间的时间 |
13 |
按键压力(P) |
按键时的压力 |
14 |
手指区域(FA) |
按键时手指区域 |
14 |
平均持续时间(AH) |
关键时间的平均值 |
1 |
平均手指面积(AFA) |
按键区域的平均值 |
1 |
平均压力 |
平均关键压力 |
1 |
总共 |
71 |
3.2 测量方法
用户信息验证可以使用常用的学习软件WEKA(3.6.11版)[13],显示结果良好,结果的显著差异是在于其使用了正确的配对,显示值为0.05, Weka的搜索方法提到了一些默认的参数的优化分类器。
各种分类器在击键动力学数据集中使用广泛,被使用之前:统计方法、决策树、神经网络法、模糊法,支持向量法,这些在列表中都可查询[11]。对于此项论文,我们从Weka的论文里面挑选出一些实际的方法,覆盖了各类机器学习法。
Naive Bayes的分类是基于Bayes真理的概率分类法,这个分类法假设所有的特性都是独立的一个实例但是分类法通常是不正确的。尽管这种方法是幼稚的低级的,这种分类法适用在应用程序使用广泛。
Bayesian的网络是一种概率模型, 用一个有向无环图表示一组随机变量及其依赖条件的关系,图的结点是表示随机变量和几个代表性的边缘是有条件地依赖变量。
最近,行业同事Weka的研究(k-NN, IBk)是基于实例的分类算法,该算法是最新的。决策树分发是非常受欢迎的方法,该方法像图一样以树为基础,近年来出现的算法都可用于击键动力学。在许多应用领域我们选择使用Weka的J48 C4.5作为最佳方法。随机森林分类器[3]是一个集成学习方法,该方法随机引入决策树结构的一组(我们使用100棵树)进行评估。支持向量机可建立一个线性判别函数将分类实例进行分类。如果没有线性分离是可使用,内核地图可将实例映射到一个高维特征空间。我们通过使用Weka的内项机核实现了LibSVM。C和y通过网络搜索法被明显优化成两个数据集(在41个特性集里C = 10.55 y =1.86 ,在71个特性集里C = 7.46 y = 0.25),并且所有输入功能都被正常且为(0 - 1)。
多层感知器(MLP)是由反向传播训练的人工神经网络,我们这里只说明通过Weka提出的方法实现默认设置的结果(数量的隐藏层是Weka的默认设置(数的属性 数量的分类)/ 2)。
- 结果
4.1识别结果
为了显示按键数据之间精度的差异分类有和没有触摸屏(压力和手指区)的特性,有两个数据集被使用。其中第一个数据集包含41特性(H DD AH),第二个数据集包含71个特性(H DD UD P FA AH AP AFA).我们使用收集到的数据没有经过任何转换,也没有二次特性计算或特征选择(除了标准化的支持向量方法)。没有增加或调优其他的方法使用,除了基于内部随机化的随机森林分类器的使用。
表3分类
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[25646],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。