眼动追踪是一项科学应用技术,用户无需与交互设备物理接触即可发送信息与接收反馈。从原理上看,眼动追踪主要是研究眼球运动信息的获取、建模和模拟,用途颇广。而获取眼球运动信息的设备除了红外设备之外,还可以是图像采集设备,甚至一般电脑或手机上的摄像头,其在软件的支持下也可以实现眼球跟踪。
下面说的这篇论文是MIT2016年在CVPR上发的一篇论文。论文主要是基于移动设备的眼动追踪技术,使用了卷积神经网络来预测视点。
使用移动设备进行眼动追踪技术能提供许多好处:
- (1)广泛使用更多的超过三分之一的世界人口估计智能手机在2019年,远远超过台式机或笔记本用户的数量;
- (2)技术升级的采用率高——很大一部分人拥有最新的硬件,可以实时使用计算成本高昂的方法,如卷积神经网络(CNNs);
- (3)移动设备上相机的大量使用导致相机技术的快速发展和部署;
- (4)相机相对于屏幕的固定位置减少了未知参数的数量。
作者开发了在移动设备上收集严冬追踪数据的iOS软件,可以记录并上传数据,名字叫GazeCapture,有三个特性:
- (1)可扩展
- (2)可靠的
- (3)产生大的可变性。
其中,可变性:为了学习强大的眼动追踪模型中,数据的显着变化很重要。这种可变性对于实现高精度无校准眼动追踪至关重要。鉴于我们使用众包(crowdsourcing platform),期望拥有姿势,外观和光照的变化很大。其次,要求参与人员不断移动头部和头与手机之间的距离。最后,要求参与人员每次都要改变移动设备的方向60点。可以使用内置传感器检测此更改在设备上。这改变了相对位置相机和屏幕提供进一步的可变性。
为了关联每个手机设备里的AMT任务(手机此次数据的活动),每个工作人员随后键入了AMT中的唯一代码进入他们的移动应用。点位置都是随机来自13个固定location(loc),并通过固定loc学习calibration的影响。
为了证明数据的可变性,作者使用了X. Zhang, Y. Sugano, M. Fritz, and A. Bulling. Appearance-based gaze estimation in the wild的方法对每一帧来估计头部姿势h和凝视方向g,在GazeCapture MPIIGaze和TabletGaze上绘制h和g的分布作。虽然我们的数据集包含一个类似的总体分布h与现有数据集相比,异常值的比例明显更大。
论文目标是设计一个通过一张图片就能预测视点的鲁棒模型,采用CNN。
输入包括左眼,右眼,脸的原始帧图像检测。输出是距离相机的距离,单位是厘米。
为了估测模型的泛化能力(通过calibration-free),得出一下结论:无约束的眼睛追踪,以及消融研究。
- error:平均欧几里得距离误差;
- dots error:帧平均预测误差;
论文:Krafka K, Khosla A, Kellnhofer P, et al. Eye Tracking for Everyone[C]// Computer Vision & Pattern Recognition. 2016.