基于移动设备与CNN的眼动追踪技术简介

眼动追踪是一项科学应用技术，用户无需与交互设备物理接触即可发送信息与接收反馈。从原理上看，眼动追踪主要是研究眼球运动信息的获取、建模和模拟，用途颇广。而获取眼球运动信息的设备除了红外设备之外，还可以是图像采集设备，甚至一般电脑或手机上的摄像头，其在软件的支持下也可以实现眼球跟踪。

下面说的这篇论文是MIT2016年在CVPR上发的一篇论文。论文主要是基于移动设备的眼动追踪技术，使用了卷积神经网络来预测视点。

使用移动设备进行眼动追踪技术能提供许多好处:

(1)广泛使用更多的超过三分之一的世界人口估计智能手机在2019年,远远超过台式机或笔记本用户的数量;
(2)技术升级的采用率高——很大一部分人拥有最新的硬件，可以实时使用计算成本高昂的方法，如卷积神经网络(CNNs);
(3)移动设备上相机的大量使用导致相机技术的快速发展和部署;
(4)相机相对于屏幕的固定位置减少了未知参数的数量。

作者开发了在移动设备上收集严冬追踪数据的iOS软件，可以记录并上传数据，名字叫GazeCapture，有三个特性：

（1）可扩展
（2）可靠的
（3）产生大的可变性。

其中，可变性：为了学习强大的眼动追踪模型中，数据的显着变化很重要。这种可变性对于实现高精度无校准眼动追踪至关重要。鉴于我们使用众包（crowdsourcing platform），期望拥有姿势，外观和光照的变化很大。其次，要求参与人员不断移动头部和头与手机之间的距离。最后，要求参与人员每次都要改变移动设备的方向60点。可以使用内置传感器检测此更改在设备上。这改变了相对位置相机和屏幕提供进一步的可变性。

为了关联每个手机设备里的AMT任务（手机此次数据的活动），每个工作人员随后键入了AMT中的唯一代码进入他们的移动应用。点位置都是随机来自13个固定location（loc），并通过固定loc学习calibration的影响。

为了证明数据的可变性，作者使用了X. Zhang, Y. Sugano, M. Fritz, and A. Bulling. Appearance-based gaze estimation in the wild的方法对每一帧来估计头部姿势h和凝视方向g，在GazeCapture MPIIGaze和TabletGaze上绘制h和g的分布作。虽然我们的数据集包含一个类似的总体分布h与现有数据集相比，异常值的比例明显更大。