您如今的地位射洪消息首页 >>科技消息>>注释

技巧搜集-这些图片是为了练习人脸辨认专门搭建的数据集

【建行被罚30万】

記者下載了IT社區供给的人臉數據,並通過識圖找到圖片來源為某商業網站廣告中的人臉。

據劉澤康介紹,這些照片大年夜部分是從網絡公開的數據庫中下載的,也有數量相當可觀的一部分系志願者供给。“照片不包含志願者身份信息,故不触及侵犯公平易近隱私或许肖像權的問題。”

記者暗訪時與出售人臉照片的賣家對話。

AI人臉識別研究人員劉澤康向新京報記者介紹,對於AI人臉識別從業者來說,擁有幾萬張人臉照片並不罕見,他每天都须要將陌生人的人臉照片導入到模型当中,對模型進行優化。

據其介紹,比来詢問此款商品的人並不在少數,至於標價十元只是一個基數,交易的話還须要簽訂合同,通過對公賬戶轉款。“走公賬及簽訂合同是雙方的一個保证。”

人臉數據的信息泄漏風險專家:從制度上約束,防止信息泄漏

人臉照片在網上可公開下載部分來自於網站爬取人臉照片正在被作為商品售賣。新京報記者在IT社區、網絡商城等多個平臺搜刮發現,有很多人臉照片可供免費下載或付費購買。付費金額由帖子發佈者自定,多在10元到20元阁下,如有發帖者表示可以“8元購買60名志願者的每人500張照片,共計3萬張照片”。

北京大年夜學法學院传授薛軍告訴新京報記者,有须要對人臉識別設置門檻,“人臉信息伴隨著人的終身,一旦發生泄漏風險就特別大年夜,所以要進行最嚴格的保護,起首必須取得用戶昭示赞成才能搜集,我個人認為有時取得個人赞成也不可,须要國家授權才能搜集敏感的生物識別信息。”

對此,北京市中聞律師事務所合股人趙虎表示,這或存侵犯肖像權與著作權的問題。“他人公開上傳到貼吧或许微博的他人的圖像,只是這些肖像權人内行使本身的肖像權,假设沒有明確授權他人应用的,任何人出於商業目标而進行应用,肯定是會侵犯他人肖像權的。除上傳肖像,還有能够上傳一些本身拍攝的其他圖片。若未經著作權人明確授權可以应用這些圖片外,還會涉嫌侵犯他人的著作權。”

百度一名從事AI學習的技術人員對新京報記者表示,從業者搜集大年夜量人臉圖片的目标就是為了機器學習。“這本身是一個很逝世板的過程,比如拿到一張男性浅笑的圖片,你就人工標註‘浅笑’然後給機器AI識別,人工標註的多了,AI天然就加倍精準了,今朝這些技術實際上早已落地,例如火車站人臉識別身份證圖片”。

不過,也有部分照片來源於網站爬取。記者下載了13萬張標記為“網紅”的人臉圖片後,隨機選取五張照片在百度識圖搜刮後發現,个中一張照片為一名喷鼻港藝人。而記者搜刮與該藝人名字相關的圖片後發現,所下載的人臉圖片的來源五花八門,有的截取自娛樂新聞網站的新聞圖片,也有博客發佈的博文配圖。值得註意的是,有的圖片來自於已刪除的博客,但記者依然可以在搜刮引擎搜刮到相關圖片,只不過源網頁顯示“內容已刪除”。

而在劉澤康看來,技術本身並無原罪。“沒有最精準的人臉識別,只要更精準的人臉識別。以酒店住宿為例,很多人都有過識別慢、難識別、識別條件苛刻等問題。如在今朝一些酒店的人臉識別系統中,對於佩带眼鏡等飾品或強光照等條件下,識別不夠精準,须要几次再三重覆識別,研究的意義就在於可以擁有更快更精準的人臉識別系統。”

新京報記者通過在IT社區人臉數據資源帖評論區加微信的方法聯繫到一名自稱擁有人臉數據庫的賣家,對方表示假设付出3000元,可以供给24000套人臉圖像,渠道“多種多樣”。對於具體的人臉圖像來源,對方僅表示是“中國的”,但沒有泄漏更多。

新京報記者羅亦丹李大年夜偉 luoyidan@xjbnews.com

據瞭解,在IT社區中可公開下載的照片標記為外國研究機構供给的國外志願者照片,如有帖子表示“耶魯大年夜學AR人臉數據庫、卡耐基梅隆大年夜學PIE數據庫等打包賣15元”,這些圖片是為了訓練人臉識別專門搭建的數據集,圖片質量較好。

在安恆信息安然研究院院長吳卓群看來,人臉數據存在唯一性,假设廠商將人臉數據搜集以後沒有規範化應用,一旦泄漏能够導致嚴重的後果。

新京報記者採訪多位從業者發現,購買人臉照片的大年夜多是從事人臉識別相關研究項目标任务人員,人臉數據被他們用於訓練機器AI的識別精確度。

人臉數據可用來做什麼?多用於研究,大年夜量照片用於AI學習

某IT類網站可应用網站積分或虛擬幣下載人臉數據。

另外,新京報記者在瀏覽國外網站時發現,有很多軟件公司公開出售其儲備的人臉數據庫,如一家網站儲存有75萬張人臉圖片,數據共305GB。此類包含動輒數萬人臉照片的數據庫在網絡空間並不難查找,且有的數據庫並未對其圖片來源能否合法做出明確標識。

吳卓群表示,人臉識別技術在技術上已經日趨成熟,在許多圖片識別上,AI的準確率乃至可以高過人工識別,總的來說,技術是為了便利大年夜家,便利社會,這個技術發展本身還是比較好的,但為了防止泄漏的風險,有须要從制度層面來保證人臉數據信息的流轉,或许設置一個標準來規定我們採集後什麼能存,什麼不克不及存,從制度和司法上來約束,以防止採集後出現信息泄漏的問題。

11月初,國內“人臉識別第一案”引發了輿論關於人臉識別技術與安然的討論。而不久前,“ZAO”APP的興起也讓AI換臉走入了浅显平易近眾的視野,值得註意的是,AI換臉技術今朝已被應用於影視、娛樂等各方面,乃至是淫穢視頻。這引發了社會對人臉數據能否能够被濫用的爭議。

有賣家稱人臉圖片“可定製”3000元可購買24000套新京報記者發現,由於國外進行人臉識別項目時間較早,今朝公開供给的人臉數據庫的圖片多來自國外,照片也以外國人為主,但對於國內的人臉識別研究項目,為讓模型識別更為精準,最好应用中國或亞洲面孔的圖片,此時外國數據庫的圖片常常無法滿足需求。

該名店家強調,“一切的照片都是近期的。”至於圖片來源,對方表示“大年夜部分來自於同伙圈,有的是同伙圈一傳十十傳百搜集來的,有的則是直接購買的,搜集起來非常費勁。”

該名法式榜样員表示,本来有許多人臉識別相關的AI法式榜样是開源的,“很多人乃至連人臉數據庫都不消,可以直接下載已經訓練好的模型,但自從ZAO引發爭議後,一些模型和代碼就不再公開了,這樣導致了另外一個後果,大年夜家還得本身再找圖片進行AI訓練。”

趙虎告訴新京報記者,不法買賣人臉圖像等數據能够違反《平易近法總則》《侵權責任法》中對於他人隱私權、肖像權的保護。而國家機關或许金融、電信、交通、教导、醫療等單位的任务人員应用其控制的公平易近民臉數據,然後進行倒賣的,能够會構成《刑法》規定的出售、不法供给公平易近個人信息罪。“假设是手機APP等不法聚集用戶相關信息,則還會違反《移動互聯網應用法式榜样信息服務管理規定》的相關規定。”

一家店鋪稱可以供给人臉數據定製服務。

“火爆異常的AI換臉背後的任务流程並不難懂得,用戶將照片導入後,計算機會通過網絡模型對照片的像素點進行調整,從而生成與影視劇中人物神情及所處環境、光線等相婚配的人臉,實現AI換臉。”劉澤康告訴新京報記者,“為達到換臉的目标,計算機须要對人臉圖像進行大年夜量的數學運算,假设圖片數量過少,模型不夠優化,識別不夠精準,計算機便很難較好地實現識別功能。”

新京報記者發現,劉澤康的電腦中,存放著幾萬張的人臉照片。這些圖片被按拍照機種類分別儲存在文件夾中。記者隨意點開劉澤康電腦中的一個文件夾,顯示共包含有2855照片。每個照片的名稱分別為其數字編號,採集場景及人物神情不盡雷同,但均為正常拍攝。

中國人平易近大年夜學法學院副传授丁曉東對此的看法則較為寬鬆,“我認為爬取公開的圖片本身沒有問題,比如明星的圖片,但這一行為也须要根據圖片的來源和圖片的場景來認定,假设對微博和石友相冊等半公開圖片進行爬取,由於存在生物識別信息,存在必定風險,爬取就须要有必定的限制。”

某圖片數據庫展示的部分圖片來源是“爬自互聯網”。

不過,也有從事隱私檢測的法式榜样員對記者表示,在擁有人臉識別功能後,有些機構反而可以更多地截取人臉圖片。“用戶在進行人臉識別時,機構在技術上是可以截存用戶圖片,從而构本钱身獨家數據庫的,而這些截存下來的圖片有能够他們本身用於訓練AI模型,但也不清除用來買賣”。

對於可直接下載的圖片,有發佈者表示,其供给的數據集可以随便任性拿來下載研究,“只需別用在商業和不正當用处便可以了”。

郭兵認為,園區進行人臉識別將搜集他的脸部特点等個人生物識別信息,該類信息屬於個人敏感信息,一旦泄漏、不法供给或许濫用,將極易伤害包含原告在內的消費者人身和財產安然。“根據《消費者權益保護法》第29條之規定,園區搜集、应用原告個人信息,應當遵守合法、正當、须要的原則,昭示搜集、应用信息的目标、方法和範圍,並經原告赞成;并且,原告搜集、应用原告個人信息,應當公開其搜集、应用規則,不得違反司法、法規的規定和雙方的約定搜集、应用信息。原告在未經原告赞成的情況下,通過升級年卡系統強制搜集原告個人生物識別信息,嚴重違反了相關規定,損害了原告的合法權益。”

對此,也有網購平臺上的賣家供给照片“定製”。新京報記者在淘寶搜刮人臉數據集後註意到,某店鋪供给“同人N張人臉數據集,超10萬人不合角度、不合場景、不称身份、無遮擋、非名人非網絡圖庫”的人臉數據庫,還支撑“一站式”的數據定製服務。商品詳情介紹顯示,數據獲取含有人工數據採集、自動化數據採集、調研問卷搜集三個途徑。

“今朝,人臉識別技術已經被廣泛運用於智能門鎖、移動付出、手機解鎖等,減少竊密、造假、冒用、頂替等能够,晋升安然繫數;在公司、商場、機場、學校等場景下,人臉識別技術可以晋升管理效力,晋升交互體驗;在刑偵及公共領域,人臉識別技術可以協助抓獲潛逃多年的犯法嫌疑人,可以幫助掉散多年的家庭團圓,執法效力和社會公共安然得以大年夜幅进步。”百度安然總經理馬傑對新京報記者表示。

新京報記者查閱店鋪信息發現,購買人臉數據的定價為十元,但具體購買若干须要再與店家進行溝通。記者根據店鋪公開顯示的手機號與賣家取得了聯繫。“有些人要一兩萬個,有些要十萬個。普通都是要一萬個人以上,每個人五張。”該賣家表示,“(照片)都是本身採集的。”

記者瀏覽多個人臉下載帖發現,人臉圖片的上傳者普通會對圖片中触及的人臉屬性進行標明,如“小孩”、“明星”、“網紅”等。照片場景則多種多樣,有個人自拍,也有與同伙的合影,而被截取下來的只要人臉部分的圖片。

北京大年夜學法學院传授薛軍告訴新京報記者,有须要對人臉識別設置門檻,“人臉信息伴隨著人的終身,一旦發生泄漏風險就特別大年夜,所以要進行最嚴格的保護,起首必須取得用戶昭示赞成才能搜集,我個人認為有時取得個人赞成也不可,须要國家授權才能搜集敏感的生物識別信息。”

事實上,早在人臉識別技術剛剛興起時,搜集大年夜量人臉照片用於機器AI學習就成為了人臉識別項目研究的“剛需”。

新京報就此事致電杭州野生動物世界,一名任务人員證實,今朝指紋識別已撤消,入園者只能到年卡中间錄入人臉信息,通過人臉識別入園。該任务人員介紹,人臉識別更便利、快捷,“指紋有時候有點破皮、按(識別)不出來的。”對於外界對個人隱私的擔憂,該任务人員說,“就你入園掃一下(臉)。”他補充,“指紋也是你的信息,你辦年卡的時候,身份證也留了,電話也留了,這些也是你的信息呀。”

10月28日,由於反對採用人臉識別的方法進入動物園,浙江理工大年夜學特聘副传授郭兵作為消費者將杭州野生動物世界告上了法庭,該案同样成為國內消費者起訴商家的“人臉識別第一案”。2019年11月1日,杭州市富陽區人平易近法院正式受理此案。

“人臉識別本身是便利我們生活的,可以避免除我們輸密碼的麻煩,但它最大年夜的風險在於信息泄漏,因為包含人臉在內的生物識別具有唯一性,這些唯一性的人臉信息一旦被採集上去,假设沒有妥当處理,能够會被濫用。”吳卓群告訴新京報記者。

誰在聚集你的臉?誰在買賣你的臉?

隨後,該店家發送給新京報記者一組儲存有人臉照片文件夾的截圖,截圖共包含有18張照片,每個照片均被以數字編號定名。“一個人一元,五張照片,在轉賬之前,可以应用遠程操作來觀看這些照片。”

關於定製服務,該店客服向記者發送了“定製”所需維度,包含男女比例、年齡層次比例、國籍、膚色、種族等。“有其他请求也能够說。”數據集的價格與以下身分相關。

“AI換臉作為一種新型的技術,各方面配套還有待完美,须要社會各偏向積極方面去引導,不克不及因噎廢食。”劉澤康認為。

新京報記者近日調查發現,網上有一些私下售賣人臉數據的賣家,有發帖者稱8元可買3萬張人臉照片。有賣家表示可以供给“更多渠道”的人臉圖片,按照3000元可買24000套人臉照片來計算,相當於一套只需一毛多。還有賣家表示,其出售的照片大年夜部分來自同伙圈,且沒有取得對方赞成。

值得註意的是,該店家承認,“這個(应用照片)肯定沒有取得人家的赞成。”不過,在她看來,這些照片被拿來做研究並無不当。“不是公佈到社交平臺或公開網站,肯定是沒問題的。”