x

Einloggen

Hast du noch keinen Account? Jetzt registrieren!

SSN Study - Часта задаваемыя пытанні

Original on www.heinz.cmu.edu/~acquisti/

Прагназаванне сацыяльнага страхавання ад публічных дадзеных [ PDF ] [ HTML ] [ прыкладанне ] [ Каментар William E. Winkler ]

Alessandro Acquisti (Heinz каледж, Універсітэт Карнегі-Меллона)

Ralph Gross (Heinz каледж, Універсітэт Карнегі-Меллона)

Працы Нацыянальнай акадэміі навук Беларусі, 7 ліпеня 2009.

Будзе прадстаўлены на BlackHat Лас-Вегасе, 29 ліпеня 2009

Мы выяўляем глыбокую ўдзячнасць даследаванняў падтрымцы Нацыянальнага навуковага фонду, грант 0713361, з войска ЗША даследаванням, Кіраванне па DAAD190210389 кантракту з Carnegie Mellon CyLab і Беркман фонду, а з Pittsburgh Supercomputing Center

Мы таксама жадалі б падзякаваць Jimin Lee, Ihn Aee Choi, Dhruv Deepan Mohindra і, у прыватнасці, Ioanis Alexander Biternas Wischnienski за выбітныя даследаванні асістэнтам.

Гэта праект дакумента. Мы будзем працягваць дадаваць Q і як мы атрымаем ці чытаць актуальныя пытанні з нагоды даследаванні ў каментарах і лісты. Просьба мець з намі, як мы дадаём утрыманне і працаваць у кірунку канчатковага, чыстая версія гэтага FAQ. Дзякуй!

Дадатковую інфармацыю можна знайсці на нашым даследаванняў блог.


Індэкс





Агульныя пытанні:


  1. Што гэта за даследаванне о?

  2. Чаму гэта так важна? Чаму такой прадказальнасці праблема?

  3. Якія наступствы вашых вынікаў?

  4. Чаму вы пра публікацыю гэтых вынікаў?

  5. Якія крокі вы распачалі, перш чым апублікаваць вынікі?

  6. Якім чынам вашы вынікі будуць скарыстаны для рашэння праблемы крадзяжу асабістых дадзеных? Ці ёсць у вас практычныя рэкамендацыі?


Тэхнічныя пытанні:


  1. Што менавіта гэта значыць, што ССЗ з'яўляюцца "прадказальнай"?

  2. Як зрабіць такую працу прадказання?

  3. Як вы праверыць вашы прагнозы?

  4. Калі алгарытм толькі вырабляе вокны значэння могуць уключаць правільны SSN, чаму гэта турбота?

  5. У вас "зламанай" некаторыя сакрэтны код? Не Адміністрацыі сацыяльнага забеспячэння публічна расчыняе інфармацыю пра прызначэнне схемы?

  6. Хіба гэта не старая навіна? Усім вядома, што Раён нумара злучаны з дзяржавамі (і г.д.)

  7. Ці можа прадказальнасці прывесці нумары SSN і крадзяжы асабістых дадзеных? Ці азначае гэта даследаванне публікацыі даручыць асобы злодзеяў пра тое, як набыць нумары SSN?

  8. Як гэта адрозніваецца ад папярэдніх даследаванняў?

  9. Якія дадзеныя трэба прагназаваць SSN? Хіба гэта не даты нараджэння цяжка знайсці?

  10. З якіх сацыяльных сетак на сайце вы знойдзеце дадзеныя для аднаго з вашых тэстаў?

  11. Не SSN насамрэч гэтак даступныя, як даты нараджэння?

  12. Ці можна сапраўды прадказаць * кожны * SSN?

  13. Колькі фактычнай ССЗ можна прадказаць?

  14. Я змясціў маю дату нараджэння ў Інтэрнэце. З маёй SSN "зламала"?

  15. Не дадзеных парушэнняў большай праблемай?

  16. Не танней проста заплаціць дадзеных брокера атрымаць SSN дадзеных?

  17. Хіба гэта не дзела, што ССЗ, у адзіночку, не з'яўляюцца дастатковымі, каб увасабляць твар? Слоікі і іншыя паслугі, запытаць дадатковую інфармацыю (напрыклад, дзявоцкае прозвішча маці, імя хатняй жывёлы, і т. д.).

  18. Калі нумар SSN больш не выкарыстоўваюцца для праверкі сапраўднасці, пра што яшчэ можна выкарыстоўваць?

  19. Хто фундаваных вашых даследаванняў?

  20. Ці былі выпрабаванні IRB ухвалы?


Выканаўчае рэзюмэ


Нумары сацыяльнага страхавання былі створаны ў адпаведнасці з Законам пра сацыяльнае забеспячэнне 1935 гады ў якасці ідэнтыфікатараў для ўліковых запісаў для адсочвання індывідуальных прыбыткаў. Тым не менш, з цягам часу, яны сталі выкарыстоўвацца ў якасці адчувальнай прылады аўтэнтыфікацыі, стаўшы адным з кавалачкаў інфармацыі, найболей часта дамагаюцца асобы злодзеяў: веды яго імя, SSN, а таксама дата нараджэння, часта з'яўляецца дастатковай умовай для ўвасаблення, што асобныя і атрымаць доступ да цэлага шэрагу паслуг, што прыводзіць да так званай крадзяжу асабістых дадзеных. Бягучага дзяржаўнай палітыкі ў вобласці крадзяжу мяркуе, што ССЗ павінны заставацца канфідэнцыйнымі: спажыўцы заклікаў абараніць свае нумары SSN. Тым не менш, мы паказваем, што можна прагназаваць асобныя нумары SSN проста з агульнадаступных дадзеных. На падставе назіранняў выпуску мадэлі ў " Смерці Master File "(база дадзеных, якая ўтрымоўвае нумары SSN людзей, якія памерлі), мы змаглі выкарыстоўваць інфармацыю пра індывіда дата і стан нараджэння прадказаць вузкіх дыяпазонаў значэнняў можа ўтрымоўваць гэта SSN асобы. прагнозы асабліва справядліва для ССЗ людзей, якія нарадзіліся пасля 1988 гады (калі SSA пачаў Пералік пры нараджэнні праграмы, з дапамогай якой дзеці атрымліваюць нумары SSN неўзабаве пасля нараджэння) і ў дзяржавах з ніжэйшым насельніцтвы. Са ССЗ прадказальныя з публічных дадзеных, крадзяжы асабістых дадзеных можа адбыцца нават без такіх падзей, як дадзеныя парушэнні. Некаторыя з наступстваў з'яўляецца тое, што 1) SSA павінен выпадковага ўсяго задання ў цэлым SSN працэсу, 2) бягучыя палітычныя ініцыятывы ў вобласці SSN і крадзяжы асабістых дадзеных павінны быць перагледжаны: большасць палітыкі ў наш час асноўная ўвага надаецца ўхіленню ССЗ з базы дадзеных ці пра выдаленне сваіх лічбаў, так што яны могуць быць скарыстаны як "канфідэнцыйная інфармацыя" - аднак, паколькі ССЗ прадказальныя з іншых адкрытых крыніц дадзеных, нумары SSN не можа быць канфідэнцыйнай, нават калі яны будуць выдалены з базы дадзеных і, такім чынам, гэтыя ініцыятывы могуць апынуцца неэфектыўнымі, 3), паколькі ССЗ можна прадказаць і, такім чынам, у пэўным сэнсе, паў-грамадскай інфармацыі, спажыўцы не павінны ў адпаведнасці з суб'ектамі прыватнага сектара, выкарыстанні ССЗ як паролі ці для праверкі сапраўднасці.


Агульныя пытанні




Пыт. Што гэта за даследаванне?

Мы вывучылі схему прызначэння нумара сацыяльнага страхавання (ССЗ) і выявіў, што асобныя нумары SSN немагчыма прадказаць цалкам з агульнадаступных дадзеных. У прыватнасці, мы выявілі, што можна аб'яднаць інфармацыю з урадавых крыніц, з простымі дэмаграфічныя дадзеныя (такія як чалавека дзяржаўнага, дата нараджэння, шырока даступныя з камерцыйных баз дадзеных, спісы выбарнікаў, ці сацыяльныя сеткі), каб прадказаць, вузкія дыяпазоны значэнняў якой асобныя нумары SSN, хутчэй за ўсё, увосень.

Пыт. Чаму гэта даследаванне пытання? Чаму прадказальнасць ССЗ праблема?

ССЗ павінны быць канфідэнцыйнай інфармацыі - прадказальнасць ССЗ павялічвае рызыка велізарнага маштабу крадзяжу асабістых дадзеных.

ССЗ былі распрацаваны ў 1930-х гадоў, якія будуць выкарыстоўвацца ў якасці ідэнтыфікатараў рахункаў для адсочвання індывідуальных прыбыткаў. Тым не менш, з цягам часу, яны сталі выкарыстоўвацца для "праверкі сапраўднасці" ў розных паслуг прыватнага сектара - гэта значыць, каб засведчыць асобу і ці вызначыць хтосьці, хто ён/яна прэтэндуе быць. Такім чынам, яны сталі лічыцца канфідэнцыйнай інфармацыі. Пртіворечія выкарыстоўваючы той жа нумар, як ідэнтыфікатар рахунку (якія могуць выкарыстоўвацца сумесна з іншымі бакамі), а таксама "пароль" (якая павінна быць прыватнай і канфідэнцыйнай) унесла свой унёсак у падвышэнне крадзяжу асабістых дадзеных. У ЗША, веды імя чалавека, дату нараджэння, і SSN часта дастатковай умовай для ўвасаблення гэтага твару за фінансавай, медыцынскай і іншых выглядаў махлярства. Такім чынам, калі ССЗ могуць быць атрыманы з публічных дадзеных, рызыка крадзяжу асобы павялічваецца.

Пыт. Якія наступствы вашых вынікаў?

Першае: ССЗ, у іх цяперашнім выглядзе, вельмі небяспечныя паролі і не павінны выкарыстоўвацца для праверкі сапраўднасці. Калі атрымоўваецца выяўляць усё 9 лічбаў SSN у 10, 100 ці нават 1000 спроб, што нумар сацыяльнага страхавання не больш за бяспечна, чым 3-знакавы код. Абодва дзяржаўных органаў (у тым ліку і SSA FTC) і даследнікаў (напрыклад, [ LoPucki, 2003 ], [ Самуэльсона, 2007 ], [ Solove, 2003 ]) папярэджвалі супраць выкарыстання нумара SSN для праверкі сапраўднасці. Нажаль, нумары SSN-ранейшаму выкарыстоўваюцца (і злоўжыванні) усюды ў прыватным сектары, для ідэнтыфікацыі асобы, якая вядзе да шырокага распаўсюду злачынстваў, крадзяжы ідэнтыфікацыйнай інфармацыі.

Другое: Бягучы заканадаўчыя і палітычныя ініцыятывы ў вобласці прадухілення крадзяжу асабістых дадзеных, накіраваныя на ўхіленне ССЗ ад грамадскага ўздзеяння, ці пра выдаленне іх першыя пяць лічбаў з лепшых падахвочванняў, але можа быць хібнай - таму што нават адрэдагаваны ці выдаліць нумары SSN заставацца прадказальным з іншых адкрытых крыніц наяўных дадзеных.

Трэцяе: У шырэйшым сэнсе, нашы дадзеныя вылучыць нечаканыя наступствы ўзаемадзеяння некалькіх крыніц дадзеных у сучаснай эканоміцы інфармацыі. Яны паказваюць, як не-далікатныя асабістыя дадзеныя (напрыклад, інфармацыі людзей сведчаць пра сябе анлайн) можна камбінаваць з іншымі крыніцамі дадзеных, а таксама несакрэтнай, што прыводзіць да высновы пра значна важнейшую інфармацыю.

Пыт. Чаму вы пра публікацыю гэтых вынікаў?

ССЗ вельмі небяспечныя паролі. Аднак, нягледзячы на папярэджанні з боку шматлікіх урадавых устаноў (у тым ліку і SSA FTC), яны часта выкарыстоўваюцца ў прыватным сектары, як ідэнтыфікатары і для праверкі сапраўднасці - гэта выклікае дадатковыя выдаткі і страты мільярды даляраў кожны год для прадпрыемстваў і спажыўцоў. Нашай мэтай з'яўляецца паказаць, што ў іх цяперашняй форме, нумары SSN скампраметаваны ў якасці пароляў; каб папярэдзіць не толькі палітыкаў, але і прадпрыемствам і спажыўцам пагроз для асобных суб'ектаў, злучаных з выкарыстаннем (і злоўжыванні) ад ССЗ як сродак аўтэнтыфікацыі, а таксама ўнесці свой унёсак у абмеркаванне пытання пра больш эфектыўную, бяспечнай і захаванні прыватнасці сродку праверкі тоеснасцяў у нашым інфармацыйным грамадстве.

Крадзяжы так шырока распаўсюджаны ў ЗША, бо нумары сацыяльнага страхавання з'яўляюцца недарэчна скарыстаны прадпрыемствамі як ідэнтыфікатары і паролі, як - тое, што яны ніколі не былі разлічаны на [ Сміт, 2002 ]. Гэта практыка, Самуэльсон клінікі Каліфарнійскага ўніверсітэта ў Берклі вызначыў як "безадказныя" [ Самуэльсон, 2007 ], а таксама правы навуковец Daniel Solove вызначае, як "архітэктура ўразлівасці" [ Solove, 2003 ]. У ЗША агульныя выдаткі на крадзяжы ў 2007 году ацэньваецца ў памеры 49,3 млрд. даляраў [ Johannes, 2006 ]. Як адзначыў Крыс Hoofnagle [ Hoofnagle, 2007 ], гэтыя выдаткі нясуць усе бакі, але асабліва з боку спажыўцоў, няхай гэта будзе непасрэдна (страчаны час, нязручнасці, і са сваёй кішэні выдаткі) ці ўскосна (праз больш высокія зборы аплачваюцца крэдытных паслуг, ці ў якасці падаткаплатнікаў, калі фінансавыя інстытуты спісанне страт крадзяжу асабістых дадзеных, пры разліку карпаратыўнага падаходнага падатку). Акрамя таго, дадатковыя выдаткі злучаны з кожным годам нават у адсутнасць махлярства, з-за выдаткаў, выкліканых спробамі абараніць, і эксплуатаваць сістэмы [ idanalytics, 2005 ] - разгледзім, напрыклад, інвестыцыі, кампаніі і прыватныя асобы павінны несці ў мэтах абароны канфідэнцыйных дадзеных. Паказваючы, што ССЗ прадказальныя з публічных дадзеных, і таму недастаткова як паролі, мы спадзяемся дапамагчы спыніць выдаткі, злучаныя з іх выкарыстаннем у якасці сродку праверкі пасведчанняў асобы, і перанакіраваць увагу да ходу даследаванняў па бяспецы, прыватнасці, якія захоўваюць метадаў аўтэнтыфікацыі - ад 2-аўтэнтыфікацыі для лічбавых сертыфікатаў.

Пыт. Якія крокі вы распачалі, перш чым апублікаваць вынікі?

Сярод іншага, мы апусцілі адчувальныя падрабязнасці пра стратэгію прагназавання з апублікаванага артыкула, і мы падзяліліся нашы вынікі з дзяржаўнымі органамі да яго публікацыі.

Пыт. Якім чынам вашы вынікі будуць скарыстаны для рашэння праблемы крадзяжу асабістых дадзеных? Ці ёсць у вас практычныя рэкамендацыі?

Атрыманыя дадзеныя сведчаць шэраг меркаванняў і магчымых стратэгій для дзяржаўнага і прыватнага сектара, а таксама для прыватных асоб.

Урадавыя ўстановы

Прызначэнне схемы ССЗ можа быць зменены для ўключэння праўдзівай выпадковасці. Гэта дазволіць ухіліць рызыку прадказальнасці для зноў прызначаных ССЗ - зрэшты, гэта будзе не занадта шмат, каб абараніць сотні мільёнаў ССЗ ужо прызначаны. Гэта можа таксама прымусіць нас самаздаволення з захаваннем бягучага - і ненадзейны - сістэма, у якой ССЗ з'яўляюцца недарэчна выкарыстоўваныя суб'ектамі прыватнага сектара і як грамадскага ідэнтыфікатараў і пароляў дзеляў - роля, якую ССЗ не збіраўся выконваць, калі яны былі створаны ў 1930 году. Дзяржаўныя ўстановы (і палітыкі), можа замест гэтага разгледзець стымулюючы суб'ектамі прыватнага сектара, адмовіцца ад выкарыстання (і пра крымінальную адказнасць за злоўжыванне) ССЗ у якасці сродку аўтэнтыфікацыі, а таксама можа спрыяць акадэмічнай і галіновай навукі на ўжыванні больш эфектыўных, бяспечных і прыватнасці -захаванне сродкаў электроннай аўтэнтыфікацыі - напрыклад, 2-аўтэнтыфікацыі і лічбавых сертыфікатаў.

Палітыкі

Бягучыя палітычныя ініцыятывы ў вобласці SSN абароны і крадзяжы прафілактыкі асоба, можа быць пераацэнена [ LoPucki, 2003 ]. Шматлікія цяперашнія ініцыятывы ў гэтай вобласці (гл. [ ГАО, 2008 ], [ FTC, 2008 ]), а таксама 2007 прэзідэнта Identity Мэтавая група рэкамендацый крадзяжу, з лепшых падахвочванняў, але яны накіраваны на ўхіленне ССЗ ад грамадскага ўздзеяння (ці пра выдаленне іх першых 5 лічбаў), для таго, каб захаваць "ролю ССЗ у якасці адчувальных нумары і сродкі аўтэнтыфікацыі [ у Identity крадзяжы Старшыня Мэтавай групы, 2007 ]. Атрыманыя намі вынікі, наадварот, мяркуюць, што падыходы вылучна засяроджаны на ўхіленні ці пра выдаленне нумара SSN, могуць апынуцца неэфектыўнымі ці хібнымі: прызначаны нумары SSN не можа быць адкліканы, каб пазбегнуць будучых махлярствы, падвяргаюцца дадзеныя не могуць быць прыняты назад, і першыя 5 лічбаў ССЗ з'яўляюцца тыя, насамрэч, лягчэй зрабіць выснову. Гэта пакідае нават адрэдагаванае ці ўсечаных ССЗ яшчэ прадказальным і, такім чынам, па-ранейшаму ўразлівыя.

Крэдытная справаздачнасць Агенцтвы, фінансавых і іншых устаноў

КРАС і фінансавыя інстытуты павінны спыніць выкарыстоўваць нумар SSN для аўтэнтыфікацыі (гэта значыць як дакумент, які сведчыць асоба), а таксама ўмацаванню іх самабытнасці адпаведных стратэгій і метадаў праверкі сапраўднасці. Даклады FTC [ FTC, 2004 ] і навуковых кругоў [ Hoofnagle, 2007 ] выявілі як крэдытных заявак з няправільным імем ці нават няправільныя лічбы SSN рэгулярна лічыліся сапраўднымі (з-за крэдытных справаздач, як вядома, утрымоўваюць памылкі і недакладнасці). Падобная практыка пакінуць адкрыты "дзюры" ў інфраструктуру праверкі асобы, што ашуканцы могуць і павінны выкарыстоўваць.

Сапраўды, як крэдытнай справаздачнасці ўстаноў і ініцыятыў, такіх як E-Verify і SSNVS варта надаваць адмысловую і падвышаную ўвагу да спроб асобы злачынства, якія належаць на "зваліцца. Тамблінг гэта кібер-злачынца практыкі, якія ўжо былі зарэгістраваны, і якая складаецца са злёгку змяняецца лікавых дадзеных у ашуканскіх прыкладанняў, такіх як адрасы і, у сутнасці, маніпуляцыі вядомых ССЗ у некалькіх прыкладаннях увага [ idanalytics, 2005 ].

Анлайн-сэрвісы

Інтэрнэт паслугі, якія пошце ці дазволіць карыстачам ствараць дэмаграфічную інфармацыю (ад ён-лайн пошуку людзей паслугі анлайнавых сацыяльных сетак) варта разгледзець пытанне пра стратэгію (ад выбару адпаведнай налады па змаўчанні для адэкватнай палітыкі бяспекі), якія ў максімальна магчымай ступені імкнуцца збалансаваць запатрабаванне ў вольных струменяў дадзеных і абмен меркаваннямі з абаронай ад парушэння гэтых дадзеных, паклаўшы адмысловая ўвага да тых меркаваннем, што нават бяскрыўдныя дадзеныя могуць камбінаваць для вытворчасці больш адчувальнай інфармацыі нароўні з іншымі крыніцамі.

Спажыўцы

Рэалізуючы патэнцыял выкарыстання дзяржаўных дакументаў як "заводчык" дакументы важнейшыя дадзеныя, мы, як спажыўцы, можам прымаць больш узважаныя рашэнні, гандлёва-з і параўнанні пераваг анлайнавага абмену інфармацыяй з патэнцыйнымі выдаткамі. Тым не менш, наша задача дакуменце падкрэсліваецца выходзіць за рамкі "кантроль карыстачы - гэта сістэмныя праблемы ў сувязі з эксплуатацыяй ССЗ для мэт (праверкі сапраўднасці), яны ніколі не былі прызначаны для выканання. Такім чынам, акцэнт на спажыўцоў просяць, каб "абараніць" іх нумары SSN [ SSA, 2007 ], можа быць недарэчным, калі нават з лепшых падахвочванняў 'ССЗ спажыўцоў можа апынуцца пад пагрозай з-за інфармацыі іншых падраздзяленняў паказаў пра іх. Іншымі словамі, нашы вынікі паказваюць, што праблема бяспекі ССЗ выходзіць далёка за рамкі спажыўцоў адказнасць і кантроль: ён павінен рабіць з выкарыстаннем (і злоўжыванні) ад ССЗ у прыватным сектары ў мэтах (напрыклад, праверка сапраўднасці), яны ніколі не былі разлічаны выканаць. Як спажыўцы, мы вельмі мала кантроль па гэтым пытанні. Урэшце, гэта сістэматычныя праблемы, прамысловасці, палітыкі і, вядома, даследнікі павінны вырашыць.


Тэхнічныя пытанні




Што менавіта гэта значыць, што ССЗ з'яўляюцца "прадказальнай"?

Гэта азначае, што інфармацыя пра асобныя дзяржаўная і дата нараджэння можа быць дастатковым для статыстычна скласці вузкіх дыяпазонаў значэнняў якой гэты твар SSN, хутчэй за ўсё, увосень.

"Можа", таму што гэта праўда (увогуле, і спрашчэнне рэчаў трохі), толькі для твараў, якія атрымалі SSN вакол момант іх нараджэння (да 2005 году, прынамсі 92 адсоткаў ССЗ прызначаны грамадзяне ЗША былі прызначаны пры нараджэнні [ SSA, 2006 ]; адсотак твараў, якія атрымліваюць іх нумары SSN прыкладна тым часам іх нараджэнні пачаткаў рэзка ўзрастае ў канцы 1980 гады ў выніку Пералік па ініцыятыве нараджэння).

"Дыяпазоны значэнняў" азначае, што прагнозы, заснаваныя на статыстычных высноў: у цэлым, першыя 5 лічбаў можна прадказаць з вельмі высокай ступенню дакладнасці, з адной спробы - асабліва для людзей, якія нарадзіліся пасля 1988 гады і ў меней густанаселеных штатах. У некаторых выпадках мы змаглі прадказаць цэлым 9 лічбаў індывідуальнага нумара SSN пры першай жа спробе. Часцей за ўсё, прагнозы вытворчасці вокнаў значэння, якія могуць уключаць фактычныя 9 лічбаў. Гэтыя вокны могуць быць вельмі вялікімі (і, такім чынам, недакладна) за вызначаныя гады і станаў (напрыклад, для твараў, народжаных у Каліфорніі ў 1973), але можа быць вельмі вузкай (і, такім чынам, больш стаўленні, з пункту гледжання рызыкі крадзяжу асобы) для Невялікія дзяржавы і ў апошнія гады (напрыклад, 1 з 20 нумары SSN твараў нарадзіліся ў DE у 1996 году ў нашым наборы дадзеных могуць быць вызначаны толькі з 10 ці менш спроб у SSN).

Пыт. Якім чынам вашы прагнозы SSN працы?

Нашы прагнозы заснаваны на тым, што нумара SSN размеркаваны па складаных, але рэгулярна - і, такім чынам, прадказальнай - шаблон. Прагназаванні працы, заснаваныя на інтэрпаляцыі чалавека даты і стан нараджэння з выпускам мадэляў SSN, атрыманых з так званых " Смерць Master File ", агульнадаступны файл справаздачнасці ССЗ, імёны, даты нараджэння і смерці, і станы SSN ужыванне для фізічных асоб, смерць якіх, як паведамлялі, SSA (таксама вядомы як SSDI ці SSN Смерць Index). Частка працэс апісаны ў артыкуле PNAS. Некаторыя дэталі былі выключаны з публікацыі.

Пыт. Як вы праверыць вашы прагнозы?

Мы беглі два выпрабаванні. У першым цесце мы пабудавалі ССЗ смерці Master File (DMF) запісы, у залежнасці ад часу для перадачы дадзеных паміж 1973 і 2003 гадах. Мы назіралі статыстычных мадэляў, якія з'явіліся ў DMF дадзеных, а затым, мы выкарыстоўвалі гэтыя мадэлі для прагназавання ССЗ запісаў DMF. У другім цесце мы інтэрпаляваныя дэмаграфічныя дадзеныя, вынятыя з "профілі студэнтаў па сацыяльнай сетцы, з узорамі, вынятыя з DMF, і выкарыстоўваў яго для прадказання профіля ўладальніка нумара SSN. Мы пераканаліся ў правільнасці нашага прадказання супраць "фактычнага ССЗ фізічных асоб з выкарыстаннем бяспечнага IRB зацверджаны, ананімных пратакол, які вырабляецца толькі агрэгаваныя статыстычныя дадзеныя, не расчыняючы нам фактычнай SSN любога твару, у прыватнасці.

Пыт. Калі алгарытм толькі вырабляе вокны значэння могуць уключаць правільны SSN, чаму гэта турбота?

З розных дзяржаўных і прыватных паслуг у рэжыме анлайн можа быць атакаваны для праверкі (з выкарыстаннем грубіянскай сілы праверкі) падмноствы змены прадказаў алгарытмам.

Статыстычныя прагнозы магчымых вокны нумара SSN не азначаюць, адзін, што дакладныя SSN будзе знойдзены. Аднак, калі дыяпазон значэнняў якой SSN, хутчэй за ўсё, падзенне становіцца рэзка скарацілася, цэлы шэраг "грубіянскай сілы" напады, пры якіх было б неэфектыўным ці інакш немагчымым стала магчымым і здзейсным. Калі адна ці дзве спробы досыць, каб вызначыць вялікую частку выдадзеных ССЗ 'першым 5 лічбаў, зламыснік стымулы да інвеставання сродкаў ва ўборцы астатнія чатыры з дзяржаўных дакументаў і камерцыйных паслуг. Калі менш, чым 10, 100 ці 1000 спробы досыць, каб вызначыць поўны нумар SSN для велізарнай колькасці мэт, зламыснікі могуць выкарыстоўваць розныя дзяржаўнага і прыватнага сектара анлайнавых паслуг (такіх як анлайн "імгненнага" сцвярджэнне сайтаў крэдыт, пра што гаворыцца ў дакуменце ), каб праверыць падмностваў прадказаў змены ў адпаведнасці з алгарытмам, з тым каб праверыць, якія SSN адпавядае індывіда з дадзенай даты нараджэння.

Пыт. Ці ёсць у вас "зламанай" некаторыя сакрэтны код? Не Адміністрацыі сацыяльнага забеспячэння публічна расчыняе інфармацыю пра прызначэнне схемы?

Не, мы не парушылі сакрэтны код, і, вядома, прызначэнне схемы галоснасці. Саступкі SSN схема была створана ў 1930-е гады і не быў прызначаны для "бяспечнага": і тады, ён не думаў, што аднаго дня ССЗ пачнецца выкарыстоўваецца для праверкі сапраўднасці. Схема прызначэння з'яўляецца складанай, і складанасць прывяло да пераканання, што саступкі, з пункту гледжання карыстача, фактычна выпадковых (гл. "ССЗ размяркоўваюцца выпадковым чынам з дапамогай кампутара ў межах вобласці, якія выдаткоўваюцца на нумары прыватнасці дзяржавы, заснаванага на дадзеных у прывязцы да Мадэрнізаваны Пералік сістэмы "[ SSA, 2001 ]). Сапраўды, мы выкарыстоўвалі толькі агульнадаступную інфармацыю, і ў канчатковым выніку адкрыцця, заснаваныя на той інфармацыі, што выпадковасці эфектыўна настолькі нізкі, што ўсё 9 лічбаў SSN могуць быць прадказаны з абмежаваным лікам спроб. Мы таксама выявілі, што некаторыя інтэрпрэтацыі схемы прызначэння за межамі SSA былі, у сутнасці, няправільна.

Пыт. Не так гэта старая навіна? Усім вядома, што Раён нумара злучаны з дзяржавамі (і г.д.)

Так, схема SSN саступкі вядома, і, вядома, пра існаванне сувязі паміж Раён нумара і станы Агульнавядома, - але мы выявілі, мадэляў (і дакладнасць прадказання, заснаваныя на іх) не з'яўляюцца.

Як адзначыў у рукапісы, схема SSN саступкі грамадскіх ведаў (стар. 1). У сутнасці, папярэднія працы ў гэтай вобласці выкарыстоўвалі гэтыя мадэлі для адзнакі, дзе і калі SSN можа быць выдадзены (стар. 1 і [Wessmiller, 2002], [Суіні, 2004], [EPIC, 2008], гэта значыць, пачынальна з * * Вядома SSN, і спрабуе скласці дзяржаўныя і шэраг гадоў, калі ён можа быць выдадзены. Замест гэтага, наша праца засяроджана на зваротнай складаней, і шматлікае іншае ўскосная выснова: выкарыстанне меркаванага дакладныя дата і месца выдачы SSN ацаніць, досыць надзейна, ССЗ. Гэта стала магчымым, таму што:

- Мы выявілі (стар. 3), што тлумачэнне праведзены за межамі * * SSA раёна пра тое, як нумары прысвойваюцца няслушна: у адрозненне ад распаўсюджана меркаванне пра іх прызначэнне, то ж выкарыстоўваецца для 9999 паслядоўна ўсталяваных ССЗ (у адпаведнасці з тлумачэннем задання схемы, якія праводзяцца за межамі SSA, SSA Лічылася, каб павярнуць праз усё ANS дзяржавы для кожнага С.Н. прызначаны. Такая схема зробіць выпадковых для краін з некалькімі ANS, а таксама прагнозы мы ўяўляем у гэтым артыкуле, значна меней дакладныя ).

- Мы выявілі (стар. 4), што прызначэнне апошнія 4 лічбы не толькі паслядоўна (як, зрэшты, заявіў, у публічна даступнай інфармацыі пра прызначэнне схемы), але насамрэч цесна злучаны з даты заяўніка нараджэння, і таму не выпадковага (заўважым, што SSA дзяржавы, замест гэтага, што "ССЗ размяркоўваюцца выпадковым чынам з дапамогай кампутара ў межах вобласці нумароў вылучана адмысловы стан" [SSA, 2001]). У шэрагу выпадкаў нам атрымалася прадказаць увесь 9-лічбы SSN з першай спробы (верагоднасць, што адбываецца выпадковым думаю, прыкладна 1 на 1 млрд). Гэта асабліва ставіцца да ССЗ прызначаны пасля пачатку ЭКА (1987 гады).

- Мы выявілі, што пры аналізе агульнадаступных ССЗ ускладзеных на памерлых твараў (а таксама ў DMF) дазваляе высновы грануляваных шаблоны саступкі, якія дазваляюць прагназаваць ССЗ твараў, усё яшчэ жывы. Напрыклад, адносіны паміж Раён нумара і станы, у той час як агульнавядома, не было б досыць, толькі, каб прадказаць нумары раёна, за выключэннем вельмі пэўных выпадкаў (гл. стар. 1): ад нізкай колькасці насельніцтва дзяржавы (напрыклад, WY) і некаторыя ЗША маёмасць размяркоўваюцца 1 кожная - гэта азначае, што веды, якія ўжываюцца для асобных яго SSN яе ў тым, што дзяржава ці валоданне сапраўды забяспечваюць амаль вызначаныя веды пра першыя 3 лічбаў яго/яе SSN. Тым не менш, іншыя дзяржавы вылучыў * усталёўвае * АНС. Напрыклад, чалавек з ужываннем паштовы індэкс у штаце Нью-Ёрк можа быць прызначаны любы з 85 магчымых першых 3 лічбаў SSN. Такім чынам, веды, якія ўжываюцца для асобных яго SSN яе ў тым, што дзяржава забяспечвае нізкія каэфіцыенты (1 па 85) правільна адгадаўшы яго/яе першыя 3 лічбы з адной выпадковай здагадвацца. Гэтыя каэфіцыенты не ўлічваюць верагоднасць таксама правільна адгадаць групы Numbers - якія вар'іруюцца ад 01 да 99 у спалучэнні з рознымі раёна нумароў.

Карацей кажучы, без адкрыцця структуры сувязяў SSN лічбаў дэмаграфічных дадзеных, ведаў пра саступку схема будзе недастаткова для прагназавання ні першы 5 лічбаў ці насамрэч усяго 9 лічбаў SSN з вызначанай ступенню дакладнасці неабходна падвяргаць іх практычныя рыскі ідэнтыфікацыі. Напрыклад, верагоднасць правільна адгадаць першыя 5 лічбаў SSN у твар, якое нарадзілася ў Нью-Ёрку ў 1998 году, нават калі выказаць здагадку, ведаючы, што SSN быў выпушчаны ў гэтым рэгіёне, было б 0,012%, а верагоднасць правільна адгадаць цэлых 9 лічбы з 1000 спробы будуць 0,0012%. Аднак пры больш дэталёвым разуменні адносін паміж схема прызначэння і дэмаграфічных мадэляў, апісаных у рукапісы, гэтыя верагоднасці 30% і 3% адпаведна: на некалькі парадкаў больш, і значна больш уразлівыя перад грубіянскай сілы нападу. Гл. табліцу на стар. 6 27 з дапаможнай інфармацыі.

Пыт. Магу прывесці прадказальнасці ССЗ і крадзяжы асабістых дадзеных? Ці значыць гэта, даследаванні выданне ўтрымоўвае ўсе неабходныя для набыцця нумара SSN?

Няма Апроч таго факту, што адчувальныя дэталі былі апушчаны з артыкула, каб перайсці ад простых статыстычных прагнозаў для фактычнага крадзяжу асабістых дадзеных зламысніку неабходна выкарыстоўваць адтуліны і слабыя бакі асобы ЗША "інфраструктуры:" шырокі распаўсюд персанальных, дэмаграфічных дадзеных мільёны людзей, пра існаванне вялікага ботнеты з заражаных кампутараў, а таксама слабы адпаведнасці асобы і праверка сапраўднасці метадаў, якія ўжываюцца ў крэдытна-фінансавага сектары (сярод іншых). Атрыманыя намі дадзеныя могуць дапамагчы ў барацьбе з крадзяжом і зніжэнне асобы, паказаўшы, чаму такія вядомыя (але недаацэньваць) слабыя месцы ў нашай ідэнтычнасці інфраструктуры павінны, нарэшце, неабходна разгледзець; папярэджваючы прамысловасці і палітыкі новага подзвіг, і адмысловая ўвага была нададзена неабходнасці адмовіцца ад ССЗ у якасці пароляў і перайсці да больш бяспечнай, эфектыўнай і захаванні прыватнасці сродку праверкі сапраўднасці самабытнасці.

Пыт. Як гэта адрозніваецца ад папярэдніх даследаванняў?

Папярэднія даследаванні ў вобласці ССЗ засяроджаны на выяўленні ССЗ у публічных базах дадзеных, выкарыстоўваючы нумар SSN для аб'яднання дадзеных з розных крыніц дадзеных, ці - у выпадках, бліжэй усяго да нашай працы - выводзіны год [з] і стан выпуску вядомых ССЗ. У сутнасці, існаванне выпускам мадэляў SSN добра вядомая - SSA робіць некаторыя дэталі, даступнай у дзяржаўных матэрыялы, і іншыя (у прыватнасці, Latanya Суіні і яе " SSN Гадзіны ") выкарыстоўвалі гэтыя мадэлі, а таксама спалучэнне дзяржаўнага і прыватнага SSN дадзеных, каб ацаніць, калі і дзе <known> SSN можа быць выдадзены [ Wessmiller, 2002 ], [ Суіні, 2004 ], [ EPIC, 2008 ]. Тым не менш, наша праца засяроджана на зваротнай мацней, і шматлікае іншае ўскосная выснова : яна паказвае, што можна выкарыстоўваць меркаванага часу і месцы выдачы SSN ацаніць, досыць надзейна, <unknown> ССЗ.

Пыт. Якія дадзеныя трэба прагназаваць SSN? Хіба гэта не даты нараджэння цяжка знайсці?

Дадзеныя пра ССЗ ад так званых " Смерць Master File ", які публічна даступная, а таксама дэмаграфічныя дадзеныя (даты нараджэння і станы нараджэння), адкуль бы яно не выкарыстоўваецца. Масавыя колькасці даты нараджэння для жыхароў ЗША, могуць быць атрыманы ці выснова - часта бясплатна ці, па крайняй малаважным адзінку коштаў - ад некалькіх крыніц, у тым ліку камерцыйных пасроднікаў дадзеных (такіх як www.peoplefinders.com, які прадае доступ да нараджэння дадзеных і асабістых адрасы для "амаль кожны сталы ў Злучаных Штатах Амерыкі"); спісы выбарнікаў (для большасці дзяржаў); анлайн бясплатна пошук людзей (такіх, як www.zabasearch.com ), а таксама сайты сацыяльных сетак: нашы адзнакі паказваюць, што прынамсі 10 мільёнаў жыхароў ЗША апублікаваць ці выводная свой дзень нараджэння інфармацыю пра свае анлайн профіляў.

Пыт. З якіх сацыяльных сетак на сайце вы знойдзеце дадзеныя для аднаго з вашых тэстаў?

Існуе ніякай пэўнай сеткі сайт, які адназначна падвяргаецца. Гэтыя дадзеныя могуць быць выняты з некалькіх такіх аб'ектаў, а таксама іншых крыніц, як паказана вышэй.

Пыт. т Арэн 'SSN насамрэч гэтак даступныя, як даты нараджэння?

Гэта не так.

Гэта праўда, што ССЗ з'яўляюцца шырока даступнымі. Яны былі знойдзены ў публічных справаздачах федэральных ведамстваў, штатаў, графстваў, суды, лякарні і т. д. [ прэзідэнта Identity крадзяжы Мэтавай групы, 2007 ], а таксама ў асабістых дакументаў, такіх як анлайн рэзюмэ [ Суіні, 2006 ]. Кампаніі абмену ССЗ у асабістых рынках інфармацыі і асобных твараў атрымаць "крэдытныя справаздачы", у якіх утрымоўваюцца іх нумары SSN, з бюро крэдытных гісторый; выкрадзеных ССЗ з'яўляюцца карыслівую абмен падземных cybermarkets [ Франклін, 2007 ]. Тым не менш, ГАО паказалі, што толькі нешматлікія брокеры прапануюць нумары SSN для Продаж для шырокай грамадскасці насамрэч можа прадаць усе нумары SSN [ ГАО, 2006 ]. Акрамя таго, ГАО таксама ўсталявана, што ў той жа час шырокі распаўсюд, нумары SSN становіцца ўсё цяжэй знайсці ў афіцыйных дакументах [ ГАО, 2008 ]. Сапраўды, лік ССЗ шырокі распаўсюд можа быць таксама памяншэнне з-за шматлікіх заканадаўчых ініцыятыў у гэтай вобласці. Розныя апошнія ініцыятывы надаюць адмысловую ўвагу на ўхіленні ад ССЗ грамадскага ўздзеяння ці пра выдаленне іх першыя пяць лічбаў [ NCSL, 2007 ], [ FTC, 2008 ] і [ ГАО, 2008 ]. З іншага боку, нараджэнне дадзеных па-ранейшаму шырока даступныя, як паказана вышэй.

Пыт. Ці можна сапраўды прадказаць * кожны * SSN?

Не.

Кожны SSN выдаецца на тых жа прынцыповая схема прызначэння (і схемы, у той час як комплекс, утрымоўвае назіраныя заканамернасці). Такім чынам, у тэорыі, любы SSN можа быць прадказана. Тым не менш, верагоднасць таго, што дадзены SSN можа быць эфектыўна прадказаў вар'іруецца ад вельмі нізкай (ці нулявы) да вельмі высокага, у залежнасці ад такіх фактараў, як год і дзяржаўных SSN была ўжыта, як блізка да асобных нараджэнні дадзеным, быў ужыты для, і гэтак далей. Для правядзення выпрабаванняў, мы беглі, нашы прагнозы былі на некалькі па