آدم جونز ، دكتوراه
في عام 2016 ، تسببت ProPublica في إثارة عندما قامت بتقييم أداء البرامج المستخدمة في العدالة الجنائية الإجراءات. البرنامج ، والذي يستخدم لتقييم المدعى عليه فرصة لارتكاب المزيد من الجرائم ، تحولت إلى إنتاج نتائج مختلفة عند تقييم السود والقوقازيين.
أهمية هذا التناقض لا يزال موضوع بعض النقاش ، ولكن اثنين من الباحثين كلية دارتموث قد طلب أ السؤال الأكثر أهمية: هل البرنامج جيد؟ الاجابة لقد توصلوا إلى “ليس بشكل خاص” ، حيث يمكن أن يكون أدائه يقابله تجنيد أشخاص على ميكانيكي تركي أو أ تحليل بسيط لم يأخذ سوى عاملين بعين الاعتبار.
البرمجيات والتحيز
يسمى البرنامج المذكور COMPأ S ، للإصلاحية إدارة الجاني التنميط للعقوبات البديلة. تستغرق في الاعتبار مجموعة واسعة من العوامل حول المدعى عليهم والاستخدامات لهم لتقييم ما إذا كان هؤلاء الأفراد من المرجح أن يرتكبوا جرائم إضافية ويساعد في تحديد خيارات التدخل. COMPASتم دمجها بشكل كبير في العملية القضائية (انظر هذه الوثيقة من ولاية كاليفورنيا من التصحيحات لشعور من أهمية). ربما الأهم من ذلك ، هو في بعض الأحيان المؤثر في تحديد الحكم ، والتي يمكن أن تستند إلى فكرة أن الناس الذين من المرجح أن يرتكبوا جرائم إضافية ينبغي كن مسجونا لفترة أطول.
ركز تقييم ProPublica للبرنامج على عمليات القبض في مقاطعة بروارد ، فلوريدا. وجدت أن البرنامج لديه مماثلة دقة عندما يتعلق الأمر بالتنبؤ ما إذا كان أسود والقوقاز أن المدعى عليهم إعادة الإساءة. لكن ايجابيات كاذبة – الحالات التي يكون فيها تنبأ البرنامج بوقوع جريمة أخرى لم تحدث مطلقًا ، فقد كانت مرتين من المرجح أن تشمل المدعى عليهم السود. السلبيات الخاطئة ، أين وكان من المتوقع أن يظل المتهمون خاليين من الجريمة لكنهم لم يفعلوا ضعف احتمال إشراك البيض.
ولكن من خلال تدابير أخرى ، لم يُظهر البرنامج أي إشارة إلى التحيز (بما في ذلك ، كما ذكر أعلاه ، دقتها الإجمالية). لذلك ظلت أهمية هذه النتائج موضوع النقاش.
قرر الباحثون في دارتموث (Ja دريسيل ) وهاني فريد عدم التركيز على التحيز ولكن على الدقة الكلية. للقيام بذلك ، هم أخذ سجلات 1000 مدعى عليهم واستخرجوا سنهم وجنسهم ، والتاريخ الجنائي. تم تقسيم هذه إلى برك من 20 ، و تم استخدام الميكانيكية الترك لتجنيد الناس الذين طلب منهم التخمين احتمال ارتكاب كل فرد من الأفراد العشرين جريمة أخرى في غضون العامين المقبلين.
حكمة الأتراك الميكانيكية
عند تجميع هذه النتائج ، كان لدى هؤلاء الأشخاص دقة متوسطة تبلغ 62 نسبه مئويه. هذا ليس بعيدًا عن دقة COMPAS ، والذي كان 65 في المئة. في هذا الاختبار ، قام العديد من الأفراد بتقييم كل منهم المدعى عليه ، لذلك جمعت المؤلفين هذه وأخذوا الأغلبية الرأي كقرار. وبذلك يصل دقة تصل إلى 67 في المئة ، متفوقا COMPAS. قياسات أخرى للأتراك الميكانيكيين تشير الدقة إلى أنها كانت بنفس جودة البرنامج.
وكانت النتائج مماثلة أيضا لأنه لم يكن هناك أي دلالة الفرق بين تقييماتهم من السود والقوقاز المتهمين. كان الشيء نفسه صحيحًا عندما قدم المؤلفون كتابًا مماثلاً مجموعة من السجلات لمجموعة جديدة من الناس ولكن هذه المرة المدرجة معلومات عن سباق المدعى عليه. لذلك من حيث الشاملة دقة ، وكان هؤلاء الناس عديمي الخبرة تقريبا جيدة مثل البرمجيات.
لكنهم كانوا أيضًا سيئين ، كما كانوا أيضًا أكثر احتمالًا لجعل ايجابيات كاذبة عندما كان المدعى عليه أسود ، ولكن ليس ل بالقدر نفسه كما COMPAS (37 في المئة معدل ايجابي كاذب ل السود ، مقابل 27 في المئة للبيض). سلبية كاذبة معدل ، حيث كان من المتوقع المدعى عليهم عدم إعادة الإساءة ولكن فعلت ، كان أيضا أعلى في القوقازيين (40 في المئة) مما كان عليه بالنسبة للسود (29 نسبه مئويه). هذه الأرقام تشبه إلى حد كبير معدلات أخطاء COMPAS. بما في ذلك بيانات السباق على المتهمين لم يجعل فرق واضح.
إذا كان من الممكن مطابقة الخوارزمية بما يكاد يكون مؤكدًا حفنة من الهواة ، Dressel و Faridreasoned ، ربما هو لأنها ليست جيدة بشكل خاص. هكذا فعلوا سلسلة من البساطة الاختبارات الإحصائية (الانحدارات الخطية) باستخدام مجموعات مختلفة من البيانات التي لديهم على كل مدعى عليه. وجدوا أنهم يستطيعون تطابق أداء COMPAS باستخدام اثنين فقط: عمر المدعى عليه وإجمالي عدد الإدانات السابقة.
هذه ليست صدمة كبيرة كما يبدو. Dresselوفريد يقدمون قدرا كبيرا من الادعاء بأن COMPAS من المفترض تعتبر 137 عوامل مختلفة عند عمل التنبؤ. Aبيان من Equivant ، الشركة التي تصنع البرنامج ، يشير أن هؤلاء 137 هم فقط لتقييم التدخلات ؛ التنبؤ reoffending يستخدم فقط ستة عوامل. (الباقى من بيان يقطر إلى “هذا يدل على أن برنامجنا تماما جيد. “) يعترف Dressel و Farid أيضًا بأن إعادة الاعتقال هي أمر جيد تدبير غير كامل للنشاط الإجرامي في المستقبل ، كما تفعل بعض الجرائم يؤدي إلى اعتقالات ، وهناك تحيزات عنصرية كبيرة في معدلات الاعتقال.
ما يجب فعله من كل هذا يأتي إلى ما إذا كنت مريح وجود عملية وهذا خطأ في ثلث الوقت التأثير على أشياء مثل مقدار الوقت الذي يقضيه الناس في السجن. في في الوقت الحالي ، ومع ذلك ، لا يوجد دليل على أي شيء أكثر من ذلك فعالة من ذلك.
تقدم العلوم ، 2017. DOI: 10.1126 / sciadv.aao5580 (حول دويس).