التحدث إلى Google Duplex: Google يشبه الإنسان الهاتف Aأنا يشعر الثوري

صورة لإشعار Google Duplex تكبير / النهاية نتيجة دوبلكس. أنت تطلب الحجز ، وتجري مكالمة هاتفية في الخلفية ، ويعود إليك بنتيجة. Google

نيويورك ـ من الواضح ، أنني لم أسير في مطحنة الحدث الصحفي. بعد شهرين تقريبًا من مؤتمر I / O السنوي ، جوجل دعا هذا الاسبوع آرس والعديد من الصحفيين الآخرين إلى مطعم THEP Thai في مدينة نيويورك. اشترت الشركة من مطعم لهذا اليوم ، تطهير الجداول ، وبنيت قليلا منطقة تقديم كاملة مع تلفزيون ومكبر صوت وكراسي. التالى إلى التلفزيون كانت منصة على الهاتف الفعلي للمطعم التايلاندي – لا بعض الهواتف الذكية الجديدة للشركة ، خط مطعم ol ‘analogue.

كنا نعلم جميعا ما كنا ندخل. في I / O 2018 ، جوجل صدمت العالم مع عرض “جوجل دوبلكس” ، وهو نظام لمنظمة العفو الدولية ل إنجاز مهام العالم الحقيقي عبر الهاتف. شعرت التجريبي القصير مثل تتويجا من جوجل التعرف على الصوت المختلفة و إمكانات تركيب الكلام: قد يتم استدعاء الروبوت الصوتي من Google الشركات وتحديد موعد نيابة عنك ، طوال الوقت السبر مشابه للصدمة – قد يقول البعض أنه يشبه الخداع – بشري. تجريبي حتى جاء الكامل مع خطاب مصطنع حالات عدم الثقة مثل “أم” و “اه”.

قريباً ، ستظهر واجهة I / O القصيرة المسجلة مسبقًا عاصفة من النقاش على شبكة الإنترنت. شكك الناس في أخلاقيات الذكاء الاصطناعي تظاهر بأنه إنسان ، تم استدعاء قوانين التنصت على المكالمات الهاتفية ، و حتى البعض تساءل عما إذا كان التجريبي مزورة. بخلاف الواعدة أعلنت شركة Google عن نفسها على أنها روبوت في المستقبل كان هادئا جدا حول المشروع منذ الحدث.

فجأة ، قالت جوجل إنها مستعدة للحديث أكثر عن دوبلكس. والأفضل من ذلك ، أن الشركة سمحت لي بالتحدث مباشرة مع منظمة العفو الدولية سيئة السمعة. لذلك لفترة ما بعد الظهر على الأقل ، لم أكن رون Amadeo ، محرر مراجعات Ars Technica — كنت رون أماديو ، THEP موظف مطعم ينتظر إجراء مكالمات هاتفية “مباشرة” من بوت.

Eventually, the Duplex flow will work something like this. إلى عن على  today, the Google Assistant voice command system didn't work. Starting Duplex happened via a laptop.تكبير / في نهاية المطاف ، فإن تدفق دوبلكس يعمل شيء من هذا القبيل. Forاليوم ، لم يعمل نظام الأوامر الصوتية من Google Assistant. حدث بدء الطباعة على الوجهين عبر جهاز كمبيوتر محمول

التحدث إلى جوجل دوبلكس

لسوء الحظ ، لم تسمح لنا Google بتسجيل البث المباشر التفاعلات هذا الأسبوع ، لكنها وفرت شريط فيديو قمنا بتضمينه أدناه. مكالمة روبو في الفيديو ، بصراحة ، مثالية ممثل ما عشنا. ولكن لتهدئة بعض الشك هناك ، دعونا أولا الخطوط العريضة تفاصيل كيف هذا تم إعداد العرض التوضيحي مع ما نجح وما لم ينجح.

ومن المفارقات أن الشيء الوحيد الذي لم يكن يعمل في تجريبي لدينا كان الشيء الوحيد الذي يمكن لأي شخص تجربه اليوم: مساعد Google. في المستهلك جوجل دوبلكس التفاعل ، فإن المستخدم يقول شيئا مثل “موافق جوجل ، حجز طاولة لأربعة في مطعم THEP التايلاندية في 6 مساءً. “من هناك ، أطلق مساعد Google النار على الوجهين و اتصل. ولكن في العرض التوضيحي الخاص بنا ، لم يتم إجراء المكالمة مع الأمر الصوتي اللفظي. بدلا من ذلك ، مهندس في الزاوية غرفة لكمة متطلبات الحجز بصمت في جهاز الكمبيوتر الخاص به ، ودوبلكس ثم تولى ودعا الأعمال.

(لحسن الحظ ، يبدو تنشيط الصوت الأقل أهمية جزء من جوجل دوبلكس. نحن نعرف أن Google Assistant يعمل. نعلم يمكنه التعامل مع الأوامر الصوتية. نحن نعرف أنه يمكن بدء مكالمة مع اسم نشاط تجاري باستخدام معلومات خرائط Google.)

أثبت هاتف مطعم THEP أنه حقيقي للغاية خط الهاتف. بين العروض التوضيحية عند نقطة واحدة ، والهاتف بشكل غير متوقع بدأ الرنين. أطلق ممثل Google النار بسرعة “انتظر ، هل بدأت نداء؟ “سؤال في المهندس في الزاوية. بعد أن قال لا ، صاحب THEP ركض بسرعة على الهاتف للتحدث إلى عميل حقيقي.

خلال فترة المظاهرة ، سارت الأمور أكثر من ذلك بكثير للتخطيط. على مدار الحدث ، سمعنا عدة مكالمات ، البدء في النهاية ، والتعامل معها على نظام هاتف مباشر. للبدء ، أ ذهب مندوب جوجل في جميع أنحاء الغرفة وأخذ متطلبات الحجز من المجموعة ، أشياء مثل “متى يجب أن يكون الحجز ل؟ “أو” كم من الناس؟ “متطلباتنا لكمات في الكمبيوتر ، والهاتف رن قريبًا. الصحفيون — يخطئون ، مطعم الموظفين – يمكن أن يملي اتجاه المكالمة ولكنهم كذلك أختر. البعض في محاولة للتشويش على الوجهين ورميها curveballs ، ولكن هذا AIworked لا تشوبه شائبة داخل جدا نطاق محدود من حجز مطعم.

أنا بحاجة للحفاظ على وظيفتي اليوم

في مجموعتي ، أجريت أول مكالمة هاتفية من Google Duplex. Iمشى إلى الجزء الأمامي من منطقة العرض ، التقطت رنين المتلقي ، وبدأت المكالمة على الهاتف وعبر مكبر الصوت. الاستماع إلى تسجيلات دوبلكس شيء واحد ، ولكن المشاركة في مكالمة مع الروبوت الهاتف جوجل (أمام مباشر الجمهور ، ليس أقل) هي تجربة مختلفة تماما. فورا، أدركت أن هذا كان أكثر بكثير مما كنت أتوقع: Google PR ، مهندسو Google وموظفو المطعم والعديد من الصحفيين الآخرين كانوا يراقبون ويستمعون لي بهدوء مكبر الصوت. كنت عصبية. لم آخذ أي مطعم تحفظ في حياتي ، ناهيك عن واحد مع جمهور و طاقم هندسي يراقب كل الكلام. وكما تعلم ماذا؟ أنا suckedat أخذ هذا التحفظ. وكان دوبلكس بخير مع ذلك.

انتظرت دوبلكس بصبر لي أن تتعثر بشكل محرج من خلال بلدي حجز الجدول الأول من أي وقت مضى بينما كتبت بشكل بطيء الوقت وتخبطت من خلال جيئة وذهابا الأساسية حول جوجل حجز لأربعة أشخاص في الساعة 7 مساء يوم الخميس. جوجل اليوم المساعد يتطلب خطاب رسمي ومباشر ومثالي بالترتيب لمعالجة الأمر. لكن دوبلكس تعاملت مع بلدي أخرق ، يصرف التواصل مع عدم الاهتمام عارضة من شخص حقيقي. هذا انتظر مني أن أكتب متطلبات الحجز ، ومتى سألت Duplex لتكرار الأشياء التي لم ألتقطها في المرة الأولى (“أ حجز في أي وقت؟ “) ، فعلت ذلك دون وقوع حادث. عندما كنت أخبر هذا robocaller أن الوقت الأولي الذي أراد فيه لم يكن متاحًا ، بدأ التفاوض مرات. عرضت نطاق زمني مقبول وطلب حجز في مكان ما في تلك الفترة الزمنية. انا عرضت الساعة السابعة وقبلت جوجل.

من النهاية البشرية ، صوت دوبلكس مذهل للغاية الهاتف. يبدو حقيقيا معظم الوقت ، تسمير معظم ملامح theprosodic من خطاب الإنسان أثناء وضعها الطبيعي الحديث. بوت “أمز” و “أه” عندما يكون عليه أن يتذكر شيء قد يكون على الإنسان التفكير فيه لمدة دقيقة. هذا يعطي “ممممس” بالإيجاب إذا أخبرته أن يمسك في دقيقة واحدة. كل شيء يتدفق بسلاسة ، مما يجعله يبدو وكأنه شيء جيل أفضل من صوت مساعد Google الحالي.

واحدة من أغرب (والأكثر إثارة للإعجاب) أجزاء من دوبلكس هو أنه لا يوجد “صوت مزدوج” واحد. لكل مكالمة ، دوبلكس من شأنه أن يضع على شخصية جديدة متميزة. أحيانا تأتي دوبلكس عبر كما ذكر. في بعض الأحيان أنثى. كانت بعض الأصوات أعلى و السبر الأصغر. كان البعض أنفيًا ، وكان البعض يبدو كذلك جذاب.

مثير للإعجاب كما هو الحال لسماع الكمبيوتر بشكل واقعي تكرار الكلام البشري ، النموذج الذي يولد هذه الأصوات ، WaveNet (من قسم Deepmind من Google) ، تمنع فعليًا التراجع في قسم المحاكاة البشرية. Deepmind’s blog has بالفعل كشفت أن WaveNet يمكن أن تولد أصوات فم الإنسان إذا أراد إلى. على المدونة ، هناك عروض تجريبية للتنفس وجعل الشفاه صفعة الضوضاء بين الجمل. دوبلكس لا يفعل أي شيء من هذا بعد.

أثناء الكلمة الرئيسية للإدخال / الإخراج ، لعبت Google نبذة مختصرة مسجلة مسبقًا دعوة دوبلكس. بالنظر إلى أن التسجيل كان في عداد المفقودين العديد من قطع مهمة من دعوة الأعمال العادية ، ويشتبه كثيرون في أن تم تحرير العرض التوضيحي بشدة. لم يقل الموظفون عن الشركة الاسم ، ولم تقدم Google معلومات تعريف مهمة مثل رقم الهاتف. استغرق الناس أيضا مشكلة مع عدم وجود الكشف عن أن دوبلكس كان روبوت ، وعدم وجود الكشف عن تسجيل المكالمات سيكون انتهاكًا للقانون في كثير تنص على. أعتقد أن أبسط تفسير للعرض التجريبي I / O هو ذلك تم تعديل مكالمة Google للخصوصية والإيجاز ، وكانت فقط يعني دعابة. خلال وقتنا في THEP Thai ، كل هذا تم معالجة المخاوف.

كل مكالمة واحدة بدأت بشيء على غرار “مرحبًا ، أنا أتصل لإجراء حجز. أنا مؤمن لدى Google خدمة الحجز ، لذلك سوف أسجل المكالمة. هل يمكنني حجز الحجز؟ ل … “هذا غطى كل من” أنا روبوت “الكشف و مخاوف “يتم تسجيل هذه المكالمة” التي تم طرحها مسبقًا. جوجل تقول انها لا تزال تعمل على الرسائل بالضبط ، ولكن الشركة تهدف دائما إلى الكشف عن أنه كان تسجيل الروبوت الاتصال.

على الوجهين إعطاء معلومات جيدة ، لكنه مصمم فقط لإعطاء معلومات رخص الروبوت للمشاركة. في اليوم التجريبي ، فإن دوبلكس بوضوح ، تهجئة ببطء المتصل التجريبي رقم الهاتف أو الاسم عند الطلب. كان حتى آداب الهاتف جيدة ، قول أشياء مثل ، “الاسم هو رون ، هذا هو R ، O ، N.” في واحد نقطة ، تم طلب البريد الإلكتروني للمتصلين ورد دوبلكس بـ “أخشى أنه ليس لديّ إذن بمشاركة موكلي البريد الإلكتروني.”

هذه الهجاء من الأسماء والأرقام هي مرة واحدة دوبلكس يفقد حقا الوهم السبر الإنسان. انها تقريبا مثل WaveNet لم تمارس هذا الجزء من الكلام على الإطلاق ، والخدمة يسقط في وضع التحدث والتهجئة عندما يحتاج إلى حشرجة الموت شخصيات فردية. التجويد من كل حرف أو رقم هو في كل مكان ، لا تتدفق أبدًا مع بداية ونهاية طبيعية نغمات أن الإنسان سوف تستخدم.

إذا نظرنا إلى الوراء ، أنا أيضًا أواجه مشكلة مع بعض “الشخصيات” دوبلكس المقدمة. يقدم مساعد Google نفسه على أنه سعيد ، مساعد روبوت محترف مع قليل من المرح. يمكن أخبر النكتة العرضية ، لكن المساعد عادة ما يتحدث اللغة المناسبة ، النطق الجيد ، والموقف المتفائل السعيد. في على النقيض من ذلك ، دوبلكس هو أكثر عارضة. جوجل بنيت أساسا أ سكرتير منظمة العفو الدولية مع دوبلكس ، لكنه لا يتحدث مع الممارسين ثقة شخص اعتاد على إبداء تحفظات – في كثير من الأحيان يبدو وكأنه ateenager طلب البيتزا. هذا ليس كذلك بالضرورة كيف أريد أن أكون ممثلًا في شركة. ال attitudecan عارضة تتحد في بعض الأحيان مع عرضية خلل التجويد ويأتي عبر كما إزعاج ، متعب ، غير مهتم ، أو الساخرة.

Like this post? Please share to your friends:
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: