高清视频在线观看免费播放器-伊人日本-色九月综合-18禁止看的免费污网站-免费观看性行为视频的网站-天天碰天天操-久久精品国产欧美日韩99热-中文字幕在线视频不卡-国产偷人妻精品一区二区在线-国内精品久-伊人影院在线看-密臀av一区-久久综合五月丁香久久激情-福利一区福利二区-gg国产精品国内免费观看-国产精品 高清 尿 小便 嘘嘘

當前位置: 首頁 >滾動 > 正文

世界快資訊:2萬字解讀:人工智能這么聰明,為何還不會閱讀?

2023-06-28 08:07:34 來源:虎嗅網

本文來自微信公眾號:騰訊研究院 (ID:cyberlawrc),作者:蓋瑞·馬庫斯、歐內斯特·戴維斯,編譯:龍志勇,題圖來自:《梅根》

薩曼莎:我能幫你做什么?


(資料圖片)

西奧多:嗯,就是覺得一堆東西亂七八糟的,沒別的。

薩曼莎:要不我幫你看看硬盤?

西奧多:嗯……好吧。

薩曼莎:好的,咱們先從電子郵件開始。你有幾千封《洛杉磯周報》的郵件,但是你好像很多年前就不在那里工作了。

西奧多:嗯,是呀。我想,之所以留著那些郵件沒刪,是因為我覺得以前可能寫過幾句特別幽默的話。但是……

薩曼莎:是的,的確有些挺幽默的。我看大概有86封應該存下來的。我們可以把剩下這些郵件都刪除掉。

——編劇兼導演,斯派克·瓊斯,《她》,2013年

如果機器都能像科幻電影《她》中由斯嘉麗·約翰遜配音的“操作系統”薩曼莎理解西奧多那樣理解我們,那該有多好。如果機器能在眨眼間整理好我們所有的電子郵件,選我們需要的那些,將剩余的清除干凈,那該有多好。

如果我們能賦予計算機一個它們不具備的能力,那么首當其沖的就該是理解語言的能力。因為語言理解不僅能讓計算機幫助我們安排日常的生活和工作,而且還能幫助人類去直面那些最大的挑戰,比如對大量的科學文獻進行精煉和總結。無論是誰,僅憑自己的力量,都不可能緊跟科學界的發展速度。

舉例來說,在醫學領域,每天都有數千篇論文發表于世。沒有哪個醫生或研究人員能將這些論文都讀一個遍。讀不到這些論文,就無法將最新理論應用于實踐,拖了進步的后腿。藥物研發之所以進展緩慢,一部分原因就在于許多信息都封鎖在那些沒人能抽出時間閱讀的文獻中。有時,全新的治療手段無法得到應用,是因為醫生沒時間去閱讀相關內容,根本不知道有新手段的存在。如果有一個能對大量醫學文獻進行自動合成的AI程序,就會掀起一場真正的革命。

能像博士生一樣從專業角度出發去閱讀的計算機,再配備上谷歌強大的計算馬力,同樣會在科學界掀起一場革命。從數學到氣候科學再到材料科學,我們會看到每個領域因此而發生的重大進展。而且,不僅科學能獲得變革,歷史學家和傳記作者也能迅速找到關于某個非著名人物、地點和事件的所有文字記錄。作家還能利用自動查詢功能,去檢索作品中情節的前后矛盾、邏輯缺陷和時代錯誤。

就連比上述功能簡單得多的能力也能發揮巨大的幫助作用。現在iPhone有個功能,當你收到一封提到約見時間地點的電子郵件,你只要點擊一下,iPhone就能將此事加進日程安排之中。如果能在整個過程中不出錯,那還真是非常方便。但很多時候,iPhone做不到不出錯,很可能加入日程的不是你所想的日子,而是郵件中提到的另外一個日子。如果你不能在iPhone犯錯的時候及時發現,就只能自認倒霉。

等到機器真正可以閱讀的那一天,我們的后人一定會猜想,當年的這幫人是如何在沒有合成閱讀器的情況下工作生活的,就像我們有時會猜想古人如何在沒有電力的情況下工作生活一樣。

Talk to Books無法回答一切問題

2018年初的TED大會上,現就職于谷歌的著名未來學家兼發明家雷·庫茲韋爾將他新近推出的項目——谷歌“Talk to Books”公之于世,并承諾利用自然語言理解來“提供讀書的全新方式”。1Quartz網站照例將這個新產品捧上天,鼓吹“谷歌推出震驚世界的全新搜索工具,將能通過閱讀成千上萬的書籍來回答一切問題”。

我們頭腦中閃現的第一個問題,就是:“這個項目實際上是做什么的?”答案是,谷歌對10萬本圖書中的句子添加了索引,這些圖書包羅萬象,從《大學成長手冊》(Thriving at College)到《編程入門傻瓜書》(Beginning Programming for Dummies)再到《托爾金的福音》(The Gospel According To Tolkien),什么都有。在此基礎之上,谷歌還開發了一種對句子意義進行編碼的高效手段,可以將其轉化為被稱作“向量”的數字集合。當你提問時,程序會利用這些向量,在數據庫中找到擁有最相近向量的20個句子。而系統本身并不知道你問的問題是什么意思。

只需對系統的輸入有所了解,我們就能立刻明白,Quartz網站文章中所稱的Talk to Books“將能回答一切問題”的說法,不能按字面意思去理解。10萬本書聽起來很多,但只不過是迄今為止出版過的1億本圖書中的一個零頭而已。在本書之前的內容中我們曾講過,深度學習是靠相關性而非真實的理解來工作的。所以當我們看到Talk to Books給出的許多答案都不太靠譜時,也一點兒不覺得奇怪。如果你的問題是關于某部小說中的具體細節,那么你應該能得到一個比較可靠的答案。但是,當我們提問“哈利·波特和赫敏·格蘭杰是在哪里相遇的”,系統給出的20個答案中,沒有一個是出自《哈利·波特與魔法石》,也沒有一個答案是針對問題而給出的。當我們問到“第一次世界大戰后協約國繼續對德國進行封鎖的行為是否合理”,系統給出的結果中,竟然沒有一條提到封鎖。Talk to Books能回答“一切問題”的說法,也真是夸張得有點太過了。

而當答案不能從索引文本的句子中直接引用時,許多內容就會被忽略掉。當我們問到“《哈利·波特》中提到的七魂器是什么”,我們根本得不到一個七魂器的列表,可能是因為在所有這些討論哈利·波特的著作中,沒有一本將七魂器同時列舉出來。當我們提問“1980年時,美國最高法院最年長的法官是誰”,系統就徹底傻眼了。然而我們只需上網找到最高法院的法官列表,幾分鐘時間就能查詢到答案是威廉·布倫南(William Brennan)。Talk to Books在這里之所以遇到了挫折,就是因為所有書籍中都找不到一句能給出完整答案的話來。這10萬本書中,沒有一本書寫過“1980年最高法院最年長的法官是威廉·布倫南”這樣一句話。就算有10萬本書在手,系統也無法從海量的書面文字中進行提煉和推斷。

而最能說明Talk to Books存在問題的是,只要對提問方式稍加改變,就會得到完全不同的答案。當我們問Talk to Books“誰為了30塊銀錢背叛了自己的老師”,雖然這是一段非常著名的故事中的一個眾所周知的情節,但在系統給出的20個答案中,只有6個答案正確地提到了猶大。而如果我們沒有用上“銀錢”這個特定的說法,答案就會變得更加五花八門。

當我們以不那么確切的方式向Talk to Books提問:“誰為了30個硬幣背叛了自己的老師?”猶大只出現在10%的答案中。排名最靠前的答案,既與問題毫不關聯,也不能提供任何信息:“不清楚靜婉的老師是誰。”當我們再次對問題進行調整,將“背叛”改成“出賣”,形成“誰為了30個硬幣出賣了自己的老師”,猶大的答案便從前20個結果中徹底消失了。

這個系統比較適合處理文本序列精確匹配的問題,一旦問題脫離了這個范疇,系統就會一籌莫展。

人是怎樣閱讀的

有朝一日,當夢想中的機器閱讀系統成為現實,就將能夠回答關于其讀到內容的所有合理問題。機器將能夠把多份文件的信息整合為一體,而且其答案不會僅僅是從原文中原封不動摘取的一段話,而是通過信息的合成來呈現。從未同時出現在一個段落之中的七魂器列表也好,律師從多個案件中收集判例的精煉概括也好,科學家通過多篇論文心得而總結出的理論也好,都不在話下。就連一年級小學生都能將系列繪本中的好人和壞人逐一列出。為了寫學期論文,大學生能從多個出處搜集思想,并將這些思想整合為一體,進行交叉驗證,并得出全新的結論。同樣,擁有閱讀能力的機器也應該能做到這一點。

機器需要具備信息合成能力,而非單純的鸚鵡學舌。但在此之前,我們還需要達到一個更簡單的目標:讓機器能可靠地理解最基礎的文本。

時至今日,就算社會上對AI的呼聲再高,我們都還沒有達到這個簡單目標。若想弄明白為什么魯棒的機器閱讀能力目前依然遙不可及,我們首先要具體搞清楚理解相對簡單的文本所需經過的步驟。

舉例來說,假設你讀到了下面這段文字。這段文字引自勞拉·英格斯·懷德(Laura Ingalls Wilder)創作的兒童讀物《農莊男孩》(Farmer Boy)。阿曼佐是個9歲男孩。他在街上撿了個塞滿了錢的錢包,當時還叫“錢袋子”。阿曼佐的父親猜想,這個“錢袋子”可能是湯普森先生的。阿曼佐在城中的一個商店里找到了湯普森先生。

阿曼佐轉向湯普森先生,問道:“你的錢袋子有沒有丟?”

湯普森先生跳了起來。他用手拍了拍自己的口袋,大聲喊著:

“是的,我的錢袋子丟了!里面還有1500美元!我的錢袋子呢?你都知道些什么?”

“是這個嗎?”阿曼佐問道。

“是的,是的,就是這個!”湯普森先生說道,一把奪走錢袋子。他將錢袋子打開,匆匆忙忙地數錢。把所有的鈔票全部清點了兩遍。

之后他長長地舒了一口氣,放松了下來,說道:“嗯,看來這個傻孩子一分錢也沒偷。”

一個優秀的閱讀系統,應該有能力回答下列問題:

1. 湯普森先生為什么用手拍自己的口袋?

2. 在阿曼佐說話之前,湯普森先生是否知道自己丟了錢包?

3. 阿曼佐問“是這個嗎”時,指的是何物?

4. 誰差點丟了1500美元?

5. 所有的錢是否還都在錢包里?

對于人類來說,所有這些問題都很簡單。但迄今為止開發出來的所有AI系統中,無一能可靠地處理此種類型的問題。(想象一下Talk to Books會給出怎樣的答案)

從本質來看,上述每一個問題都需要讀者(無論是人類還是機器)去跟隨一條推論鏈,而這些推論都隱藏在故事之中。以第1題為例。在阿曼佐說話之前,湯普森先生并不知道自己丟了錢包,以為錢包還在口袋里。當阿曼佐問他是不是丟了錢包,湯普森才意識到他真的可能丟了錢包。就是為了驗證錢包丟了的可能性,湯普森才去拍自己的口袋。因為沒有在平時放錢包的地方找到錢包,所以湯普森才意識到自己丟了錢包。

目前的AI完全沒有能力對復雜推理鏈條進行處理。這類推理鏈條通常要求讀者將大量關于人和物的背景信息整合在一起,需要對這個世界的基本運轉規律有所把握,而目前的系統并不具備足夠廣泛的通用知識去做到這一點。?在你閱讀這個阿曼佐與錢包的故事時,你很可能會無意識地用到許多相關知識,比如:

人們可能在不知情的情況下丟東西。這屬于人的心智狀態與事件之間關系的知識。

人們常常將錢包放在口袋里。這是有關于人們在通常情況下如何使用某物的例子。

人們經常在錢包里裝錢。錢對人們來說很重要,因為人們可以用錢來買東西。這是有關于人、習俗和經濟學知識的例子。

如果人們假設某些對他們很重要的事是事實,而他們又發現此事可能并非事實,就會很著急地去加以證實。這是關于對人在心理上極其重要的事情的知識。

你能通過從外部觸摸一下口袋,來感覺到某物是不是在口袋里。這是有關于不同類型的知識如何結合為一體的例子,在這里,也是有關于不同的物體(手、口袋、錢包)彼此互動的知識與感官如何發揮作用的知識相結合的例子。

其他問題所需的推理和知識也同樣豐富多樣。若想回答第3題:“阿曼佐問‘這個是它嗎’時,指的是何物?”讀者必須要明白有關語言、人物和物體的相關知識,并從中領會出,“這個”和“它”的合理先行詞可能是錢包,但更加微妙的是,“這個”指的是阿曼佐手里拿著的錢包,而“它”指的是湯普森先生丟的錢包。所幸,這兩個錢包原來是同一個錢包。

哪怕是應對如此簡單的段落,我們關于人物、物體和語言的知識都需要達到深刻、廣泛和靈活的水平;如果環境稍有變化,我們就要去適應。我們不能指望湯普森先生在聽到阿曼佐說找到了自家外婆的錢包時還能表現出同樣的激動狀態。從文中我們領會到,湯普森先生是在不知情的情況下丟了錢包,而如果他是在持刀歹徒實施搶劫的情況下,還不知道自己的錢包被拿走了,那我們就會覺得非常奇怪。至今尚無人能想出辦法,讓機器能以如此靈活的方式進行推理。我們并不認為這一目標不可能達成,隨后我們會設計出向前發展所需邁出的幾個步驟,但當下的現實問題就是,達到目標所需的能力遠遠超出了AI界的專業水平。Talk to Books還差得太遠,本書開篇提及的微軟和阿里巴巴的閱讀器也同樣如此。

從根本上說,現在的機器所擅長的工作(將事物按不同的類別進行分類),與獲取上述平凡但不可或缺的能力以及理解真實世界的能力之間,還對不上號。

懷德的這段文字并沒有什么特別之處。我們平日閱讀到的每一個段落,都存在類似的挑戰。以下是引自2017年4月25日《紐約時報》的簡短例子。

今天本應是埃拉·菲茨杰拉德(Ella Fitzgerald)的百歲壽辰。

洛倫·舍恩伯格(Loren Schoenberg)這位紐約客,在1990年時為“爵士樂第一夫人”做薩克斯伴奏。此時已接近她職業生涯的終點。他將她比喻成“一瓶陳年紅酒”……

無論是人還是機器,都可以回答從文字中能直接找到答案的問題,比如:“洛倫·舍恩伯格演奏的是什么樂器?”但許多問題都需要在文字的基礎上做一點點引申,而這點引申,就會讓目前的AI系統望而卻步。

1. 埃拉·菲茨杰拉德1990年時是否健在?

2. 1960年時她是否健在?

3. 1860年時她是否健在?

4. 洛倫·舍恩伯格和埃拉·菲茨杰拉德是否見過面?

5. 舍恩伯格是否認為菲茨杰拉德是一瓶酒精飲料?

若想回答第1題、第2題、第3題,就需要推理出埃拉·菲茨杰拉德生于1917年4月25日這個事實,因為2017年4月25日應該是她的百歲壽辰。在此基礎之上,還要具備一些關于如下事實的知識:

人在職業生涯過程中是活著的,因此她在1990年時還健在。

人在出生之后、死亡之前,是一直活著的,而在出生之前、死亡之后,并不活在這個世界上。因此菲茨杰拉德在1960年肯定活著,而在1860年時還沒出生。

回答第4題,需要能通過推理得知為某人的歌唱進行伴奏需要與其見面,并需要在文中沒有直接表明的情況下,引申出埃拉·菲茨杰拉德是“爵士樂第一夫人”。

回答第5題,需要能通過推理得知人們在進行類比時頭腦中有著怎樣一幅畫面,并知道埃拉·菲茨杰拉德是一個人,人不能變成飲料。

隨手拿來一份報紙、一則故事、一篇小說,無論長短,你都能從里面找到類似的內容。技巧嫻熟的作家并不會將每一件事都清楚無疑地向讀者闡明,而是只將你需要知道的事情講給你聽,并依賴于人與人之間所共有的知識來填補其余的空缺。想象一下,如果懷德在故事中事無巨細地寫下來人們將錢包放在口袋里,人們有時會通過用手摸口袋的方式來察覺小物件的存在與否,這個故事將會變得多么枯燥。

想當年,有一群AI研究人員曾嘗試解決這些問題。現任谷歌研究總監的彼得·諾維格(Peter Norvig),當時曾寫過一篇頗具爭議的博士論文,主題就是如何應對讓機器理解故事的挑戰。更為知名的是羅杰·尚克(Roger Schank),當時還在耶魯大學工作的他,提出了一系列頗具深度的案例,指出在客人走進餐廳時,機器可以利用“腳本”來理解當時發生的事情。但是,對故事的理解需要更加復雜的知識結構,以及比腳本要多得多的知識形式,而形成并收集所有這些知識所需的工程量巨大到令人無法下手。隨著時間的推移,這條思路逐漸被擱置了下來,研究人員也開始轉向更容易上手的領域,比如網絡搜索和推薦引擎。誰也沒能讓我們距離通用人工智能更近一步。

搜索引擎和語音虛擬助手的困惑

盡管如此,網絡搜索還是掀起了翻天覆地的變革。這是AI最為顯赫的成功案例之一。谷歌、必應等,都是基于極為強大而且極富實效的工程力量,以AI為動力,在數十億網絡文件中以接近實時的速度找到匹配的結果。

令人驚訝的是,雖然這些工具都以AI為動力,但卻幾乎不涉及我們盼望的那種自動化合成機器閱讀的能力。我們希望機器能理解它們讀到的內容。而搜索引擎卻做不到理解。

以谷歌搜索為例。谷歌算法中有兩個基本思想,一個思想是自古有之,另一個思想是谷歌首先提出來的,但無論哪個思想都不需要系統擁有理解文件的能力。第一個古老思想,遠在谷歌和互聯網誕生之前,自從20世紀60年代早期就被用在文件檢索程序之中。這一思想是將問題中的詞與文件中的詞進行匹配

想要搜索包括小豆蔻的菜譜嗎?沒問題,只要找到所有包含“菜譜”和“小豆蔻”這兩個詞的網站就可以了。根本無須理解小豆蔻是一種香料,無須搞明白這種香料聞起來是什么香味,吃起來是什么味道,也無須知道此種香料是如何從豆莢中提取而成,哪種風味的菜肴更傾向于使用這種香料。想要找到飛機模型指南嗎?只要匹配上諸如“模型”“飛機”和“如何”幾個詞,就能找到許多有用的鏈接,就算機器根本不知道飛機為何物也無所謂,更無須搞明白什么是升力,什么是阻力,無須理解你為什么一定要乘坐商業航空公司的航班,而不愿駕著一比一的飛機模型遨游天空。

第二個更富創新意識的思想就是著名的“網頁排名”(PageRank)算法。該思想認為,程序可以利用網絡的集體智慧,通過查看哪些網頁擁有更多外鏈(特別是來自其他高質量網頁的鏈接)來判斷網頁質量的高下。這一思想令谷歌迅速崛起,將其他搜索引擎遠遠拋在了后面。但是,詞匯匹配與文本理解之間并沒有太大關系,計算源于其他網頁的鏈接也與真正的理解有著天壤之別。

谷歌搜索之所以在沒有任何復雜閱讀能力的情況下也能取得非常好的效果,是因為搜索過程對精度的要求很低。搜索引擎無須進行深度閱讀去分辨網絡上關于總統權力的論述是偏左派還是右派,這是用戶要去做的事情。谷歌搜索需要搞定的,就是判斷給定文檔是否與正確的通用主題有關。人們從文檔中的只言片語就能大概搞清楚此文的主題。如果有“總統”和“行政特權”等詞,用戶很可能會因為找到了這個鏈接而歡欣雀躍;而如果是關于卡戴珊家族的,那么很可能不在用戶的興趣范圍之內。如果文檔中提到了“喬治” “瑪莎” “約克鎮戰役”,谷歌搜索就能猜出來此文與喬治·華盛頓有關,雖然它對婚姻和革命戰爭一無所知。

其實,谷歌并不膚淺。有時,谷歌有能力對用戶查詢的問題進行理解,并給出整理好的答案,而不僅僅是一長串鏈接。這就與閱讀能力更為接近,但只是接近了一點點,因為谷歌通常情況下只會閱讀用戶查詢的問題,而不會閱讀文件本身。如果你問:“密西西比州的首府是哪里?”谷歌就會正確地對問題進行解析,并在預先設定的表格中找到答案:杰克遜城。如果你問:“1.36歐元等于多少盧比?”谷歌同樣會給出正確的解析,在參考另一份匯率表格后,正確地計算出“1.36歐元=110.14印度盧比”。

絕大多數情況下,當谷歌反饋出這類答案時,基本都是可靠的(估計谷歌的系統只在其指標表明答案正確率很高時才會給出此類反饋),但距離完美還有很長一段路要走,而我們也能從它犯下的錯誤中,猜出它背后的工作原理。舉例來說,2018年4月,我們在谷歌搜索中提問:“目前誰是最高法院的法官?”得到了一個并不完整的答案:“約翰·羅伯茨(John Roberts)。”而羅伯茨只是九位法官中的一位。在答案后面,谷歌還在“人們也在搜索”部分給出了其他七位法官的名字:安東尼·肯尼迪(Anthony Kennedy)、塞繆爾·阿利托(Samuel Alito)、克拉倫斯·托馬斯(Clarence Thomas)、斯蒂芬·布雷耶(Stephen Breyer)、魯思·巴德·金斯伯格(Ruth Bader Ginsburg)和安東寧·斯卡利亞(Antonin Scalia)。上述所有人的確都曾就任于最高法院,但斯卡利亞已經故去,而斯卡利亞的繼任者尼爾·戈薩奇(Neil Gorsuch)以及新近任命的埃琳娜·卡根(Elena Kagan)和索尼婭·索托馬約爾(Sonia Sotomayor)都沒有在這份名單中出現。看得出來,似乎谷歌完全忽略掉了“目前”這個詞。

回到我們之前講到的“合成”這個話題上,終極機器閱讀系統將能夠通過閱讀谷歌新聞來編寫問題的答案,并在發生變化時對清單進行調整,或者至少應該能通過參考用戶會頻繁更新的維基百科來提取出目前法官的名字。谷歌似乎不會這樣做。根據我們的推測,谷歌只不過是查詢了統計規律——阿利托和斯卡利亞在許多關于司法制度的搜索中都有出現,而沒有對其來源進行真正的閱讀理解。

舉另外一個例子,我們問谷歌:“第一座橋梁是何時建成的?”得到了如下置頂答案:

如今世界上絕大多數地方都利用鋼鐵建筑橋梁,主要河流上橫跨的橋梁都屬于此種類型。圖中所示是世界上第一座鐵橋。此橋由亞伯拉罕·達比三世(Abraham Darby III)于1779年建成,是歷史上第一座用鐵建成的大型建筑。

“第一座”和“橋梁”這兩個詞與我們的查詢相匹配,但有史以來建成的第一座橋并非鐵橋,因此“第一座鐵橋”并不等同于“第一座橋梁”。谷歌給出的答案與正確答案相差了數千年。在谷歌開發出此功能十幾年之后的今天,能通過閱讀問題并給出直接答案的搜索依然只占極少數。當你用谷歌搜索得出的是鏈接而非答案時,就說明谷歌只是依賴于關鍵詞和鏈接計數之類的能力,而非真正的理解。

當然,像谷歌和亞馬遜這樣的公司一定會不斷對產品進行改進。對于像最高法院法官這樣的問題,也很容易通過人工編程的方式給出正確的名單。小規模的循序漸進肯定會繼續下去,但當我們展望未來時,并沒有看到針對我們提出的許多類型挑戰的通用解決辦法。

幾年前,我們在Facebook上看到了一個特別搞笑的表情包。這是一張奧巴馬的照片,上面寫著:“去年你告訴我們你50歲了;現在你說你51歲了。奧巴馬你到底幾歲了?”兩種不同的說法,放在不同的時間,可能都是正確的。如果你是人類,就能理解這個笑話。但如果你是只會做關鍵字匹配的機器,到這里就徹底抓不住笑點了。

Siri、Cortana、谷歌助手和Alexa這類靠語音驅動的“虛擬助手”,又有著怎樣的情況呢?先看優點。這些虛擬助手會采取實際行動,而不是拋給你一個鏈接列表。與谷歌搜索不同,虛擬助手一開始的設計方案就是將用戶的查詢從實際問題的角度加以理解,而不是將其視為隨機的關鍵詞集合。但幾年之后,這些虛擬助手都成了“偏科生”,在某些方面很好用,而在其他方面則很薄弱。舉例來說,幾個虛擬助手都很擅長“事實陳述”的問題,比如“誰贏得了1957年的世界大賽”,但它們每一個又有各自的獨門絕技。谷歌助手擅長指路和買電影票。Siri擅長指路和預訂餐廳座位。Alexa擅長數學,講事先寫好的笑話,而且尤其擅長從亞馬遜網站上買東西——這一點兒也不稀奇。

但在它們擅長的領域之外,你永遠也不知道這些助手會在什么時候突然語出驚人。不久前,作家莫娜·布什內爾(Mona Bushnell)做了個小實驗,向所有4個程序詢問通往最近機場的路線。谷歌助手給了她一份旅行社的名單。Siri給她指了一條去往水上飛機基地的路。Cortana給了她一個Expedia等機票網站的列表。我們其中一人在最近一次駕車出行的途中和Alexa聊天,在某些問題得到了完全正確的答案,比如:特朗普是人嗎?奧迪是車嗎?Edsel是車嗎?但在另一些問題上則徹底迷失了,比如:奧迪能用汽油嗎?奧迪能從紐約開到加州嗎?鯊魚是一種交通工具嗎?

再舉個例子,最近有人在Twitter上發給馬庫斯這么個段子:這是一個手機截屏,向Siri詢問“最近一家不是麥當勞的快餐店”,Siri老老實實地列出了附近三家餐廳的名單,而且還都是提供快餐的餐廳,但每一家都是雷·克羅克(Ray Kroc)蓋的房子。“不是”這個詞被Siri完全忽視掉了。

2009年問世的Wolfram Alpha被大宣傳為“世界上第一個計算知識引擎”,實際上也好不到哪里去。WolframAlpha擁有囊括各類科學、技術、數學、人口普查和社會學信息的巨大的內置數據庫,還擁有利用這些信息回答問題的一系列技術,但依然不具備將所有這些信息整合為一體的能力。

WolframAlpha的強項是數學問題,比如:“1立方英尺(30)黃金的重量是多少?” “密西西比州的比洛克西距離加爾各答有多遠?” “一個邊長為2.3米的二十面體的體積是多少?”(答案分別為“547千克” “14132千米” “26.5立方米”)

但它的理解能力的局限性很強。如果你問“墨西哥邊境離圣地亞哥有多遠”,你會得到“1841千米”的答案,而這個答案是完全錯誤的。WolframAlpha忽略了“邊境”這個詞,而是計算從圣地亞哥到墨西哥地理中心點的距離。如果你對二十面體的問題稍加調整,用“邊的長度為2.3米”替換“邊長2.3米”,它就不再認為這是關于體積的問題,而是告訴你二十面體有30條邊、20個頂點、12個面,根本不提體積的事。WolframAlpha能告訴你埃拉·菲茨杰拉德什么時候出生,什么時候去世;但如果你問“埃拉·菲茨杰拉德1960年時是否健在”,系統就會錯誤地理解為“埃拉·菲茨杰拉德是否健在”并給出“不”的答案。

可能讀者會說:但是,請稍等,沃森呢?就是那個打敗了Jeopardy!節目中兩位人類冠軍的沃森,它不是特別會回答問題嗎?沒錯,但可惜的是,沃森并不像表面看上去那么無所不能。原來,Jeopardy!節目中95%的問題答案都是維基百科頁面的標題。在Jeopardy!中獲勝,只要能找到合適的文章標題即可。從這種水平的信息檢索要發展到能夠真正思考和推理的系統,還有著十分漫長的道路。到目前為止,IBM甚至還未能將沃森打造成為魯棒的虛擬助手。我們最近在IBM的網頁上試圖尋找這樣一款產品,但能找到的只是一個過時的沃森助手演示版,只會處理模擬汽車(simulated cars)相關的事情,根本無法與蘋果、谷歌、微軟或亞馬遜的那些多功能產品相提并論。

我們相信,Siri和Alexa等虛擬助手一定會變得越來越好用,但它們還有很長的路要走。而且,關鍵問題在于,就像谷歌搜索一樣,真正的合成是十分稀罕的。據我們所知,目前很少有公司嘗試以靈活的方式將多個來源的信息組合為一體。甚至源自包含多個句子的同一個來源時,其內容也被拆散得七零八落,就像我們之前讀到的關于阿曼佐和埃拉·菲茨杰拉德的段落一樣。

現實情況是,目前的AI系統無法對你在這些情況下所做的事情進行復制,無法對一系列句子進行整合,無法對段落中說了什么和沒說什么進行事實重建。如果你能看懂我們的話,那你就是人,而不是機器。或許有一天,你可以讓Alexa將《華爾街日報》與《華盛頓郵報》對總統的報道進行比較,或者讓Alexa問問你的家庭醫生,最近的體檢報告中是否漏掉了什么信息。但就目前而言,這還只是幻想。還是繼續跟Alexa聊聊天氣吧。

我們所擁有的就是一個虛擬助手的大雜燴,通常很有用,但永遠都做不到完全可靠——沒有一個能做我們人類讀書時所做的事情。無論我們曾經懷著多么遠大的理想和目標,現實情況就是,AI出現已經60多年了,從功能上講計算機依然與文盲無異。

計算機不會閱讀的三大原因

深度學習解決不了這個問題,與其緊密相關的“端到端”學習也解決不了這個問題。在“端到端”學習中,研究者訓練AI將輸入直接轉換為輸出,無須通過任何中間子系統。舉例來說,傳統的駕駛方法將整體分解成感知、預測和決策等子系統(也許在某些子系統中利用深度學習作為其中的一個手段),而端到端的汽車駕駛系統則不經過子系統,是將攝像頭圖像作為輸入,并將加速或轉向等調整動作返回作為輸出,沒有中間子系統來確定視野中有哪些物體位于什么地方,如何移動,其他司機可能會做什么、不可能做什么,等等。

端到端系統發揮的作用有可能極為有效,而且比更加結構化的替代方案更容易實現。端到端系統需要的人力投入也相對較少。有時,這就是最好的解決方案。正如《紐約時報》關于谷歌翻譯的文章所說,端到端深度學習系統已經極大提高了機器翻譯的技術水平,取代了以前的方法。現在,如果你想做一個英法互譯的程序,那么首先就要收集一個規模巨大的英法雙語對照的語料庫,比如法律規定加拿大議會的議事錄必須同時以英法雙語出版,這就是很好的語料。從此類數據中,谷歌翻譯可以自動學習英語單詞短語與法語對應詞之間的相互關系,而無須事先掌握關于法語或英語的知識,也不需要事先了解法語語法的復雜性。即便是我們這樣的懷疑論者也為此而贊嘆不已。

問題是,一個藥方治不了所有的病。事實證明,端到端的方法非常適合機器翻譯,一部分原因在于可以隨時獲得大量相關數據,還有一部分原因在于,幾乎所有英語單詞和法語單詞之間都存在或多或少的清晰對應關系。絕大多數情況下,你可以在英法詞典中找到精確對應的法語單詞,而且兩種語言中單詞順序之間的關系遵循相當標準的模式。但關于語言理解的許多其他方面都不太適用端到端方法。

比如屬于開放式場景的回答問題就不太適用,一部分原因在于正確答案中所使用的單詞可能與文本中的單詞并沒有明顯的關系,而且,我們也找不到規模堪比英法雙語議事錄文件的問答數據庫。即使有這樣一個數據庫,由于各種問題和答案的潛在變化空間極為龐大,無論怎樣的數據庫都只能覆蓋全部可能性之中的一小部分。如前所述,這就給深度學習帶來了嚴重的問題:深度學習在應用場景中偏離其訓練集越遠,遇到的麻煩就會越多。

而且說實話,即使在機器翻譯中,端到端方法也有局限性。它們通常(雖然并不總是)能夠很好地傳達要點,但單詞和短語的匹配有時還不夠。當正確的翻譯取決于更深層次的理解時,系統便無法招架。如果你讓谷歌翻譯一個法語句子“Je mange un avocat pour le dejeuner”,正確的意思是“我午餐吃了一個鱷梨”,但你得到的翻譯是“我午餐吃了一個律師”,法語單詞avocat有“鱷梨”和“律師”兩個意思。而且因為寫律師的文章比寫鱷梨的文章要多(尤其是在加拿大議會的議事錄上),所以谷歌翻譯從統計角度出發自動選擇了那個更為常見的意思,而付出了違背常識的代價。

侯世達(Douglas Hofstadter)在《大西洋月刊》上發表的一篇精彩文章中,生動地描述了谷歌翻譯的局限性:

我們人類對夫妻、房子、個人財產、驕傲、競爭、嫉妒、隱私等許多無形之物了如指掌,并由此產生一些看似古怪的行為,比如一對已婚夫婦在毛巾上繡著“他”和“她”。谷歌翻譯并不了解這種情形。谷歌翻譯對所有的情形都一無所知。它唯一熟悉的就是由字母組成的單詞以及由單詞串起來的句子。它唯一擅長的就是關于文本片段的超高速處理,而不是思考、想象、記憶或理解。它甚至不知道單詞代表的是什么東西。

雖然科技的進步有目共睹,但對于我們來說,世界上絕大部分文字知識依然無法獲取,就算是以數字化的在線形式存在也改變不了這樣的現實,因為這些知識是以機器無法理解的形式存在的。電子醫療記錄中充滿了所謂的“非結構化文本”,比如病歷、電子郵件、新聞文章和word文檔等,無法整齊排列在表格之中。而真正的機器閱讀系統將能夠深入到所有這些內容之內,從病歷中搜尋線索,再從血液檢測和入院記錄中捕捉到重要信息。但這一問題遠遠超出了目前AI的能力所及,很多病歷從未得到過細致閱讀。舉例來說,人們正在開發用于放射醫療的AI工具。這些工具能夠讀取圖像,對腫瘤與健康組織進行區分。但是,目前還沒有辦法對真正的放射科醫生所做的另一部分工作進行自動化,這部分工作,就是將圖像與病人的病史相聯系。

在大量擁有潛在商業價值的AI應用中,理解非結構化文本的能力是一個重要的瓶頸。我們現在還不具備自動化閱讀法律合同、科學文章或財務報告的能力,因為上述每一類文件中都包含了AI無法理解的文本。雖然目前的工具有能力從最晦澀的文本中提取基本信息,但通常也會遺漏掉許多內容。市面上花樣迭出的文本匹配和鏈接計數工具的確提供了一點幫助,但這些工具根本無法讓我們距離擁有真正閱讀和理解能力的程序更近一步。

口語理解(也稱為對話理解)的情況也沒好到哪去。對于將口語轉換成醫學病歷的計算機醫生助手來說,面臨的挑戰更加艱巨―—有了這樣一個工具,醫生就可以將坐在電腦前的時間節約下來,把更多的時間用來和病人相處。來看看維克·莫哈爾醫生(Dr. Vik Moharir)發給我們的這段簡單對話:

醫生:你在體力勞動時會感到胸痛嗎?

病人:上周我在修剪院子里的草坪時,感覺就像一頭大象坐在了我身上。(指著胸口)

從“人”的角度來看,醫生問題的答案顯然是“是”。修剪草坪屬于體力勞動的范疇,而且我們能推斷出病人感覺到了痛苦,因為我們知道大象很重,而被重物壓到是很痛苦的。我們還能自動推斷出,鑒于一頭真正的大象可能造成的巨大傷害,“感覺”這個詞在這里是個比喻,不能從字面意義去理解。而從“機器”的角度來看,除非之前有過很多關于大象的具體討論,否則機器很可能認為這只是關于大型哺乳動物和庭院雜務的無意義閑扯。

我們是怎么陷入這一灘渾水之中的呢?

計算機不會閱讀的第一個原因是不會建立認知模型。

深度學習在學習相關性時非常有效,比如圖像、聲音和標簽之間的相關性。但是,當涉及理解客體與其組成部分之間的關系時,比如句子與單詞和短語的關系,深度學習就犯了難。為什么?因為深度學習缺少語言學家所說的“組合性”,也就是從復雜句子各個成分的意義來構建其整體意義的途徑。舉例來說,在這句“月亮離地球380000千米”中,“月亮”這個詞意味著一個特定的天體,而“地球”則意味著另一個天體,千米意味著距離的單位,“380000”表示一個數字,鑒于漢語中短語和句子的特定組合結構,“380000千米”意味著一個特定的長度,而“月亮離地球380000千米”這句話,就是為了說明兩個天體之間的距離是這個特定的長度。

令人驚訝的是,深度學習并沒有處理組合性的直接方法,有的只是浩如煙海的孤立特征,而其間并不存在任何結構。深度學習可以知道狗有尾巴和腿,但并不知道尾巴和腿與狗的生命周期有什么關系。深度學習并不知道狗是由一個頭、一條尾巴、四條腿組成的動物,甚至不知道動物是什么,不知道頭是什么,更不知道青蛙、狗和人的頭在概念上有所不同,不知道這些頭在細節上存在差異,但與其所在的軀體都保持著同樣的關系。深度學習也不能認識到,像“月亮離地球380000千米”這樣的句子,其中包含了關于兩個天體和一個距離長度的短語。

再舉個例子,我們讓谷歌翻譯將“The electrician whom we called to fix the telephone works on Sundays”(我們叫來修理電話的那個電工在星期天上班)這句話翻譯成法語,得到的答案是“L’électricien que nous avondes appelé pour réparer le téléphone fonctionne le dimanche”。如果你懂法語,就能看出來這個翻譯不太對。特別需要指出的是,work(上班)這個詞在法語中有兩種翻譯:travaille意為“工作”,fonctionne意為“正常運轉”。谷歌使用了fonctionne這個詞,而不是travaille,和我們的理解有所不同。“星期天上班”在語境中指的是電工,如果你說到一個正在工作的人,你應該使用動詞travaille(不定式:travailler)。從語法上講,此處動詞“work”(上班)的主語是電工,而不是電話。句子的整體意義是各個成分組合在一起所表達出來的,而谷歌并沒有真正理解這一點。谷歌翻譯在許多情況下取得了成功,而這些成功讓我們高估了系統所知的范圍,但事實證明,谷歌翻譯的確缺乏深度。由此我們也能看出關于AI的錯覺與現實之間的距離。

還有一個與此相關的重要問題是,深度學習并不具備整合背景知識的好辦法,這一點我們在前面的第3章中也有提到。如果要學習在圖片和標簽之間建立聯系,怎么做到的并不重要,只要能給出正確的結果,就沒人會關心系統的內部細節,因為最初設定的目標就是為給定的圖像匹配正確的標簽,這一任務與我們所了解的絕大部分常識都搭不上關系。而語言遠非如此。事實上,我們看到或聽到的每一句話,都要求我們在大量的背景知識的基礎之上推斷出這些背景知識與所讀內容之間的相關性。深度學習缺乏表達這類知識的直接方法,更不可能在理解句子的過程中以背景知識為基礎進行推理。

最后,深度學習是靜態地將輸入匹配到標簽,比如把貓的圖片匹配到貓的標簽,但閱讀是一個動態的過程。當你利用統計方法對故事開篇的文字進行翻譯,將“Je mange une pomme”翻譯成“我吃一個蘋果”,你不需要知道這兩句話的意思,只要你能根據之前的雙語語料庫識別出“je”和“我”相匹配,“mange”和“吃”相匹配,“une”和“一個”相匹配,“pomme”和“蘋果”相匹配。

許多時候,機器翻譯程序可以給出一些有參考價值的東西,但一次只翻譯一個句子,并不能理解整篇文章的意思。

當你在閱讀故事或文章時,你做的是與機器完全不同的事情。你的目標不是去構造統計學上的合理匹配,而是去重建一個作家用文字與你分享的世界。當你讀到阿曼佐的故事時,首先會發現故事包含三個主要人物:阿曼佐、他的父親、湯普森先生。隨后你會對這些人物的細節進行填充,比如阿曼佐是個男孩,他的父親是個成年人等。你還會對一些事件的發生進行把握,比如阿曼佐發現了一個錢包,阿曼佐問湯普森先生這個錢包是不是他的等。同樣,當你每次走進房間,每次去看電影或讀故事時,都會無意識地做類似的事情。你會判斷此處有哪些實體,它們之間的關系是什么。

用認知心理學的話來講,你在閱讀文本時所做的,就是建立一個關于文本表達意義的認知模型。這可以很簡單,比如對丹尼爾·卡尼曼(Daniel Kahneman)和已故的安妮·特里斯曼(Anne Treisman)所講的“對象文件”進行編譯(對象文件是關于個體對象及其屬性的記錄);也可以很復雜,比如對復雜場景的透徹理解。

舉例來說,當你讀《農莊男孩》時,會逐步在腦海中對故事中所有的人物、東西和事件及其之間的關系建立起形象:阿曼佐、錢包和湯普森先生,阿曼佐與湯普森先生對話的事件,湯普森先生大喊大叫、拍打口袋,湯普森先生從阿曼佐手中搶過錢包,等等。只有在你讀過文本并構建起認知模型之后,你才有能力完成與這段故事有關的任務,包括回答相關問題,將段落翻譯成俄語,總結,模仿,演繹,解釋,或者僅僅是在腦海中留下記憶。

谷歌翻譯是狹義AI的典型代表,回避了認知模型的構建與使用的全過程。谷歌翻譯從不需要對事件進行推理或跟進事件的進展。在其擅長的領域,谷歌翻譯做得還算不錯,但其擅長的領域只涵蓋了閱讀的極小一部分。谷歌翻譯從來不會為故事建立認知模型,因為它做不到。你不能向深度學習提問“如果湯普森先生摸了摸他的口袋,發現在放錢包的地方有一個鼓包,那么會發生什么”,因為這種問題根本不屬于深度學習范式中應有的部分。

統計數字不能代替對現實世界的理解。問題不僅僅是偶爾出現隨機誤差而已,而是在目前翻譯工具所使用的統計分析與真正的閱讀理解所需的認知模型構建之間存在本質上的不匹配。

計算機不會閱讀的第二個原因是不理解“不”的含義。

深度學習面臨的一個令人意想不到的難題,就是對“不”這個詞的理解,而經典AI方法則不會遇到同樣的問題。還記得Siri在遇到“找一家不是麥當勞的快餐店”這個指令時給出的錯誤回復嗎?提出這個問題的人,大概想要得到一個類似“榆樹街321號的漢堡王,緬因街57號的溫蒂漢堡,以及春街523號的IHOP”這樣的答案。但是,溫蒂漢堡、漢堡王或IHOP并沒有與“不”這個詞聯系在一起的特征,而且人們也不會特別頻繁地將這些餐廳稱作“不是麥當勞”。所以冰冷的統計數據并不能將這些餐廳與“不是麥當勞”聯系起來,盡管同樣的方法可以將“國王”與“王后”聯系起來。人們可以想出一些統計技巧來解決識別餐廳這一特定問題,但是想要對所有涉及“不”字的場景進行全面處理,則遠遠超出了深度學習的現有能力。

你真正需要的,是一套傳統的曾用于構建數據庫和經典AI的計算操作方法:構建一個列表,比如某個位置附近的快餐店,然后排除屬于另一個列表的元素,比如各家麥當勞特許經營店的列表。

但深度學習的構建原理從最一開始就避開了這類計算。列表在計算機程序中是最基本、最普遍的存在,已有50多年的歷史(第一個主要的AI編程語言LISP就是圍繞這一基礎構建起來的),卻完全被深度學習排除在外。于是,要讓深度學習理解一個包含“不”字的查詢,就如同要將方釘打入圓孔一樣困難。

計算機不會閱讀的第三個原因是無法應對模糊性。

人類語言充滿了模棱兩可的描述。許多單詞都有多種含義:作為動詞的work既有工作的意思,也有發揮作用的意思;作為名詞的bat既是一種會飛的哺乳動物,也是棒球運動中使用的木棒。這些還算相對能說清楚的。若想將in或者take等詞匯的全部不同意義都一一列舉出來,能寫滿一部詞典。事實上,除了非常專業的詞匯外,大多數詞匯都有多重含義。而短語的語法結構也不甚清晰。“People can fish”這句話,是指人們可以去釣魚,還是說人們把沙丁魚和金槍魚之類的魚裝進罐頭里,就像在約翰·斯坦貝克(John Steinbeck)的小說《罐頭廠街》(Cannery Row)里寫的那樣?代詞之類的詞常常會引出更多的歧義。如果你說,薩姆抱不動哈利是因為他太重了,那么從原則上講,“他”既可以是薩姆,也可以是哈利。

我們人類讀者的神奇之處就在于,99%的時候甚至都注意不到這些不清晰的地方。我們不會感到困惑,而是會在無意識的情況下,迅速地、毫不費力地找到正確的解釋方法―—如果存在正確解釋的話。

假設你聽到這樣一句話:Elsie tried to reach her aunt on the phone,but she didn’t answer。雖然這句話在邏輯上模棱兩可,但意思卻很清楚。在你的意識里,根本不會有所疑慮,去想tried在這里是不是指法庭訴訟,或reach是否意味著親身到達目的地,或on the phone是不是在說阿姨站在電話上面搖晃著保持平衡,或者短語she didn’t answer中的單詞she是否指的是埃爾茜(Elsie)本人。相反,你立刻就會把注意力集中在正確的解釋上:埃爾茜想通過打電話聯系阿姨,但阿姨沒有接。

現在試一試用機器來實現上述所有這些能力。在某些情況下,簡單的統計就能發揮作用。tried這個詞表達“嘗試”這個意思的次數要比表達“提起訴訟”的次數多得多。on the phone這個短語表達“用電話進行交流”這個意思的頻率也要比表達“坐在電話上”的頻率高,即便會存在例外情況。當動詞reach后面跟著一個人,而句子附近能找到單詞phone時,reach這個詞的意思很可能是“成功實現了溝通”。

但在很多情況下,統計方法并不能幫你得到正確的答案。如果不能真正理解發生了什么,是沒有辦法解決模糊性這個問題的。在“Elsie tried to reach her aunt on the phone, but she didn’t answer”這句話中,最重要的是背景知識與推理的配合。背景知識能讓讀者一目了然地知道埃爾茜不可能接她自己打的電話。通過邏輯分析,你知道she肯定指的是她的阿姨。學校里沒人教我們如何進行這類推理,因為我們本能就知道應該怎么做。從我們最初開始對這個世界進行理解時,這種推理能力就自然而然地形成了。而在這類問題面前,深度學習完全無從下手。

常識很重要

遺憾的是,到目前為止,也沒人找到真正有效的替代思路。經典AI技術,也就是在深度學習流行起來之前比較常見的方法,在組合性方面有更好的表現,也是構建認知模型的有用工具,但經典AI方法不善于從數據中學習,目前在這方面根本不能與深度學習相比,而且經典方法要對語言進行人工編碼,實在太過復雜煩瑣。經典AI系統通常使用模板,例如,模板[位置一離位置二有距離]可以與“月球離地球有380000千米”這句話進行匹配,被用來識別指明兩個位置之間距離的句子。但是,每個模板都必須通過人工進行編碼,每次遇到一個與以往不同的新句子時,比如,“月球位于地球約380000千米開外”,或者“月球在380000千米之外圍繞地球沿軌道運轉”,系統就會無所適從。而且,僅靠模板本身也很難實現關于世界的知識與語言知識的結合,從而難以解決語言模糊性的問題。

目前,自然語言理解領域落于兩種不同的思路之間:一種是深度學習。深度學習非常善于學習,但在組合性和認知模型構建方面很弱。另一種是經典AI。經典AI將組合性和認知模型的構建囊括了進來,但在學習方面表現平平。

而兩者都忽略了我們在本章中始終強調的主要內容:常識。

除非你非常了解世界是怎么運轉的,了解人物、地點、物體及其彼此之間的相互作用,否則根本無法為復雜文本建立可靠的認知模型。如果沒有常識,你讀到的絕大多數內容都將毫無意義。計算機之所以做不到有效閱讀,真正原因就在于它們對世界的運行方式缺乏基本理解。

可惜,掌握常識這件事遠比人們想象的要難上許多。我們隨后還會了解到,讓機器獲得常識的這一需求,也遠比人們想象的要更加普遍。如果說常識對語言領域來說是個不容忽視的問題,那么,在機器人領域則更為緊迫。

作者簡介:

蓋瑞·馬庫斯(Gary Marcus),新硅谷機器人創業公司AI首席執行官兼創始人。機器學習公司“幾何智能”首席執行官兼創始人,該公司于2016年被優步收購,隨后馬庫斯在優步創立了人工智能實驗室。紐約大學心理學和神經科學教授。研究方向跨越人類和動物的行為,涉及神經科學、心理學、人工智能等多個領域。1994年于麻省理工學院博士畢業,師從心理學大師史蒂芬·平克。

歐內斯特·戴維斯(Ernest Davis),紐約大學柯朗數學科學研究所計算機科學教授,人工智能領域科學家。

本文經授權節選自《如何創造可信的AI》   作者:[美] 蓋瑞·馬庫斯 / [美] 歐內斯特·戴維斯   出版社:浙江教育出版社   原作名:Rebooting AI: Building Artificial Intelligence We Can Trust   譯者:龍志勇   出版年:2020-5-31

本文來自微信公眾號:騰訊研究院 (ID:cyberlawrc),作者:蓋瑞·馬庫斯、歐內斯特·戴維斯,編譯:龍志勇

標簽:

返回頂部
高清视频在线观看免费播放器-伊人日本-色九月综合-18禁止看的免费污网站-免费观看性行为视频的网站-天天碰天天操-久久精品国产欧美日韩99热-中文字幕在线视频不卡-国产偷人妻精品一区二区在线-国内精品久-伊人影院在线看-密臀av一区-久久综合五月丁香久久激情-福利一区福利二区-gg国产精品国内免费观看-国产精品 高清 尿 小便 嘘嘘
  • <cite id="ecweg"><pre id="ecweg"></pre></cite>
    <rt id="ecweg"><acronym id="ecweg"></acronym></rt>
  • <rt id="ecweg"></rt>
    北条麻妃在线观看| 青春草在线视频免费观看| 国产精品jizz在线观看老狼| 国产真人无码作爱视频免费| 欧美日韩中文字幕在线播放| 伊人免费视频二| www激情五月| 在线播放黄色av| 先锋影音男人资源| www.射射射| 亚洲不卡中文字幕无码| 免费看一级大黄情大片| 国产肥臀一区二区福利视频| 免费国产黄色网址| www日韩在线观看| 奇米影视四色在线| 四虎永久免费网站| 男人插女人视频在线观看| 欧美一级在线看| 欧美一级裸体视频| avove在线观看| 国产freexxxx性播放麻豆| 日本日本19xxxⅹhd乱影响| 欧美成人免费高清视频| 伊人网在线综合| 蜜臀精品一区二区| 人妻无码视频一区二区三区| 特级西西444www| 国产一线二线三线女| 亚洲国产精品毛片av不卡在线| www.精品在线| 日本中文字幕在线视频观看| 日本熟妇人妻xxxxx| 奇米777在线| 日韩av在线综合| 波多野结衣 作品| 午夜欧美福利视频| 欧美日韩不卡在线视频| 亚洲天堂2018av| 欧美深夜福利视频| 一级全黄肉体裸体全过程| jizzjizzxxxx| 亚洲精品天堂成人片av在线播放 | av在线播放亚洲| 天天干天天草天天| 欧美亚洲另类色图| 中文字幕在线乱| www.日本一区| 欧美日韩国产精品激情在线播放| 在线观看中文av| 亚洲高清在线免费观看| 超碰成人免费在线| 福利在线小视频| 日本77777| 亚洲欧美国产中文| 天天碰免费视频| 国产免费人做人爱午夜视频| 分分操这里只有精品| 免费不卡av网站| 日本免费在线视频观看| mm131亚洲精品| 无限资源日本好片| 婷婷丁香激情网| 五月婷婷狠狠操| 日韩亚洲在线视频| 精品www久久久久奶水| 99热自拍偷拍| 日韩av资源在线| 国产麻花豆剧传媒精品mv在线| 天堂…中文在线最新版在线| 精品视频在线观看一区二区| 2021国产视频| www精品久久| 黄色片视频在线免费观看| 阿v天堂2017| 蜜臀久久99精品久久久酒店新书 | 成年人网站免费视频| 国产3p露脸普通话对白| 免费国产a级片| 久久无码高潮喷水| 国内自拍视频网| 992kp免费看片| 韩日视频在线观看| 黄色高清无遮挡| 一级黄色在线播放| 男人的天堂成人| 热99这里只有精品| 免费看国产黄色片| 日本一区二区三区四区五区六区| 永久免费看av| 欧美视频第三页| 久久精品国产精品亚洲精品色| 成人av在线不卡| 日本xxxx黄色| www.99riav| www.xxx亚洲| 人妻激情另类乱人伦人妻| 99蜜桃臀久久久欧美精品网站| 午夜一区二区视频| 僵尸世界大战2 在线播放| 中文字幕网av| 日韩国产欧美亚洲| 日本久久高清视频| 天天碰免费视频| 国产一区二区四区| 中文字幕1234区| 999香蕉视频| 少妇一晚三次一区二区三区| 福利在线一区二区三区| 国产乱子伦精品无码专区| 不卡影院一区二区| 精品丰满人妻无套内射| 一级黄色高清视频| 91色国产在线| 国产极品粉嫩福利姬萌白酱| 桥本有菜av在线| 日韩一区二区三区不卡视频| 欧美午夜性视频| 欧美性受黑人性爽| www.国产视频.com| 午夜精品在线免费观看| 欧美国产日韩激情| 又大又硬又爽免费视频| 天天成人综合网| 久久6免费视频| 一级在线免费视频| 国产精品69页| 免费裸体美女网站| 青青视频在线播放| 午夜精品久久久内射近拍高清 | 欧美激情精品久久久久久小说| h无码动漫在线观看| 日韩成人三级视频| 91亚洲精品国产| 精品人妻人人做人人爽| www.激情网| 青青青在线观看视频| 男女视频网站在线观看| 国产日韩欧美精品在线观看| 成年人网站国产| 国产淫片免费看| 激情内射人妻1区2区3区| 国产精品一区二区羞羞答答| 午夜在线观看av| 亚洲精品成人在线播放| av不卡在线免费观看| 国产精品啪啪啪视频| 91看片淫黄大片91| 久久综合色视频| 三上悠亚av一区二区三区| 中文字幕在线视频一区二区三区| 色姑娘综合天天| 每日在线观看av| 午夜免费一区二区| 男人天堂成人网| 日韩五码在线观看| 8x8x最新地址| av影院在线播放| 97公开免费视频| 欧美爱爱视频网站| 2022亚洲天堂| 久久久久久久免费视频| 精品视频免费在线播放| 777一区二区| 91av资源网| 91免费视频污| 粗暴91大变态调教| 欧美 亚洲 视频| 亚洲精品怡红院| 青草青青在线视频| 中文字幕制服丝袜在线| 国产成人精品视频免费看| 国产一级免费大片| 人妻内射一区二区在线视频| 一级特黄妇女高潮| 欧美精品性生活| 免费在线观看亚洲视频| 国产成人精品免费看在线播放 | 久久国产色av免费观看| 日本一区二区三区四区五区六区| 成人一区二区三| 青青青青草视频| 久久精品国产露脸对白| 亚洲乱码国产一区三区| 水蜜桃色314在线观看| 欧洲xxxxx| 亚洲 欧洲 日韩| 亚洲高清视频免费| 国产一二三区av| 国产熟女高潮视频| 欧美少妇性生活视频| 国产乱子伦农村叉叉叉| 日韩欧美不卡在线| 大伊香蕉精品视频在线| www.男人天堂网| 欧美大黑帍在线播放| avav在线播放| 日韩小视频网站| 人妻av中文系列| 国产原创中文在线观看|