昨天,谷歌發布“Talk to Books”(撩書??)和一個名為Semantris的游戲。這兩項都是基于自然語言文本理解,用戶能夠憑語義而非關鍵詞來實現搜索功能。這些創新來源于“在向量空間中表示語言”想法的延伸,以及詞向量模型的發展。
未來的搜索,可能不需要輸入關鍵詞,直接表達想法就好。
谷歌昨晚放出大招:上線Semantic Experiences(語義體驗)網站,網站有兩項特殊功能,一個是“Talk to Books”(撩書??),一個是名為Semantris的語義聯想游戲。
這兩個大招都是基于自然語言文本理解,用戶能夠憑語義而非關鍵詞來實現搜索功能。
過去幾年里,自然語言理解(Natural language understanding)有了很大發展,部分原因是詞向量(word vectors)的發展使得算法能夠根據實際語言使用的例子來理解單詞之間的關系。這些向量模型根據概念和語言之間的等價性、相似性或相關性將語義上相似的短語映射到相近的點。去年,谷歌已經使用語言的分層向量模型(hierarchical vector models)改進了Gmail的智能回復。
當“Talk to Books”時,只需要輸入模糊的詞匯,算法模型會在超過10萬本書中搜索對應的每一個句子,以查找最有可能在對話中匹配的書籍,擺脫了以往通過書名或作者的搜索方式。
“Semantris”是一個單詞語義聯想游戲,當輸入單詞時,游戲會對屏幕中所有單詞進行評分,簡單有趣。
這篇博客由著名的未來學家、谷歌研究的工程總監Ray Kurzweil和產品經理Rachel Bernstein發布,博客地址:
https://research.googleblog.com/2018/04/introducing-semantic-experiences-with.html?m=1
游戲試玩地址:
https://research.google.com/semantris/
谷歌還公開了論文“Universal Sentence Encoder”,論文中詳細描述了這些示例所使用的模型。此外,谷歌Semantic Experiences網站還在TensorFlow平臺上提供了一個預先訓練好的模型供其他研究人員進行實驗。
不用關鍵詞,輕松去“撩書”
“Talk to Books”可以讓用戶與用機器學習訓練的算法進行對話,該算法可以從人寫的文本中找到相關段落的答案。
“撩書”的方法很簡單:你只要輸入一句話,這句話可以是一個陳述句或一個疑問句,然后而“Talk to Books”會在書中找到相應的句子,完全不依賴于關鍵字匹配。
比如,問“為什么天空是藍色的?”你會得到很多不同的答案,這些答案都是在清晰的文本中顯示出來的,并且顯示來自于關于這個主題的書籍。
這種做法改變了以往使用標準的谷歌關鍵詞搜索的方式,并且也不需要必須點擊鏈接并解析文章或網頁。
此外,“Talk to Books”的Web界面非常整潔、完美(更沒有競價排名的醫療小廣告)。
Kurzweil和Berstein說,這個模型接受了10億次類似的訓練,比如對句子進行分析,并學會識別出好的反應可能是什么樣的?!耙坏┠銌柫四愕膯栴}(或者做了一個陳述),這些工具就會在超過10萬本書中搜索所有的句子,找出那些根據句子層面的語義含義對你的輸入做出反應的句子。你輸入的和你得到的結果之間的關系沒有預先定義的規則。
不過,“Talk to Books”并不是最完美的。TheVerge報道稱,這個工具更適合回答原始的事實問題,而在處理復雜的地緣政治問題或現代文化和歷史重要性的話題時表現不佳。
但是作為一個簡單的Web工具,谷歌表示,這個技術能幫助改進像Gmail智能回復這樣的產品,而且與書籍對話是一種以自然語義的方式搜索Web的有趣方式。更重要的是,它讓我們意識到,當人工智能真正成熟到可以處理幾乎所有我們拋出的問題時,未來的界面會是什么樣子。
Semantris:開腦洞、發散思維的小游戲
跟“撩書”一起推出的是一款叫做Semantris的游戲,它主要測試用戶單詞聯想能力。
舉個例子,如果你把“床”(Bed)這個單詞放在一個10個單詞的最上面,你可能會把“睡眠”(Sleep)作為一種反應。Semantris將對這10個單詞進行排序,并根據它認為床與睡眠之間的語義關系與列表中的其他單詞之間的關系進行比較,最后還可以打分。
應該指出的是,很多谷歌實驗也是公司收集用戶數據的方法,通過給用戶提供豐富的關于文字關系的信息,有助于信息技術的發展。這似乎是Semantris的案例,但無論如何,游戲是測試你自己能力的一種有趣的方式,看看軟件如何判斷單詞之間的聯系。
此外,你也可以玩一個類似tetris的游戲,它可以讓你輸入文字來清除屏幕上的文字塊,根據你自己的假設,軟件可以在彩色方塊上的文字和你輸入的答案之間的文字之間畫出什么關聯。
建模方法
谷歌使用的方法是“在向量空間中表示語言”這一想法的延伸,方法是為更大的語言塊(如完整句子和小段落)創建向量。由于語言是由概念層次組成的,我們使用一個模塊層級結構創建向量,每個模塊考慮與不同時間尺度的序列對應的特征。如果以正確的方式訓練,然后提出正確的“問題”,那么就可以用向量空間語言模型來表示相關性、同義詞、反義詞、部分整體關系、同形異義詞以及其他許多類型的關系。谷歌在論文“Efficient Natural Language Response for Smart Reply”中描述了這種方法。
-
谷歌
+關注
關注
27文章
6217瀏覽量
106979 -
關鍵詞
+關注
關注
0文章
16瀏覽量
9882 -
自然語言
+關注
關注
1文章
291瀏覽量
13547
原文標題:谷歌發大招:搜索全面AI化,不用關鍵詞就能輕松“撩書”
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
亞馬遜代運營 amazon Search term 關鍵詞填寫的“神技”
關鍵詞優化有哪些實用的方法
#2023,你的 FPGA 年度關鍵詞是什么? #
2010年10大流行搜索關鍵詞 Facebook居首
基于關鍵詞的最優路徑查詢算法
基于盲GDH簽名的無記憶模糊關鍵詞搜索
對加密電子醫療記錄的關鍵詞的搜索
Chrome新增一項功能 部分標簽頁可顯示該頁面關鍵詞
融合BERT詞向量與TextRank的關鍵詞抽取方法

一種基于詞和文檔嵌入的關鍵詞抽取方法

一種基于位置信息的關鍵詞自動化提取算法

評論