magi搜索引擎好用嗎 magi搜索引擎怎么樣

搜索引擎市場飽和了嗎?并沒有 。因為新的技術還在不斷的更迭換代 。最近,Peak Labs發布了一款新的搜索引擎,名字叫做Magi,用戶在界面鍵入關鍵詞,即可獲取Magi從互聯網文本中自主學習到的結構化知識和網頁搜索結果,每個結構化結果后面都會附上來源鏈接和其可信度評分 。

magi搜索引擎好用嗎 magi搜索引擎怎么樣

文章插圖
其實Magi很早以前就已經做出來了,并且一直在修改 。Peak Labs能夠 exhaustively 提取重疊交錯的知識,且不利用 HTML 特征;不預設 predicate / verb,實現真正意義上的 “Open” Information Extraction;配合自家 web 搜索引擎以評估來源質量,信息源和領域不設白名單;大幅提升實時性,熱點新聞發布后幾分鐘內,就可以搜到結構化知識了;沒有前置 NER 和 dependency parsing 等環節,減少母文本信息的損失;技術棧完全 language-independent,可以實現低資源和跨語言 transfer 。
具體來說,Magi 不再依賴于預設的規則和領域,不帶著問題地去學習和理解互聯網上的文本信息,同時盡可能找出全部信息而非挑選唯一最佳 。Magi通過終身學習持續聚合和糾錯,為人類用戶和其他人工智能提供可解析、可檢索、可溯源的知識體系 。
magi搜索引擎好用嗎 magi搜索引擎怎么樣

文章插圖
【magi搜索引擎好用嗎 magi搜索引擎怎么樣】普通用戶可以隨時體驗公眾版的 magi.com,以文本的形式檢索和查看知識,而程序則可以選擇通過 DSL 或向量化的形式訪問 Magi 更為廣闊的結構化網絡 。
Peak Labs還做到了不再使用 HTML 標簽特征,直接處理純文本 。眾所周知,HTML 的標簽信息能提供額外的語義信號,讓信息提取變得清晰 。Crestan et al的調查顯示大約 75% 的頁面帶有 table,排除用于導航和排版的,仍有 12% 的 table 是有語義價值的,可見僅通過 HTML Table Mining 就能獲得很多有意義的數據 。
此外還能配合自家 web 搜索引擎以評估來源質量,信息源和領域不設白名單,并且大幅提升實時性,熱點新聞發布后幾分鐘內,就可以搜到結構化知識了 。
magi搜索引擎好用嗎 magi搜索引擎怎么樣

文章插圖
通用性是提取模型和算法層面的屬性,而若要真正提供有價值的服務,還需要數據方面的支持 。公眾版的 magi.com 致力于從互聯網信息中尋找有價值的數據,讓原本被埋沒于字里行間的知識有機會走入到各種知識圖譜中,同時作為背景知識來遷移學習增強垂直領域的定制化服務 。
然而,互聯網語料質量參差不齊,抄襲拼接、自動生成、惡意篡改等行為會造成大量事實性錯誤,甚至可能讓模型在持續的學習調整過程中越來越差 。對于這些問題,Peak Labs都進行了優化處理 。

    推薦閱讀