六肖中特免费公开资料
把握大勢,當爭朝夕,內容安全如何做到“盡在掌握”
2019-04-12 09:27:10 來源: 開普云 作者:

近年來,隨著信息社會不斷發展,微信、微博等新興媒體影響力越來越大,國家相繼出臺多項政策引導新興媒體健康有序發展。

2019年1月,中共中央宣傳部和國家廣播電視總局聯合發布《縣級融媒體中心建設規范》,要求平臺管理者在信息發布前、發布后對內容進行審核,確保對外呈現內容的合法性、正確性、合理性。2018年12月,國務院辦公廳印發《關于推進政務新媒體健康有序發展的意見》,要求各單位嚴格內容發布審核制度,堅持分級分類審核、先審后發,嚴把政治關、法律關、保密關、文字關。

面對新要求、新變化,平臺主管部門在享受新媒體實時傳播、雙向交流等種種優越性的同時,也面臨著需要確保信息更新及時,內容準確權威等新的挑戰。這也使新媒體運營者承擔著更大的壓力,需要在及時發稿要求緊、無法多次校稿的情況下,對內容進行精準把控。

但“萬事盡從忙里錯”,速度快與準確性高往往很難兼得。一段簡單的報道錯誤也可能對政府形象和公信力造成巨大的負面影響。

筆者曾做過測試,將一篇報道中的幾處叫法故意改錯,并增加了公民的身份隱私信息。10名參與測試的編輯人員在可使用搜索引擎的情況下,竟無一人找出報道中的全部錯誤,其中兩名工作經驗尚淺的編輯人員,竟忽略了報道中存在的身份隱私信息。這個測試結果表明:在新媒體運營過程中,一些內容安全問題單靠人工投入很難解決,必須結合技術手段!

目前開普云產品已經實現對新媒體平臺的內容安全自動監測功能,通過機器學習算法和深度學習算法的結合,最大程度避免內容安全問題!

短程+中程+長程算法相結合的錯別字檢查

在錯別字識別中,開普云獨創地提出了短程、中程、長程相結合的算法,通過局部N-Gram打分、依存概率判斷,結合深度學習評估流暢性,可以從微觀到宏觀發現各種錯別字問題和語法問題,比目前市面上基于“規則+bigram”識別錯別字的方法,領先了至少一代,在識別精度、識別效率上全面提升。

兩層DAT多模式串算法極大提升敏感詞監測的精準度

在敏感詞監測中,每個敏感詞的變種就有數千種,傳統的多模式串匹配算法根本難以在內存中加載如此龐大的詞庫。開普云獨創性地通過兩層的DAT多模式串算法,可以窮盡所有可能的多字、少字、錯一字、交換兩字的模式串,在毫秒級實現上百億種模式串的快速比對,讓所有敏感詞無所遁形。

除此之外,開普云還在大數據服務平臺中融入多項專利技術,不斷探索,以高技術保障高抓取精度與高準確率,確保內容安全問題“盡在掌握”。

把握大勢,當爭朝夕,在國家新戰略指導下,中國正加速邁入媒體融合發展新時代,各單位在大力構建符合市場需求的新媒體平臺,讓其更具傳播力和競爭力的同時,更要守好內容安全這道底線,讓主流媒體更具強大引導力、公信力。