我們的產品
我們的產品
媒資數據

簡介

        視暢匯聚了互聯網和各家CP/SP媒資元數據,包括全網影視庫、直播深度 EPG 數據、點播元數據、統一標簽庫、熱點數據、明星數據等,基于“程序為主、人工為輔”以及可信度加權的數據處理,形成了完整的統一媒資庫和統一標簽體系,進一步打造統一媒資大數據開放平臺和行業標準。
視暢的影視標簽有五大數據來源:愛優騰芒等視頻網站,豆瓣/時光網/IMDb等影評網站,貓眼/淘票票等票房數據,央視衛視地方臺上千直播頻道,以及合作伙伴數十家CP/SP。

        視暢打通直播、回看和點播的統一媒資標簽體系,一方面兼容國家行業標準GY/T 360-2022 《廣播電視和網絡視聽節目內容標識標簽規范》,另一方面從標簽層級和數量上來說更豐富,也更準確(有可信度加權,權值也參與智能推薦計算)。

標簽層級

        視暢建立了一套完整的統一媒資標簽體系,一級、二級、三級標簽體系;統一前數萬個標簽,統一后4000+個標簽。

統一標簽庫

        影視的分類標簽沒有統一的標準,例如“歷史”這個標簽,不同的編輯,有的叫“歷史劇”,有的叫“歷史片”,還有的叫“歷史人物”。視暢公司為此定義了統一標簽庫(同義詞映射表),會把“歷史劇”、“歷史片”、“歷史人物”統一映射為“歷史”。映射之后的標簽有數千個,而映射之前的標簽有數萬個,若按映射之前的標簽進行聚類,聚類算法不會有很好的收斂,推薦效果會很差。新的標簽會不定期出現,編輯人員負責新標簽的入庫和統一標簽庫的維護。

可信度加權

        如何做到標簽既豐富又準確?如何避免單一來源、單一編輯、單一CP/SP的標簽錯誤?視暢公司采用可信度加權,依靠的是群體智慧(Crowd Sourcing),平臺充分利用了聚合來的眾多標簽數據,并做了加權處理。例如:某影片的類型標簽為“冒險;科幻;驚悚;喜劇;動作;劇情;”,其權值tagWeight為“4;3;3;2;1;1;”,說明該影片有14個來源,其中4個來源標簽為“冒險”,3個來源標簽為“科幻”,3個來源標簽為“驚悚”,2個來源標簽為“喜劇”等等。Netflix會讓20個不同背景的專業人員為同一影片打標簽,然后做加權處理。平臺目前的做法是依靠爬蟲程序和群體智慧來做類似的處理,也是最為切實可行的。

平臺基于可信度加權建立的標簽體系及加權權重

 
        索引Index和排行Ranking是搜索和推薦引擎的基礎。平臺擁有全網影視大數據,除了既豐富又準確的統一元數據(index/metadata,標簽+權重),還有實時的熱點數據(ranking,播放量、評論量、搜索量和關注度,10分鐘更新一次到每天更新一次)。平臺可獲取到電視上的每一個節目在視頻網站和運營平臺的播放量,在搜索引擎的搜索量,在影評網站的評論量,在微博微信的關注度。
        平臺的數據是動態的。影視元數據標簽是動態的,聚合當前的影視數據來源,后續來源逐漸增多,會自動聚合多家來源。影視熱點數據是動態更新的,播放量、評論量、搜索量和關注度數據同樣動態更新。用戶行為數據是實時獲取的,在微信端做實時數據采集,電視端可利用已采集的數據(如電信的C3數據),若沒有用戶行為數據,則在EPG和播放器上實時采集用戶行為數據。推薦結果是動態更新的,即使用戶行為沒變,也會根據更新的標簽和熱點數據重新計算與用戶畫像最匹配的影片。

全網影視大數據服務能力

        視暢的統一元數據標簽體系,兼容國標 GY/T 360-2022 《廣播電視和網絡視聽節目內容標識標簽規范》。

        5 大數據來源:包括直播 EPG 數據(1400+頻道)、視頻網站(各大視頻網站等,包括播放量、熱度等動態數據更新)、社交網絡(微博微信影視關注度)、搜索引擎(百度、360的搜索熱詞)、影評網站(豆瓣、IMDb、時光網以及貓眼、淘票票等)。
        4000+統一標簽:視暢建立了一套完整的統一標簽體系,統一前有數萬個標簽,統一后區分了多級標簽體系,4000+個標簽。
        45 萬+點播內容:電影、電視劇、綜藝、新聞、動漫、體育、少兒、教育、娛樂等各類點播數據 45 萬+部。
        1400+直播頻道:包括央視、衛視、全國地方臺以及付費頻道等,擁有各頻道節目單,每天更新 30 萬+直播節目。
        30 萬+明星庫:平臺擁有全網藝人明星數據 30 萬+,包括基礎信息及關系圖譜,支持劣跡藝人一鍵下線。
        24 小時增量更新:直播元數據每 6 小時更新一次,點播元數據每 12 小時更新一次,藝人明星庫每天更新一次增量,熱度數據 10 分鐘更新、直播智能 EPG 播放進度 2 分鐘更新。
        視暢全網影視媒資大數據平臺,經過了 10 年的數據積累,其標簽、海報等信息基本都經過了人工編輯和審核,其中包括來自互聯網和各合作方的內容數據,擁有最完整的影視媒資元數據、統一標簽體系和藝人明星庫。
        統一媒資標簽服務所包含的媒資總數為 49 萬部,其中,電影:28.6 萬部,電視。4.6 萬部,綜藝:4.7 萬部,動漫:5.9 萬部,紀錄片:5.2 萬部;藝人明星數量為 34 萬。
        直播 EPG 頻道數量(央視、衛視、地方臺):3386 個頻道。其中,央視:102 個頻道(含高清和標清)衛,視頻道:164 個頻道(含內地、港澳臺及部分國外頻道),地方臺及其它頻道:3120 個頻道(含內地、港澳臺及部分國外頻道)。

 

上海視暢信息科技有限公司
上海市浦東新區張江集電港龍東大道3000號1號樓A幢12樓A區
聯系電話:
021-61001763
合作咨詢:
business@vstartek.com
Copyright@2018 上海視暢信息科技有限公司 滬ICP備10026472號 營業執照
久久大香伊人中文字幕-欧美日韩亚洲精品国产色-av电影一区二区-国产一线天精品视频