福州新聞網站建設,新聞網站怎么找內容

  • 福州新聞網站建設,新聞網站怎么找內容已關閉評論
  • A+

福州新聞網站建設,新聞網站怎么找內容目前, 各類新聞門戶網站已經成為上至國際關系下至百姓生活各類新聞事件的重要發布媒體之一。同時, 此類門戶網站 (例如:ifeng.com、toutiao.com) 為了增加廣大網民間的互動性與參與性, 都設置評論區。很多網民通過“評論區”表達了自己對各類事件的看法和觀點。這些評論大多都與門戶網站的某篇新聞報道相互對應, 通常是對特定新聞事件的觀點闡述和情感表達。這些評論往往具有真實性和針對性, 可以較好的反映不同類型, 不同群體的網民對各類新聞事件的直接看法和想法。因此, 本文重點介紹通過對新聞事件報道與對應的網友評論的抓取、分析, 實現對互聯網輿情監測的具體方法。

1 相關理論

網絡輿情監測是一門多學科交叉下的應用科學, 它的發展建立在各種網絡協議 (例如:HTTP、TCP) 的基礎上, 同時又要與網頁爬蟲技術、自然語言處理技術等相結合, 并且自身可以定義為大數據背景下的一種具體應用。

1.1 網絡輿情監測及意義

馬克思曾指出, 人是一切社會關系的總和。隨著科學的進步, 信息技術的普及, Internet網絡成為當前人們重要的人與社會聯系工具, 因此也是表達自身與社會各種關系的渠道。網絡信息, 具有傳播速度快, 影響范圍廣的特點。網絡輿情監測, 就是通過分析網民在網絡空間的言論來了解網民 (整個社會大部分群體) 思想。曾在全國宣傳思想工作會議上指出, 把黨的理論和路線方針政策變成人民群眾的自覺行動, 及時把人民群眾創造的經驗和面臨的實際情況反映出來, 豐富人民精神世界, 增強人民精神力量。因此, 網絡輿情監測至少具有三個方面重要的意義:中國特色社會主義文化建設的需要;公共決策科學化和民族化的需要;社會主義民主政治建設的需要。

1.2 大數據與Hadoop

隨著科學技術的進步特別是微電子技術的快速發展, 計算機及移動智能設備的運算速度不斷提高, 存儲器容量不斷擴大, 以計算機和手機為代表的智能設備已經成為人們工作與生活中的必需品。同時, 人們在使用各類智能設備的過程中, 將有意或無意的產生大量不同類型的數據, 這些數據是“大數據”的重要組成部分。大數據就是針對海量數據的儲存及使用提出的, 通過對海量不同結構數據進行有目的的分類與處理, 得到某些隱藏在數據表象下深層規律的方法。

Hadoop是在大數據背景下提出的, 目標是解決大數據集在儲存、管理、查詢和分析帶來的挑戰。Hadoop具體實現是通過由大量計算機組成“集群”的控制與管理。它的優勢包括快速訪問集群內不同計算機上存儲數據的能力;通過失效轉移提高可靠性;集群內的計算機數量可以根據需要進行擴展。這些功能都由Hadoop內不同組件實現,

2 模型設計

本網絡輿情監測方案基本思想是抓取新聞門戶網站發布的新聞 (html格式) 和對應評論頁面的入口地址, 再通過得到的評論入口地址, 抓取評論信息。新聞內容只抓取一次, 對應的評論信息, 每小時抓取一次, 并進行去除重復處理。本程序的網絡輿情監測結果, 是通過用戶提供的關鍵字在已經抓取的新聞內容中進行搜索, 得到相關新聞列表后, 在讀取這些新聞對應的評論信息。最后, 通過對這些評論的分析得到監測結果。因本輿情監測方案抓取數據量較大, 并且此程序需要長時間運行, 因此本程序選擇部署在Hadoop管理的集群上是適合的。

2.1 新聞報道與評論數據獲取

本程序需要抓取的資料分別是新聞報道和網友發表的評論

資料獲取過程幾點說明:

(1) 網址生成:根據不同新聞報道頁面特點生成網址。例如, 鳳凰網 (ifeng.com) 新聞發布頁面網址的特點是"http://211.85.197.33:80/rwt/02/http/N3TYP63PNFUGK5UHF3SX85B/a/"+日期+"/"+8位隨機數+"_0.shtml" (如:http://211.85.197.33:80/rwt/02/http/N3TYP63PNFUGK5UHF3SX85B/a/20170728/51523893_0.shtml) .在本程序具體實現時, 需要對“/”進行轉義, 因為“/”在Hadoop環境下屬于特殊字符, 不進行轉義將產生非期望結果。

(2) 網址有效性檢查:如果網址無效, 新聞門戶網站會返回錯誤提示頁面, 不能抓取到新聞報道。因此, 可以根據訪問頁面html語言的結構特點進行判斷。

(3) 新聞和評論頁面“超鏈接”網址抓取:如果是正確的網址可以在此頁面指定位置讀取到需要的內容。本程序網頁內容抓取通過Python語言的Beautiful Soup模塊實現。

(4) 為了反映此新聞的關注度和留言的變化情況, 會在一定的時間周期內再次訪問評論頁面獲取數據。因此, 每次抓取到的評論要與前一次比較, 去掉重復內容。具體實現時, 為了提高去掉重復評論內容的效率, 創建獨立文件保存每次抓取的評論中最新評論者的網名和評論時間。再次抓取此新聞評論時, 先從獨立文件中讀取上一次抓取到的最新一條評論的網名和評論時間數據, 再對新評論頁面進行查找, 抓取本次時間周期內網友新發布的評論。新聞門戶網站的評論展示, 通常都是時間倒序式排列, 找到與獨立文件中網名和發布時間都吻合的這條評論, 它之前的評論就是需要抓取的新增評論。

2.2 特定新聞事件的輿情分析

熱點新聞事件通常是可以引起全社會關注和熱烈討論的事件。同時, 大量的熱點新聞事件是由系列新聞報道或追蹤報道組成, 因此特定事件的輿情分析, 首先要獲取與特定新聞事件相關的新聞報道。本程序的實現方法是通過特定事件的關鍵字, 在抓取的新聞內容中進行相關報道查找。查找到的結果就是與特定關鍵字相關的新聞報道, 再通過查找這些新聞報道對應的網友評論, 最后對這些評論進行分析得到結果,

通過關鍵字提取相關新聞時, 優先匹配新聞標題, 其次是新聞內容。在具體實現時, 為了提高提取效率和準確性, 提前對新聞進行關鍵字提取。在對評論進行分析時, 也是通過先對網友發表的評論進行關鍵字提取, 再通過這些關鍵字得到網友對此新聞的態度和看法。

2.3 評論內容分析

抓取到的評論內容中通常有大量無統計意義詞匯, 這些詞匯的存在影響關鍵詞提取的效率和準確性, 因此對獲取的原始評論數據先進行干擾詞清洗。本程序的方法是建立一個干擾詞表, 將無統計意義的詞放入到這個詞表。并對原始的評論數據利用干擾詞表進行清洗。

對于經過清洗的評論, 進行情感詞提取。網民評論中通常含有表明網民情感態度的情感詞, 此類詞數量不多, 可以通過建立情感詞表進行有針對性的提取。這樣做的好處是可以通過準確提取評論中的情感類詞匯, 較為準確直接獲取此網友對此新聞的態度。同時, 這也是對評論中情感類詞匯的一次清洗, 提高下一步評論關鍵詞提取的效率。

經過無統計意義詞和部分情感類詞匯濾除, 原評論的數據量有了一定程度的減小和語句也進行了分割 (為了避免歧義的發生, 對詞語被過濾處插入空格) 。本程序關鍵詞提取采取python語言中文分詞組件jieba實現。結巴分詞 (jieba組件) , 其功能包括支持三種分詞模式 (精確模式、全模式、搜索引擎模式) , 支持繁體分詞, 支持自定義詞典等。本程序采取結巴分詞中的精確模式 (即, 盡量將句子用最準確的方法分開) 實現。

2.4 非察覺內容分析

各類新聞門戶網站提供的新聞評論信息除網友主動輸入內容外, 還有部分是系統自動生成的。例如, 網友發布評論的時間, 地點等信息。這部分信息通常具有可信度高和格式較為固定的特性。因為非察覺內容有這兩種特性, 所以這類信息獲取是必要的和容易的。本程序中是通過正則表達式對這部分信息進行獲取。正則表達式是進行字符串處理的高效工具, 可以通過預定義的特定模式去匹配具有共同特征的數據[9]。

3 程序運行結果與分析

3.1 網民發布評論時間統計

本程序的數據直接來源有163新聞 (news.163.com) 、新浪新聞 (news.sina.com.cn) 、一點資訊 (www.yidianzixun.com) 、今日頭條 (www.toutiao.com) 和鳳凰新聞 (news.ifeng.com) , 這五個網站每日的評論數大概在4.8億條左右, 并且呈現一定的規律性。圖5表明, 每日網友評論發布數量在零點后會逐漸減少, 在凌晨四點到五點間到達到最少, 然后開始上升, 中午十二點到一點左后會達到一個小高峰, 然后會有一個降低, 但在下午三點后開始回升, 晚上十二點左右達到高峰。

網友發布評論數量與發布時間的變化關系和人的作息時間基本一致。評論數量一般與閱讀數量成正比, 因此如果想讓新聞快速讓更多人去瀏覽, 可以在晚間20點至23點時段發布, 同理, 此時間段廣告效果最好。

3.2 中美貿易戰

2018年3月22日, 美國總統特朗普在白宮簽署了對中國出口到美國商品征收關稅的決定。次日, 中國商務部發布針對性回應, 標志著中美貿易戰正式開始。此事件備受關注, 各新聞媒體都進行了大量報道。同時, 這場貿易戰也成為廣大網民熱議的焦點問題, 網友們紛紛通過各大新聞門戶網站關注相關報道, 并通過各網站評論欄, 表達對此新聞報道的觀點和想法。以下是通過本系統, 得到2018年3月20日至2018年7月1日時間段內關于中美貿易戰網友發表評論較多的新聞報道和對應網友評論中抓取的關鍵字。

發布評論數量排名前十的地區是:廣東、浙江、北京、江蘇、上海、山東、四川、福建、湖北、河南。

熱點新聞事件的選出, 比較有代表性的是PageRank算法。但由于本程序的目標是統計網民對不同新聞報道的關注程度而不是統計新聞的重要性, 因此本程序通過網友對新聞發表評論量來確定新聞報道頁面的排名權重。從網友關注的新聞標題可以看出, “中美貿易戰”系列新聞報道中, 網民普遍關注的相關新聞報道角度包括:貿易戰對中國經濟的影響, 貿易戰對中國發展的影響, 中國政府對貿易戰的態度和回擊措施和美國與其它國家的經濟關系的變化。

分析從網友評論中抓取的情感關鍵詞, 反映出中國大部分網友對中國政府在此次中美貿易戰的應對措施是認可和支持的。同時, 分析 抓取到的觀點關鍵字, 可以得出網友們對“中美貿易戰”相關熱點問題的觀察與思考。網友評論中的觀點關鍵詞, 可以分成以下四組:

第一組:應對奮斗教訓發展回擊機會使命責任抗擊

國內很多主流媒體的新聞報道指出“中美貿易戰”發生的根本原因是中國提出“強國”戰略。部分美國學者認為, 中國的強國戰略將使美國喪失世界霸主地位和全球第一大經濟體的寶座。因此, 美國希望通過貿易戰, 打擊世界第二大經濟體———中國, 使其放棄或修改“強國”戰略。從這些關鍵詞可以看出, 廣大網友是支持“中國共產黨第十九次全國代表大會”中提出的到2050年把中國建成富強民主文明和諧美麗的社會主義現代化強國 。當然, 網友也清醒的認識到, 美好藍圖的實現不會是一帆風順, 需要應對發展中出現的各種問題和阻力?!爸忻蕾Q易戰”的是發展中遇到的一次考驗, 網友的評論關鍵字表明, 他們希望望中中國國政政府府進進行行抗抗擊擊和和回回擊擊, , 教教訓訓美美國國的的““霸霸權權主主義義””, , 這這也也是是當當代代中中國國人人的的責責任任和和使使命命。

第二組:國債旅游農業

既然是“貿易戰”意味雙方手中都有籌碼。網友提到的這三個詞反映的就是當前中國手中的部分籌碼。中國目前是美國最大的債權國, “國債” (此處特指, 中國政府購買的美國債券) 成為評論的熱點問題。網友們對“國債”也有不同的看法, 有的網友認為通過“國債”可以看出雙方經濟的互補性, 貿易戰對雙方的經濟都有損害;也有網友認為中美貿易摩擦的加劇, 會影響到中國對美國的債券投資。中國日報2018年3月1日公布《2017年中國出境旅游大數據報告》, 根據此報告提供的數據2017年中國公民出境旅游突破1.3億人次, 花費達1152.9億美元, 保持世界第一大出境旅游客源國地位。因此, 中國人旅游目的地的選擇, 將直接影響當地的經濟收入。中國商務部公布的應對美國發起的貿易戰的措施, 包括增高原產于美國農產品關稅。長期以來, 關于轉基因食品的安全性討論中, 農產品的進口就是討論的熱點問題。有部分網友指出, 中美貿易戰的發生, 減少了轉基因農產品的進口是好事。

第三組:芯片科技工業能源臺灣

這組詞是網友們總結的在中美貿易戰中, 美國方面主要著力點。高科技領域是中國的短板, 特別是芯片領域, “中興事件”就是真實寫照。我國石油天然氣資源相對不足, 是當前中國經濟和社會發展中的短板。臺灣是中國的一部分, 因為還沒有統一在中華人民共和國的領導下, 并且臺灣與美國有長期的歷史淵源, 所以“臺?!标P系一直是中美關系中不可回避的熱點問題。從“中美貿易戰”爆發以來, 關于臺灣的新聞報道量和網友的關注度都有增加。

第四組:孤立盟國圍攻

這組詞是網友提出的應對“中美貿易戰”的戰略方針。美國發起的這場貿易戰是反經濟全球化的, 在當今世界經濟“一體化”的大背景下是不和諧的, 因此美國會遭到孤立和圍攻?!叭蛸Q易戰開打!美國突然先和這些國家干起來了”的新聞說明的正是這個方面。

第五組:兩敗共贏

這組詞是網友對“中美貿易戰”未來前景的討論。共贏的結果是兩國人民的期盼, 但“貿易戰”長時間, 大范圍的進行, 最后的結果只能是兩敗。

4 結論

本文設計并實現了一種通過抓取新聞門戶網站新聞報道和對應網友評論, 實現網絡輿情監測的程序。程序運行結果表明, 對非察覺內容統計與分析可以得到網友評論條數增長量與時間的對應關系。此關系揭示了網絡輿情監測的重點時段, 因此對網絡輿情監測優化和商業廣告推廣具有指導意義。通過對抓取到的新聞報道和對應網友評論的關鍵字提取, 可以獲取網友對指定新聞事件相關報道關注度的差異。同時, 也可以對提取的關鍵字進行二次人工提取和分類, 感知網友們的思維角度與表達的觀點。