99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

合肥生活安徽新聞合肥交通合肥房產生活服務合肥教育合肥招聘合肥旅游文化藝術合肥美食合肥地圖合肥社保合肥醫院企業服務合肥法律

代寫MET CS777 Large-Scale Text Processing

時間:2024-02-25  來源:合肥網hfw.cc  作者:hfw.cc 我要糾錯


Assignment 4

 

Large-Scale Text Processing

 

MET CS777

 

Description

 

In this assignment you will implement k-nearest neighbor classifier (KNNclassifier) to classify text documents. For example, given a search text “ How many goals did

 

Vancouver score last year?”, the algorithm searches all the documents corpus (corpus: large and structural text) and returns the top K similar documents.

 

The TF-IDF (Term Frequency - Inverse Document Frequency) is used as the similarity/distance measure between two document/texts.

 

In the first step, the top 20k English words of the corpus will be selected, then the TF-IDF matrix of a text corpus get computed, which is used to find similarity between the texts.

 

Wikipedia dataset

 

In this assignment, the Wikipedia data set is used. The entire Wikipedia data set has been downloaded from (https://dumps.wikimedia.org) and stored in a large file.

 

Each Wikipedia Page is a document and have a unique document ID and a

 

specific URL. For example,

 

• docID 418348

 

• URLhttps://en.wikipedia.org/wiki?curid=418348

 

Data format

 

Each line is a single document in a pseudo XML format.

 

 

 

Small Data Set - Wikipedia Pages

 

You can find a small data set (Only 1000 Wikipedia pages) on AWS S3:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1000LinesSmall.txt

 

Large Data Set

 

Large data set consists of 1 million pages (2.2 GB) and can be found here:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1m.txt

 

Categories of the large data of Wikipedia can be found here:

 

s3://metcs777-sp24/data/wiki-categorylinks.csv.bz2

 

Templates

 

Use Assignment4-Template.[ipynb/py] as starting point for your implementation.

 

Tasks

 

Task 1 (10 points): Generate a 20K dictionary

 

Task 1.1 - Using Wikipedia pages, find the top 20,000 English words, save them in an array, and sort them based on the frequency of the occurrence.

 

Task 1.2 - As a result, adictionary has been generated that contains the top 20K most frequent words in the corpus. Next go over each Wikipedia document and check if the words appear in the Top 20K words. At the end, produce an RDD that includes the docID as key and a Numpy array for the position of each word in the top 20K dictionary.

 

(docID, [dictionaryPos1,dictionaryPos2,dictionaryPos3...])

 

Task 2 (20 Points): Create the TF-IDF Array

 

After having the top 20K words we want to create a large array that its columns are the words of the dictionary with number of occurrences of each word and the rows are documents.

 

The first step is calculating the “Term Frequency”, TF (x, w), vector for each document as follows:

 

 

 

“Term Frequency” is an indication of the number of times a term occurs in a document. Numerator is number of occurrences of a word, and the denominator is the sum of all    the words of the document.

 

Next, calculate “Inverse Document Frequency” for all the documents and finally calculate TF-IDF(w) and create TF-IDF matrix of the corpus:

 

 

 

Note that the “size of corpus” is total number of documents (numerator). To learn more about TF-IDF see the Wikipedia page: https://en.wikipedia.org/wiki/Tf-idf

 

Task 3 - Implement the getPrediction function (30 Points)

 

Finally, implement the function getPrediction(textInput, k),which will predict the membership of the textInput to the top 20 closest documents, and the list of top categories.

 

You should use the cosine similarity to calculate the distances.

 

 

 

Task 4 (30 points): Implement the code using Dataframes

 

Implement the complete code in Dataframe and printout the results of the task 3 using dataframes in pyspark. From the beginning of your code to the end of your kNN implementation you are allowed to usespark dataframe and python (including python libraries like numpy). You are not allowed to use RDDs.

 

Task 5 (10 points) Removing Stop Words and Do Stemming

 

Task 5.1 - Remove Stop Words

 

Describe if removing the English Stop words (most common words like ”a, the, is, are, i, you, ...”) would change the final kNN results.

 

Does your result change significantly after removing the stop words? Why?

 

Provide reasons.

 

You do not need to code this task.

 

Task 5.2 - Considering English word stemming

 

We can stem the words [”game”,”gaming”,”gamed”,”games”] to their root word ”game” .

 

Does stemming change your result significantly? Why? Provide reasons.

 

You can learn more about stemming at:

 

https://en.wikipedia.org/wiki/Stemming

 

You do not need to code this task.

 

Submission Guidelines

 

● Naming Convention:

 

METCS777-Assignment3-[TaskX-Y]FIRST+LASTNAME.[pdf/py/ipynb]

 

Where:

 

o [TaskX-Y] doesn’t apply for .[pdf] files

 

o No space between first and lastname

 

● Files:

 

o Create one document in pdf that has screenshots of running results of all coding problems. For each task, copy and paste the results that your lastSpark job saved in the bucket. Also, for each Spark job, include a screenshot of the Spark History. Explain clearly and precisely the results.

 

o Include output file for each task.

 

o Please submit each file separately (DO NOT ZIP them!!!).

 

● For example, sample submission of John Doe’s Assignment 4 should be the following files:

 

o METCS777-Assignment4-JohnDoe.pdf

 

o METCS777-Assignment4-Task**4-JohnDoe.ipynb

 

o METCS777-Assignment4-Task**JohnDoe.py

 

o METCS777-Assignment4-Task**Output-JohnDoe.txt

 

o METCS777-Assignment4-Task2-JohnDoe.py

 

o METCS777-Assignment4-Task2-Output-JohnDoe.txt o …

 

 

 

Figure 1: Screenshot of Spark History

 

 

Evaluation Criteria for Coding Tasks

 

 

Academic Misconduct Regarding Programming

 

In a programming class like this, there is sometimes a very fine line between “cheating” and acceptable and beneficial interaction between peers. Thus, it is very important that  you fully understand what is and what is not allowed in terms of collaboration with your classmates. We want to be 100% precise,so that there can be no confusion.

 

The rule on collaboration and communication with your classmates is as follows: you cannot transmit or receive code from or to anyone in the class in anyway —visually (by  showing someone your code), electronically (by emailing, posting, or otherwise sending someone your code), verbally (by reading code to someone) or in any other way we have not yet imagined. Any other collaboration is acceptable.

 

It is not allowed to collaborate and communicate with people who are not your classmates (or your TAs or instructor). This means posting any questions of any nature to programming forums such as StackOverflow is strictly prohibited. As far as going to  the web and using Google, we will apply the “two-line rule”. Go to any web page you   like and do any search that you like. But you cannot take more than two lines of code   from an external resource and include it in your assignment in any form. Note that changing variable names or otherwise transforming or obfuscating code you found on  the web does not render the “two-line rule” inapplicable. It is still a violation to obtain more than two lines of code from an external resource and turn it in, whatever you do to those two lines after you first obtain them.

 

Furthermore, you must always cite your sources. Add a comment to your code that includes the URL(s) that you consulted when constructing your solution. This turns out to be very helpful when you’re looking at something you wrote a while ago and you need to remind yourself what you were thinking.

請加QQ:99515681  郵箱:99515681@qq.com   WX:codehelp 

掃一掃在手機打開當前頁
  • 上一篇:System Calls程序代做、代寫Manage Files
  • 下一篇:代寫CSC8636 – Summative Assessment
  • 無相關信息
    合肥生活資訊

    合肥圖文信息
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    出評 開團工具
    出評 開團工具
    挖掘機濾芯提升發動機性能
    挖掘機濾芯提升發動機性能
    海信羅馬假日洗衣機亮相AWE  復古美學與現代科技完美結合
    海信羅馬假日洗衣機亮相AWE 復古美學與現代
    合肥機場巴士4號線
    合肥機場巴士4號線
    合肥機場巴士3號線
    合肥機場巴士3號線
    合肥機場巴士2號線
    合肥機場巴士2號線
    合肥機場巴士1號線
    合肥機場巴士1號線
  • 短信驗證碼 豆包 幣安下載 AI生圖 目錄網

    關于我們 | 打賞支持 | 廣告服務 | 聯系我們 | 網站地圖 | 免責聲明 | 幫助中心 | 友情鏈接 |

    Copyright © 2025 hfw.cc Inc. All Rights Reserved. 合肥網 版權所有
    ICP備06013414號-3 公安備 42010502001045

    99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

          国产一区二区日韩| 国产精品欧美一区二区三区奶水 | 麻豆精品在线观看| 久久av二区| 久久深夜福利免费观看| 久久一本综合频道| 欧美精品电影在线| 欧美日韩一区二区在线| 国产精品久久精品日日| 国产精品一区二区三区四区 | 亚洲天堂av在线免费| 亚洲一区二区少妇| 欧美专区18| 欧美成人精品不卡视频在线观看| 欧美激情亚洲国产| 国产精品美女| 一区二区在线观看av| 亚洲人www| 午夜精品久久久久久久白皮肤| 久久免费99精品久久久久久| 国产日韩一区二区三区在线| 欧美一区二区三区喷汁尤物| 一区二区国产在线观看| 亚洲精品中文字幕有码专区| 亚洲欧美成人一区二区在线电影| 亚洲电影观看| 在线日韩欧美视频| 国内成人精品一区| 国产综合久久| 欧美一区二区三区免费视| 亚洲一区尤物| 欧美国产专区| 国产一区在线看| av不卡在线| 久久九九精品| 国产精品视频xxx| 国产精品久久久久一区二区三区| 在线观看成人av| 香蕉久久夜色精品国产使用方法| 欧美va天堂| 国内外成人免费激情在线视频网站| 亚洲精品永久免费| 久久久一区二区| 国产欧美精品日韩| 亚洲一区二区精品在线| 欧美激情视频一区二区三区在线播放| 国产在线观看91精品一区| 中国成人在线视频| 欧美啪啪一区| 亚洲日本电影在线| 麻豆精品精品国产自在97香蕉| 国产精品国产三级国产普通话99| 91久久久久久久久久久久久| 久久久久99精品国产片| 国产欧美婷婷中文| 性久久久久久| 国产精品一区视频| 亚洲欧美高清| 国产精品成人免费| 宅男精品导航| 欧美四级电影网站| 亚洲图片欧美一区| 国产精品欧美日韩| 午夜精品久久久久久| 国产精品一区二区久久久久| 在线亚洲激情| 国产精品一二一区| 欧美一级视频一区二区| 国产视频一区二区在线观看| 香蕉尹人综合在线观看| 国产欧美一区二区精品秋霞影院| 亚洲一区欧美| 国产亚洲精品自拍| 噜噜噜噜噜久久久久久91| 在线免费不卡视频| 欧美日韩高清一区| 亚洲天堂视频在线观看| 国产日韩欧美一区二区三区四区| 久久婷婷国产麻豆91天堂| 免费成人毛片| 好吊成人免视频| 性久久久久久| 欧美午夜精品久久久久久人妖 | 欧美午夜一区二区| 亚洲黄色一区二区三区| 国产精品久久久久久久久久久久| 亚洲精品一品区二品区三品区| 欧美日韩亚洲一区二| 99v久久综合狠狠综合久久| 国产精品福利在线观看网址| 欧美亚洲视频| 亚洲高清成人| 欧美午夜精品久久久久久久 | 欧美日韩国产另类不卡| 亚洲午夜精品久久久久久浪潮| 国产伦精品一区二区三区| 久久美女性网| 亚洲午夜电影网| 激情小说另类小说亚洲欧美| 欧美人成免费网站| 久久精品欧美日韩| 亚洲福利视频网站| 国产精品免费一区二区三区在线观看 | 亚洲综合色在线| 伊人激情综合| 国产精品久久97| 欧美h视频在线| 欧美一级大片在线观看| 亚洲最黄网站| 在线观看视频一区| 国产麻豆视频精品| 欧美日韩亚洲91| 美女主播精品视频一二三四| 亚洲欧美日韩视频一区| 最新亚洲激情| 一区二区三区在线观看视频| 国产精品久久久久久久久久久久久| 欧美xart系列在线观看| 久久国产精品99久久久久久老狼 | 久久精品盗摄| 亚洲香蕉网站| 夜夜爽av福利精品导航| 在线免费观看视频一区| 国产亚洲精品bt天堂精选| 欧美日韩久久精品| 欧美激情精品久久久久久蜜臀| 久久精品人人做人人爽电影蜜月| 国产精品99久久不卡二区| 亚洲精品网址在线观看| 亚洲国产成人精品久久久国产成人一区| 国产欧美一区二区三区国产幕精品| 欧美日产国产成人免费图片| 亚洲电影免费| 国产精品日韩欧美一区二区三区| 久久欧美肥婆一二区| 亚洲天堂av电影| 精品99一区二区| 欧美日韩情趣电影| 久久国产黑丝| 亚洲午夜激情网站| 在线观看日韩专区| 国产精品一区二区三区四区| 欧美a一区二区| 久久激情网站| 亚洲一区二区精品在线| 亚洲国产精品久久人人爱蜜臀| 国产精品网站一区| 欧美国产欧美综合| 久久久99精品免费观看不卡| 一区二区成人精品| 亚洲国产人成综合网站| 国产日韩精品电影| 国产精品日韩欧美一区二区| 欧美日本一区| 免费亚洲电影在线| 在线视频欧美精品| 国模精品一区二区三区| 9国产精品视频| 亚洲国产网站| 国产精品亚洲网站| 狠狠色狠狠色综合| 亚洲乱码国产乱码精品精98午夜| 一本久久综合亚洲鲁鲁五月天| 一区二区三区偷拍| 久久久免费av| 欧美日韩国产美女| 久久久精品视频成人| 欧美专区日韩视频| 久久久国产精彩视频美女艺术照福利| 亚洲一区二区免费看| 亚洲在线1234| 午夜精品久久久久久久| 亚洲欧美日韩综合aⅴ视频| 亚洲欧美日本另类| 欧美一区三区三区高中清蜜桃 | 欧美国产亚洲精品久久久8v| 免费不卡在线观看| 欧美r片在线| 欧美激情第4页| 欧美日韩美女在线观看| 国产精品久久国产愉拍| 国产精品日产欧美久久久久| 国产日韩欧美高清| 国产真实久久| 亚洲第一区色| 日韩天堂在线视频| 亚洲香蕉伊综合在人在线视看| 亚洲欧美高清| 久久久久久亚洲精品中文字幕| 可以看av的网站久久看| 欧美精品在线免费| 国产精品亚洲美女av网站| 国产综合色在线| 亚洲人成网站精品片在线观看| 日韩视频免费看| 性欧美大战久久久久久久免费观看 | 久久久久久电影| 欧美高清一区| 国产欧美日韩一区二区三区在线| 国内精品视频一区|